什么是 TensorFlow 模型修复?

如果您已经确定机器学习模型存在公平性问题,则有三种主要的可用技术干预措施

  • 训练数据预处理技术: 收集更多数据、生成合成数据、调整示例权重和不同切片的采样率。
  • 训练时建模技术: 通过引入或更改模型目标以及添加约束来更改模型本身。
  • 训练后技术: 修改模型的输出或输出的解释,以提高跨指标的性能。
TensorFlow 模型修复库提供了训练时技术来干预模型。

训练时建模

TensorFlow 模型修复库提供了两种技术来解决模型中的偏差和公平性问题,MinDiff反事实 Logit 配对 (CLP)。它们在下面的表格中进行了描述。

MinDiff CLP
何时应使用此技术?

确保模型对敏感属性的所有值都同样准确地预测首选标签。

实现组 机会平等

确保模型的预测在“反事实对”(其中特征中引用的敏感属性不同)之间不会发生变化。例如,在 毒性分类器 中,例如“我是一个男人”和“我是一个女同性恋”不应该有不同的预测。

实现一种形式的 反事实公平

它是如何工作的? 在训练期间,对两组之间分数的分布差异进行惩罚。 在训练期间,对反事实示例对之间的输出差异进行惩罚。
输入模态 损失函数对输出进行操作,因此理论上对输入和模型架构是不可知的。 损失函数对输出进行操作,因此理论上对输入和模型架构是不可知的。