什么是 TensorFlow 模型修复?
如果您已经确定机器学习模型存在公平性问题,则有三种主要的可用技术干预措施
- 训练数据预处理技术: 收集更多数据、生成合成数据、调整示例权重和不同切片的采样率。
- 训练时建模技术: 通过引入或更改模型目标以及添加约束来更改模型本身。
- 训练后技术: 修改模型的输出或输出的解释,以提高跨指标的性能。
训练时建模
TensorFlow 模型修复库提供了两种技术来解决模型中的偏差和公平性问题,MinDiff 和 反事实 Logit 配对 (CLP)。它们在下面的表格中进行了描述。
MinDiff | CLP | |
---|---|---|
何时应使用此技术? |
确保模型对敏感属性的所有值都同样准确地预测首选标签。 实现组 机会平等。 |
确保模型的预测在“反事实对”(其中特征中引用的敏感属性不同)之间不会发生变化。例如,在 毒性分类器 中,例如“我是一个男人”和“我是一个女同性恋”不应该有不同的预测。 实现一种形式的 反事实公平。 |
它是如何工作的? | 在训练期间,对两组之间分数的分布差异进行惩罚。 | 在训练期间,对反事实示例对之间的输出差异进行惩罚。 |
输入模态 | 损失函数对输出进行操作,因此理论上对输入和模型架构是不可知的。 | 损失函数对输出进行操作,因此理论上对输入和模型架构是不可知的。 |