模型修复 | 负责任的 AI 工具包 | TensorFlow

什么是 TensorFlow 模型修复？

如果您已经确定机器学习模型存在公平性问题，则有三种主要的可用技术干预措施

TensorFlow 模型修复库提供了训练时技术来干预模型。

TensorFlow 模型修复库提供了两种技术来解决模型中的偏差和公平性问题，MinDiff 和反事实 Logit 配对 (CLP)。它们在下面的表格中进行了描述。

	MinDiff	CLP
何时应使用此技术？	确保模型对敏感属性的所有值都同样准确地预测首选标签。实现组机会平等。	确保模型的预测在“反事实对”（其中特征中引用的敏感属性不同）之间不会发生变化。例如，在毒性分类器中，例如“我是一个男人”和“我是一个女同性恋”不应该有不同的预测。实现一种形式的反事实公平。
它是如何工作的？	在训练期间，对两组之间分数的分布差异进行惩罚。	在训练期间，对反事实示例对之间的输出差异进行惩罚。
输入模态	损失函数对输出进行操作，因此理论上对输入和模型架构是不可知的。	损失函数对输出进行操作，因此理论上对输入和模型架构是不可知的。

MinDiff

CLP

何时应使用此技术？

确保模型对敏感属性的所有值都同样准确地预测首选标签。

确保模型的预测在“反事实对”（其中特征中引用的敏感属性不同）之间不会发生变化。例如，在毒性分类器中，例如“我是一个男人”和“我是一个女同性恋”不应该有不同的预测。

实现一种形式的反事实公平。

它是如何工作的？

在训练期间，对两组之间分数的分布差异进行惩罚。

在训练期间，对反事实示例对之间的输出差异进行惩罚。

输入模态

损失函数对输出进行操作，因此理论上对输入和模型架构是不可知的。