什么是 TensorFlow 模型补救?

如果您已识别出机器学习模型中存在的公平性问题,目前有三种主要的干预技术可供选择:

  • 训练数据预处理技术:收集更多数据、生成合成数据、调整样本权重以及不同切片的采样率。
  • 训练时建模技术:通过引入或修改模型目标以及添加约束条件来改变模型本身。
  • 训练后技术:修改模型的输出或对输出的解释,以提高在各项指标上的表现。
TensorFlow 模型补救 (Model Remediation) 库提供了用于模型干预的“训练时”技术。

训练时建模

TensorFlow 模型补救库提供了两种用于解决模型偏差和公平性问题的技术:MinDiff反事实逻辑配对 (CLP)。下表对它们进行了说明。

MinDiff CLP
您应该何时使用此技术?

确保模型针对敏感属性的所有值,都能同样准确地预测出首选标签。

实现群体机会均等

确保模型的预测结果在“反事实对”(即特征中所引用的敏感属性不同)之间不会发生变化。例如,在毒性分类器中,“I am a man”和“I am a lesbian”这类示例的预测结果不应存在差异。

实现某种形式的反事实公平性

它是如何工作的? 在训练过程中,对两组之间得分分布的差异进行惩罚。 在训练过程中,对反事实示例对之间的输出差异进行惩罚。
输入模态 损失函数作用于输出,因此理论上与输入和模型架构无关。 损失函数作用于输出,因此理论上与输入和模型架构无关。