MinDiff 是一种模型修复技术,旨在使两个分布相等。在实践中,它可用于通过对分布差异进行惩罚来平衡数据不同切片上的错误率。
通常,在尝试确保群体公平性时,您会应用 MinDiff,例如最小化属于敏感类别的切片数据与性能更好的切片数据之间的误报率 (FPR) 或误报率 (FNR) 之间的差异。有关公平性指标的深入讨论,请查看有关此主题的文献。123
MinDiff 如何工作?
给定来自我们数据集的两个示例集,MinDiff 会在训练期间对两个集合之间分数分布的差异进行惩罚。根据预测分数,两个集合越难以区分,应用的惩罚就越小。
惩罚是通过在模型用于训练的损失中添加一个组件来实现的。可以将其视为模型预测分布差异的度量。随着模型的训练,它会尝试通过使分布更接近来最小化惩罚,如下面的图表所示。
应用 MinDiff 可能会在原始任务的性能方面带来权衡。MinDiff 可能在不使性能下降到超出产品需求的程度的情况下有效,但产品所有者应谨慎决定在 MinDiff 的性能和有效性之间取得平衡。有关如何实现 MinDiff 的示例,请参阅 模型修复案例研究笔记本。
资源
有关在文本分类模型上应用 MinDiff 的教程,请参阅 MinDiff Keras 笔记本。
有关 TensorFlow 博客上 MinDiff 的博文,请参阅 应用 MinDiff 来改进模型博文。
有关完整的模型修复库,请参阅 模型修复 Github 仓库。
-
Dwork, C., Hardt, M., Pitassi, T., Reingold, O., Zemel, R. (2011). 通过意识实现公平性。 ↩
-
Hardt, M., Price, E., Srebro, N. (2016). 监督学习中的机会平等。 ↩
-
Chouldechova, A. (2016). 具有不同影响的公平预测:对再犯预测工具中偏差的研究。 ↩