Salesforce提出减轻AI性别偏见的新方法

访问：

阿里云新用户福利专场云服务器ECS低至102元/年

双硬去偏器示意

有鉴于此，研究团队尝试纠正某些规律性，比如大数据集中的单词频率，以使 AI 在推理前对嵌入的内容进行“纯化”，抛弃那些带有性别歧视的词汇。

这套方案可以捕获单词的语义、句法、以及同其它单词的关系，此前已被许多自然语言处理（NLP）方案所采用，但因不可避免的性别偏见而遭到批评。

先前补救方案是在后处理过程中引入几个步骤，以剔除与性别歧视相关的成分，但有效性受到了较大的限制，比如在去偏见操作后又被复原了。

双硬去偏器基准测试成绩

为此，Salesforce 提出了名叫“双硬去偏”（Double-Hard Debias）的新方案，以将嵌入空间转换为表面上无性别的子空间。

然后在执行另一次消除偏见的操作之前，它会沿着这个维度去“投射”性别成分，以获取修改后的嵌入内容。为评估效果，研究人员针对 WinoBias 数据集开展了测试。

该数据集由赞成性别定型和反对性别定型的句子组成，性能差距反映了算法系统是如何在两个句子组上执行、并导致“性别偏见”的得分。

tSNE 嵌入投影

结果显示，在保留语义信息的同时，双硬去偏方案将使用 GloVe 算法获得的嵌入偏差得分，从 15 分砍半到了 7.7 分。此外在对嵌入进行建模的可视化（tSNE 投影）上，它也较其它方案的混合更加均匀。

即便如此，一些专家仍认为无法从词嵌入中完全消除偏见。比如慕尼黑工业大学的最近一项研究，就表明“没有天然中性的文本”。因为单词的语义内容，是始终与社会政治环境联系在一起的。