双硬去偏器示意
有鉴于此,研究团队尝试纠正某些规律性,比如大数据集中的单词频率,以使 AI 在推理前对嵌入的内容进行“纯化”,抛弃那些带有性别歧视的词汇。
这套方案可以捕获单词的语义、句法、以及同其它单词的关系,此前已被许多自然语言处理(NLP)方案所采用,但因不可避免的性别偏见而遭到批评。
先前补救方案是在后处理过程中引入几个步骤,以剔除与性别歧视相关的成分,但有效性受到了较大的限制,比如在去偏见操作后又被复原了。
双硬去偏器基准测试成绩
为此,Salesforce 提出了名叫“双硬去偏”(Double-Hard Debias)的新方案,以将嵌入空间转换为表面上无性别的子空间。
然后在执行另一次消除偏见的操作之前,它会沿着这个维度去“投射”性别成分,以获取修改后的嵌入内容。为评估效果,研究人员针对 WinoBias 数据集开展了测试。
该数据集由赞成性别定型和反对性别定型的句子组成,性能差距反映了算法系统是如何在两个句子组上执行、并导致“性别偏见”的得分。
tSNE 嵌入投影
结果显示,在保留语义信息的同时,双硬去偏方案将使用 GloVe 算法获得的嵌入偏差得分,从 15 分砍半到了 7.7 分。此外在对嵌入进行建模的可视化(tSNE 投影)上,它也较其它方案的混合更加均匀。
即便如此,一些专家仍认为无法从词嵌入中完全消除偏见。比如慕尼黑工业大学的最近一项研究,就表明“没有天然中性的文本”。因为单词的语义内容,是始终与社会政治环境联系在一起的。