该大学创建的数据集被广泛用于各种机器学习模型,以自动识别和列出静态图像中描绘的人和物体。如果你向系统展示公园的照片,那么经过培训的模型就会告诉你照片中有什么,例如孩子、成人、宠物、野餐摊位、草地和树木等等。
不过由于数据采集的时候并没有经过严苛的甄选,导致该系统会给女性贴上“妓女”或者“母狗”的标签,给黑人、黄种人贴上带有贬义色彩的标签。此外该数据库中还包含带有 C 字母的女性生殖器特写图片。
有关的问题训练库是8000万张微小图像,它创建于2008年,旨在帮助产生先进的对象检测技术。从本质上讲,它是一个巨大的照片集合,上面有描述照片中内容的标签,所有这些标签都可以输入到神经网络中,教它们将照片中的模式与描述性标签联系起来。
而 MIT 的这个数据集被业内广泛使用,大量应用程序、网站和其他产品在分析照片和相机镜头时候都会使用这些带有侮辱性的术语。