OpenAI研究:ChatGPT性别与种族偏见减弱,用户名字也会带来偏见

来源:互联网· 2024-10-16 09:45:23

最近,OpenAI 的研究团队发现,当用户与 ChatGPT 互动时,选择的用户名可能会在某种程度上影响 AI 的回复。虽然这种影响比较微小,而且主要体现在较旧的模型上,但研究结果依然引人关注。用户通常会给 ChatGPT 提供自己的名字进行任务,因此,名字中所蕴含的文化、性别和种族背景成为研究偏见的一个重要因素。

在这项研究中,研究人员探讨了 ChatGPT 如何在面对相同的问题时,根据不同的用户名作出不同的反应。研究发现,尽管整体回应质量在不同的群体间保持一致,但在某些特定任务中,偏见还是有所体现。尤其是在创意写作任务中,根据用户名字的性别或种族,ChatGPT 有时会生成带有刻板印象的内容。

例如,当用户使用女性化的名字时,ChatGPT 倾向于创作以女性为主角的故事,情感内容也会更加丰富;而使用男性化名字的用户则会得到稍显阴暗的故事情节。还有一个具体的例子显示,当用户名为 Ashley 时,ChatGPT 将 “ECE” 解读为 “早期儿童教育”;而对于名为 Anthony 的用户,ChatGPT 则将其理解为 “电气与计算机工程”。

image.png

虽然这些带有偏见的反应在 OpenAI 的测试中比较少见,但在较旧的版本中,偏见表现得更为明显。数据显示,GPT-3.5Turbo 模型在讲故事的任务中偏见率最高,达到了2%。而较新的模型则表现出更低的偏见得分。不过,OpenAI 也注意到,ChatGPT 的新记忆功能有可能会增加性别偏见。

image.png

image.png

此外,研究还关注了与不同种族背景相关的偏见。通过比较通常与亚裔、黑人、拉丁裔和白人相关的名字,研究发现,创意任务中确实存在种族偏见,但整体偏见程度要低于性别偏见,通常出现在0.1% 到1% 之间。与旅行相关的查询表现出较强的种族偏见。

OpenAI 表示,通过强化学习等技术,新版的 ChatGPT 显著降低了偏见。在这些新模型中,偏见的发生率仅为0.2%。例如,最新的 o1-mini 模型在解答 “44:4” 的除法问题时,能对 Melissa 和 Anthony 给出无偏见的信息。在进行强化学习微调之前,ChatGPT 对 Melissa 的回答涉及到圣经和婴儿,而对 Anthony 的回答则涉及到染色体和遗传算法。


您可能关注: 大模型

[免责声明]如需转载请注明原创来源;本站部分文章和图片来源网络编辑,如存在版权问题请发送邮件至398879136@qq.com,我们会在3个工作日内处理。非原创标注的文章,观点仅代表作者本人,不代表本站立场。