研究發(fā)現(xiàn)：在人為干預(yù)之下，GPT-4等大模型的種族主義偏見變得更隱秘

發(fā)布人：深科技時間：2024-03-16 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

Warning: getimagesize(): SSL: connection timeout in /var/www/html/www.edw.com.cn/www/rootapp/controllersspace/ArticlesmanageController.php on line 272 Warning: getimagesize(): Failed to enable crypto in /var/www/html/www.edw.com.cn/www/rootapp/controllersspace/ArticlesmanageController.php on line 272 Warning: getimagesize(https://mmbiz.qpic.cn/mmbiz_png/JJtKEey0hPahUAdMpXUwzsrHU7UJMJaPPFiasBBQqrHebH69zHHT5gHB0eNykdbkCO7icMNkiasClzZUiahTsebDiaw/640?wx_fmt=png&from=appmsg): failed to open stream: operation failed in /var/www/html/www.edw.com.cn/www/rootapp/controllersspace/ArticlesmanageController.php on line 272

自從像 ChatGPT 這樣的大型語言模型誕生以來，人們就發(fā)現(xiàn)它們存在種族主義。這是因?yàn)樗鼈兊挠?xùn)練數(shù)據(jù)中包含這些觀點(diǎn)，而開發(fā)人員的應(yīng)對策略是試圖降低它們的毒性。

但新的研究表明，隨著模型越來越大，這些努力只會遏制顯性的種族主義觀點(diǎn)，同時讓隱性的刻板印象變得更強(qiáng)、更隱蔽。

（來源：STEPHANIE ARNETT/MITTR | ENVATO）

研究人員測試了五個人工智能模型，包括 OpenAI 的 GPT-4 以及 Meta 和谷歌的舊模型，對使用美國黑人英語（AAE，African-American English）的人做出判斷。指令中沒有提到講話者的種族。

即使兩個句子的意思相同，與標(biāo)準(zhǔn)美國英語（SAE，Standard American English）的使用者相比，模型更有可能將“臟”“懶”和“笨”等貶義詞用于說黑人英語的人。

這些模型將講黑人英語的人與聲望較低的工作聯(lián)系起來，或者根本不會將他們與有工作聯(lián)系起來，當(dāng)被要求對假想的刑事被告做出判決時，它們更有傾向于建議將其判處死刑。

圖 | 綠色框是標(biāo)準(zhǔn)英語，紫色框是黑人英語（來源：資料圖）

一個更值得注意的發(fā)現(xiàn)是，該研究指出了現(xiàn)有的此類偏見的解決方式存在一個缺陷。

為了清除模型中的仇恨觀點(diǎn)，OpenAI、Meta 和谷歌等公司會在訓(xùn)練過程中引入人類反饋，讓人類工作者手動調(diào)整模型對某些提示的反應(yīng)方式。

這個過程通常被稱為“對齊”，旨在重新校準(zhǔn)神經(jīng)網(wǎng)絡(luò)中的數(shù)百萬個連接，并使模型更好地符合人類所期望的價值觀。

這種方法很好地打擊了常見的刻板印象，很多公司已經(jīng)使用了近十年。例如，該論文指出，如果用戶讓 GPT-2 說出對黑人的刻板印象，它很可能會列出“可疑”，“激進(jìn)”和“攻擊性”，但 GPT-4 不會再做出與這些聯(lián)想有關(guān)的回應(yīng)。

然而，該方法未能解決使用黑人英語時引發(fā)的隱性刻板印象。相關(guān)論文以預(yù)印本的形式發(fā)表在 arXiv 上，尚未經(jīng)過同行評審。研究人員認(rèn)為，部分原因是公司對“方言或俚語偏見”這一問題的認(rèn)識不足。

從指導(dǎo)模型的角度而言，使其不回應(yīng)顯性的種族問題，顯然比不回應(yīng)俚語或方言中包含的隱性偏見更容易。

艾倫人工智能研究所研究員、該論文的合著者瓦倫丁·霍夫曼（Valentin Hofmann）說：“人類的反饋教會模型考慮種族主義。但俚語偏見存在于更深的層次。”

沒有參與這項研究的 Hugging Face 倫理研究員阿維吉特·戈什（Avijit Ghosh）表示，這一發(fā)現(xiàn)讓人對公司解決偏見的方法產(chǎn)生了質(zhì)疑。

他說：“這種對齊方式，即讓模型拒絕生成種族主義的輸出內(nèi)容，只不過是一個脆弱的過濾器，很容易被打破?！?/span>

研究人員發(fā)現(xiàn)，隨著模型尺寸的增加，隱性的刻板印象也會增強(qiáng)。這一發(fā)現(xiàn)為 OpenAI、Meta 和谷歌等聊天機(jī)器人開發(fā)商發(fā)出了潛在警告，因?yàn)樗麄冋诟傁喟l(fā)布越來越大的模型。

隨著訓(xùn)練數(shù)據(jù)量和參數(shù)數(shù)量的增加，模型通常會變得更加強(qiáng)大和富有表現(xiàn)力。但如果隱性種族偏見被放大了，公司將需要開發(fā)更好的工具來對抗它。

目前尚不清楚在訓(xùn)練數(shù)據(jù)中添加更多的黑人英語，或者提升反饋工作的質(zhì)量是否能夠減輕這一問題。

美國斯坦福大學(xué)博士生、該研究的合著者普拉秋莎·里亞·卡魯里（Pratyusha Ria Kalluri）說：“這揭示了公司在多大程度上是盲目的，它們只是在試圖打擊記者或論文在最近報道中提及偏見。隱性偏見就是一個很好的例子?！?/span>

該論文的作者使用了特別極端的例子來說明種族偏見的潛在影響，比如要求人工智能決定是否應(yīng)該判處被告死刑。

但是，戈什指出今天我們已經(jīng)讓人工智能模型幫助我們做出關(guān)鍵決策了，這并非小說或電影里的情節(jié)。但是這種用法是值得商榷的。

在美國，評估庇護(hù)案件時會使用人工智能翻譯工具，還有一些犯罪預(yù)測軟件，被用于判斷青少年是否應(yīng)該獲得緩刑。

使用 ChatGPT 篩選工作申請的雇主，可能會基于種族和性別歧視候選人的名字。如果他們使用模型來分析申請人在社交媒體上寫的東西，對黑人英語的偏見可能會導(dǎo)致誤判。

戈什說：“論文作者低調(diào)地表示，他們讓大語言模型挑選工作申請人或判斷刑事案件的用例只是演示。但我想說，他們想到的東西切中了要害?！?/span>

支持：Ren
運(yùn)營/排版：何晨龍

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

研究發(fā)現(xiàn)：在人為干預(yù)之下，GPT-4等大模型的種族主義偏見變得更隱秘

相關(guān)推薦

技術(shù)專區(qū)