博客專欄

EEPW首頁 > 博客 > 研究發(fā)現(xiàn):在人為干預(yù)之下,GPT-4等大模型的種族主義偏見變得更隱秘

研究發(fā)現(xiàn):在人為干預(yù)之下,GPT-4等大模型的種族主義偏見變得更隱秘

發(fā)布人:深科技 時(shí)間:2024-03-16 來源:工程師 發(fā)布文章

Warning: getimagesize(): SSL: connection timeout in /var/www/html/www.edw.com.cn/www/rootapp/controllersspace/ArticlesmanageController.php on line 272 Warning: getimagesize(): Failed to enable crypto in /var/www/html/www.edw.com.cn/www/rootapp/controllersspace/ArticlesmanageController.php on line 272 Warning: getimagesize(https://mmbiz.qpic.cn/mmbiz_png/JJtKEey0hPahUAdMpXUwzsrHU7UJMJaPPFiasBBQqrHebH69zHHT5gHB0eNykdbkCO7icMNkiasClzZUiahTsebDiaw/640?wx_fmt=png&from=appmsg): failed to open stream: operation failed in /var/www/html/www.edw.com.cn/www/rootapp/controllersspace/ArticlesmanageController.php on line 272

自從像 ChatGPT 這樣的大型語言模型誕生以來,人們就發(fā)現(xiàn)它們存在種族主義。這是因?yàn)樗鼈兊挠?xùn)練數(shù)據(jù)中包含這些觀點(diǎn),而開發(fā)人員的應(yīng)對策略是試圖降低它們的毒性。


但新的研究表明,隨著模型越來越大,這些努力只會遏制顯性的種族主義觀點(diǎn),同時(shí)讓隱性的刻板印象變得更強(qiáng)、更隱蔽。


(來源:STEPHANIE ARNETT/MITTR | ENVATO)


研究人員測試了五個(gè)人工智能模型,包括 OpenAI 的 GPT-4 以及 Meta 和谷歌的舊模型,對使用美國黑人英語(AAE,African-American English)的人做出判斷。指令中沒有提到講話者的種族。


即使兩個(gè)句子的意思相同,與標(biāo)準(zhǔn)美國英語(SAE,Standard American English)的使用者相比,模型更有可能將“臟”“懶”和“笨”等貶義詞用于說黑人英語的人。


這些模型將講黑人英語的人與聲望較低的工作聯(lián)系起來,或者根本不會將他們與有工作聯(lián)系起來,當(dāng)被要求對假想的刑事被告做出判決時(shí),它們更有傾向于建議將其判處死刑。


圖 | 綠色框是標(biāo)準(zhǔn)英語,紫色框是黑人英語(來源:資料圖)


一個(gè)更值得注意的發(fā)現(xiàn)是,該研究指出了現(xiàn)有的此類偏見的解決方式存在一個(gè)缺陷。  


為了清除模型中的仇恨觀點(diǎn),OpenAI、Meta 和谷歌等公司會在訓(xùn)練過程中引入人類反饋,讓人類工作者手動調(diào)整模型對某些提示的反應(yīng)方式。


這個(gè)過程通常被稱為“對齊”,旨在重新校準(zhǔn)神經(jīng)網(wǎng)絡(luò)中的數(shù)百萬個(gè)連接,并使模型更好地符合人類所期望的價(jià)值觀。


這種方法很好地打擊了常見的刻板印象,很多公司已經(jīng)使用了近十年。例如,該論文指出,如果用戶讓 GPT-2 說出對黑人的刻板印象,它很可能會列出“可疑”,“激進(jìn)”和“攻擊性”,但 GPT-4 不會再做出與這些聯(lián)想有關(guān)的回應(yīng)。


然而,該方法未能解決使用黑人英語時(shí)引發(fā)的隱性刻板印象。相關(guān)論文以預(yù)印本的形式發(fā)表在 arXiv 上,尚未經(jīng)過同行評審。研究人員認(rèn)為,部分原因是公司對“方言或俚語偏見”這一問題的認(rèn)識不足。


從指導(dǎo)模型的角度而言,使其不回應(yīng)顯性的種族問題,顯然比不回應(yīng)俚語或方言中包含的隱性偏見更容易。


艾倫人工智能研究所研究員、該論文的合著者瓦倫丁·霍夫曼(Valentin Hofmann)說:“人類的反饋教會模型考慮種族主義。但俚語偏見存在于更深的層次?!?/span>


沒有參與這項(xiàng)研究的 Hugging Face 倫理研究員阿維吉特·戈什(Avijit Ghosh)表示,這一發(fā)現(xiàn)讓人對公司解決偏見的方法產(chǎn)生了質(zhì)疑。


他說:“這種對齊方式,即讓模型拒絕生成種族主義的輸出內(nèi)容,只不過是一個(gè)脆弱的過濾器,很容易被打破?!?/span>


研究人員發(fā)現(xiàn),隨著模型尺寸的增加,隱性的刻板印象也會增強(qiáng)。這一發(fā)現(xiàn)為 OpenAI、Meta 和谷歌等聊天機(jī)器人開發(fā)商發(fā)出了潛在警告,因?yàn)樗麄冋诟傁喟l(fā)布越來越大的模型。


隨著訓(xùn)練數(shù)據(jù)量和參數(shù)數(shù)量的增加,模型通常會變得更加強(qiáng)大和富有表現(xiàn)力。但如果隱性種族偏見被放大了,公司將需要開發(fā)更好的工具來對抗它。


目前尚不清楚在訓(xùn)練數(shù)據(jù)中添加更多的黑人英語,或者提升反饋工作的質(zhì)量是否能夠減輕這一問題。


美國斯坦福大學(xué)博士生、該研究的合著者普拉秋莎·里亞·卡魯里(Pratyusha Ria Kalluri)說:“這揭示了公司在多大程度上是盲目的,它們只是在試圖打擊記者或論文在最近報(bào)道中提及偏見。隱性偏見就是一個(gè)很好的例子?!?/span>



該論文的作者使用了特別極端的例子來說明種族偏見的潛在影響,比如要求人工智能決定是否應(yīng)該判處被告死刑。


但是,戈什指出今天我們已經(jīng)讓人工智能模型幫助我們做出關(guān)鍵決策了,這并非小說或電影里的情節(jié)。但是這種用法是值得商榷的。


在美國,評估庇護(hù)案件時(shí)會使用人工智能翻譯工具,還有一些犯罪預(yù)測軟件,被用于判斷青少年是否應(yīng)該獲得緩刑。


使用 ChatGPT 篩選工作申請的雇主,可能會基于種族和性別歧視候選人的名字。如果他們使用模型來分析申請人在社交媒體上寫的東西,對黑人英語的偏見可能會導(dǎo)致誤判。


戈什說:“論文作者低調(diào)地表示,他們讓大語言模型挑選工作申請人或判斷刑事案件的用例只是演示。但我想說,他們想到的東西切中了要害?!?/span>


支持:Ren
運(yùn)營/排版:何晨龍


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: GPT-4

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉