獨(dú)家 | AI仍然受困于仇恨言論——但科學(xué)家們?cè)诤饬棵總€(gè)系統(tǒng)失敗的地方正做得越來越好
作者:Karen Hao
翻譯:朱啟軒
校對(duì):詹好
盡管自然語(yǔ)言處理最近取得了諸多進(jìn)展,但它仍在最基本的應(yīng)用上受阻。在一項(xiàng)新的研究中,科學(xué)家們測(cè)試了四種最佳的檢測(cè)仇恨言論的人工智能系統(tǒng),他們發(fā)現(xiàn)這些系統(tǒng)或多或少在區(qū)分帶有仇恨情緒和沒有仇恨情緒的句子時(shí)存在一些問題。
然而這個(gè)結(jié)果并不令人驚訝——因?yàn)閯?chuàng)造能夠理解語(yǔ)言細(xì)微差別的人工智能是很困難的。這使得研究人員診斷和分析這些問題的方法顯得尤為重要。他們針對(duì)仇恨言論開發(fā)了29個(gè)不同的測(cè)試方法,以便更準(zhǔn)確地找出每個(gè)系統(tǒng)的疏漏,從而讓人們更容易去克服這一問題。實(shí)際上,上述的這個(gè)測(cè)試已經(jīng)在幫助一家商業(yè)公司改善其人工智能系統(tǒng)。
The study authors 是由牛津大學(xué)(University of Oxford)和艾倫·圖靈研究所(Alan Turing Institute)的科學(xué)家們所領(lǐng)導(dǎo)的團(tuán)隊(duì)。該團(tuán)隊(duì)采訪了來自16家研究網(wǎng)絡(luò)仇恨的非營(yíng)利機(jī)構(gòu)的員工,以求了解AI檢測(cè)仇恨言論的進(jìn)一步信息。
該團(tuán)隊(duì)利用這些采訪結(jié)果把仇恨言論分成了18大類,他們致力于關(guān)注基于英文文本的仇恨言論,包括貶損言論,侮辱性語(yǔ)言和威脅性語(yǔ)言。他們還識(shí)別了11種通常會(huì)讓AI陷入困境的非仇恨場(chǎng)景,包括在無害聲明中使用臟話,被目標(biāo)社區(qū)收回的詆毀,以及引用或引用原始仇恨言論(即反言論)的仇恨譴責(zé)。
對(duì)于29個(gè)不同的仇恨類別, 他們創(chuàng)造了大量的例子并且使用“模板”句式,比如“我討厭(身份)”或“你只是在(誹謗)我”,從而為7個(gè)受保護(hù)的群體生成相同的例子集合。根據(jù)美國(guó)法律,這些“受保護(hù)群體”受到法律保護(hù),不應(yīng)當(dāng)遭到歧視。他們還有一個(gè)開源的數(shù)據(jù)集叫HateCheck,其中總共包含了近4000個(gè)案例。
研究人員隨后檢查了兩個(gè)流行的商業(yè)公司的服務(wù)條款: 谷歌Jigsaw的Perspective API和Two Hat的SiftNinja。兩者都允許客戶在帖子或評(píng)論中舉報(bào)違規(guī)內(nèi)容。Perspective API,它被Reddit等平臺(tái)以及《紐約時(shí)報(bào)》和《華爾街日?qǐng)?bào)》等新聞機(jī)構(gòu)所使用。它基于有害性的衡量對(duì)帖子和評(píng)論進(jìn)行標(biāo)記和排序,以供人們審查。
而SiftNinja對(duì)仇恨言論則過于寬容,沒有能檢測(cè)到所有的變化。相反,Perspective則過于嚴(yán)格。它擅長(zhǎng)于檢測(cè)18個(gè)仇恨類別,但也同時(shí)標(biāo)記了大多數(shù)非仇恨類別,比如被撤回的侮辱性言語(yǔ)和反擊言論。研究人員在測(cè)試谷歌的兩種學(xué)術(shù)模型時(shí)發(fā)現(xiàn)了同樣的特征,這兩種模型代表了現(xiàn)有的一些最好的自然語(yǔ)言處理技術(shù),且有望成為其他商業(yè)內(nèi)容審核系統(tǒng)的基礎(chǔ)。學(xué)術(shù)模型也顯示出在受保護(hù)群體上不均衡的表現(xiàn)——對(duì)某些群體的仇恨進(jìn)行錯(cuò)誤分類的頻率高于其他群體。
這些結(jié)果指明了當(dāng)前基于AI的仇恨言語(yǔ)檢測(cè)系統(tǒng)中最具挑戰(zhàn)性的一個(gè)方面:若不注重消除仇恨言論,就無法解決該問題; 若過于注重消除仇恨言論就會(huì)誤傷。牛津互聯(lián)網(wǎng)研究所的博士生Paul Rottge指出:“突然間你會(huì)首先懲罰那些被仇恨鎖定的群體。”
Jigsaw的首席軟件工程師露西·瓦瑟曼提出,一個(gè)更好的被叫做Perspective的模型,可以通過依靠人類調(diào)解員做出最終決定,來克服了這些限制。但是這個(gè)過程不適用于更大的平臺(tái)和更多的數(shù)據(jù)。Jigsaw現(xiàn)在正致力于開發(fā)一項(xiàng)功能,可以根據(jù)Perspective的不確定性重新調(diào)整帖子和評(píng)論的優(yōu)先級(jí)——自動(dòng)刪除那些它認(rèn)為令人討厭的內(nèi)容,并向人們標(biāo)記出可疑內(nèi)容。
Jigsaw指出,這項(xiàng)新研究令人興奮的地方在于,它是否提供了一種精細(xì)的方法來評(píng)估技術(shù)水平。Jigsaw現(xiàn)在正在使用HateCheck來更好地理解其模型之間的差異以及它們需要改進(jìn)的地方。
其他學(xué)者也對(duì)這項(xiàng)研究感到興奮。華盛頓大學(xué)的語(yǔ)言人工智能研究員馬爾滕?薩普表示:“這篇論文為我們?cè)u(píng)估行業(yè)系統(tǒng)提供了一個(gè)很好的資源,它允許企業(yè)和用戶提出改進(jìn)的需求?!?/p>
羅格斯大學(xué)的社會(huì)學(xué)助理教授Thomas Davidson對(duì)此表示贊同。他說,語(yǔ)言模型的局限性和語(yǔ)言的混亂意味著,仇恨言論的識(shí)別總是會(huì)在識(shí)別力欠缺和識(shí)別過度之間進(jìn)行權(quán)衡。他補(bǔ)充說:“HateCheck數(shù)據(jù)集有助于讓這些權(quán)衡變得可見?!?/p>
原文標(biāo)題:
AI still sucks at moderating hate speech——But scientists are getting better at measuring where each system fails.
原文鏈接:
’https://www.technologyreview.com/2021/06/04/1025742/ai-hate-speech-moderation/
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。