新技術(shù)，老問題：NLP領(lǐng)域中沒有被聽到的「聲音」

發(fā)布人：大數(shù)據(jù)文摘時(shí)間：2022-04-20 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自AI科技評論

作者：Ben Batorsky

編譯：錢磊、Ailleurs

編輯：陳彩嫻

受到技術(shù)進(jìn)步和開源數(shù)據(jù)集的推動(dòng)，過去十年中人工智能經(jīng)歷了一次復(fù)興，其進(jìn)步之處主要集中在計(jì)算機(jī)視覺和自然語言處理(NLP)等領(lǐng)域。

ImageNet在2010年制作了一個(gè)包含2萬張內(nèi)容標(biāo)簽的圖片的公開語料庫。谷歌于2006年發(fā)布了萬億詞語料庫(Trillion Word Corpus)，并從大量的公共網(wǎng)頁中獲得了n-gram頻率。NLP的進(jìn)步使得機(jī)器翻譯質(zhì)量大幅提高，數(shù)字助理的應(yīng)用也迅速擴(kuò)大，諸如“人工智能是新的電力”和“人工智能將取代醫(yī)生”之類的言論也越來越多。

像Allen Institute、Hugging Face和Explosion等組織也發(fā)布了開放源代碼庫和在大型語言語料庫上預(yù)先訓(xùn)練的模型，這使得NLP領(lǐng)域飛速進(jìn)展。最近，NLP技術(shù)通過發(fā)布公共注釋研究數(shù)據(jù)集和創(chuàng)建公共響應(yīng)資源促進(jìn)了對COVID-19的研究。

然而，其實(shí)人工智能領(lǐng)域早已形成。艾倫·圖靈（Alan Turing）在1950年就提出了“能思考的機(jī)器”的想法，這反映在人們當(dāng)時(shí)對算法能力的研究上，當(dāng)時(shí)人們希望研究出能夠解決一些過于復(fù)雜而無法自動(dòng)化的問題（例如翻譯）的算法。在接下來的十年里，投資人看好 AI 研究并投入了大量資金，使得翻譯、物體識別和分類等研究獲得了很大進(jìn)步。到了1954年，先進(jìn)的機(jī)械詞典已經(jīng)能夠進(jìn)行基于詞匯和短語的合理翻譯。在一定條件下，計(jì)算機(jī)可以識別并解析莫爾斯電碼。然而，到了20世紀(jì)60年代末，這些研究明顯受到限制，實(shí)際用途有限。數(shù)學(xué)家詹姆斯·萊特希爾（James Lighthill）在1973年發(fā)表的一篇論文中指出，在將自己研究的系統(tǒng)應(yīng)用于現(xiàn)實(shí)世界中的問題時(shí)，人工智能研究人員無法處理各種因素的“組合爆炸”。社會(huì)上批評聲不斷，投入資金日益枯竭，人工智能進(jìn)入了第一個(gè)“冬天”，開發(fā)基本上停滯不前。

圖注：AI 的發(fā)展時(shí)間線

在過去的幾十年里，人們對人工智能的興趣又復(fù)蘇了，技術(shù)也突飛猛進(jìn)。

NLP最近的研究熱點(diǎn)主要與基于 Transformer 的架構(gòu)有關(guān)。然而實(shí)際應(yīng)用的問題仍然值得提出，因?yàn)槿藗儗τ凇斑@些模型真正在學(xué)習(xí)什么”感到擔(dān)憂。2019年的一項(xiàng)研究使用BERT來解決論證理解（argument comprehension）的困難挑戰(zhàn)，該模型必須根據(jù)一系列事實(shí)來確定一個(gè)說法是否合理。BERT的表現(xiàn)達(dá)到了SOTA，但進(jìn)一步的研究發(fā)現(xiàn)，該模型利用的是語言中的特定線索，而這些線索與論證的“推理”無關(guān)。

有時(shí)研究員能夠在應(yīng)用算法前就解決好系統(tǒng)里的一切問題，但有時(shí)AI系統(tǒng)還是會(huì)帶有其不應(yīng)有的學(xué)習(xí)模式。一個(gè)典型例子是COMPAS算法，這種算法在佛羅里達(dá)州用來確定一個(gè)罪犯是否會(huì)再次犯罪。ProPublica 在2016年的一項(xiàng)調(diào)查發(fā)現(xiàn)，這種算法預(yù)估黑人被告比白人被告犯下暴力犯罪的可能性高出77%。更令人擔(dān)憂的是，高達(dá)48%再次犯罪的白人被告會(huì)被該算法標(biāo)記為低風(fēng)險(xiǎn)，而黑人只有28%，兩者相差20%。由于該算法是專用算法，其可能利用的線索的透明度有限。但由于這種算法當(dāng)中不同種族之間的差異如此明顯，這表明該算法“眼中”有種族不平等的嫌疑，這既不利于算法自身的性能，也不利于司法系統(tǒng)。

圖注：COMPAS算法的應(yīng)用

在人工智能領(lǐng)域，這種高調(diào)的失敗并不少見。亞馬遜最近廢除了一種人工智能招聘算法，因?yàn)檫@種算法更有可能推薦男性擔(dān)任技術(shù)職位，其原因可能是該算法利用了以往的招聘模式。而最頂尖的機(jī)器翻譯也經(jīng)常會(huì)遇到性別不平等問題和語言資源不足的問題。

現(xiàn)代NLP的缺陷有很多來由。本文將專注于幾個(gè)代表性問題：在數(shù)據(jù)和NLP模型的發(fā)展中，什么人或物被代表了？這種不平等的代表是如何導(dǎo)致NLP技術(shù)利益的不平等分配的？

“大”就一定“好”？

一般來說，機(jī)器學(xué)習(xí)模型，尤其是深度學(xué)習(xí)模型，數(shù)據(jù)越多，其表現(xiàn)就會(huì)越好。Halevy等人(2009)解釋說，對于翻譯任務(wù)來說，與比較小的數(shù)據(jù)集上訓(xùn)練的更復(fù)雜的概率模型相比，在大型數(shù)據(jù)集上訓(xùn)練的簡單模型的表現(xiàn)更好。Sun等人在2017年也重新審視了機(jī)器學(xué)習(xí)可擴(kuò)展性的想法，指出視覺任務(wù)的性能隨著提供的示例數(shù)量呈對數(shù)增長。

人工智能從業(yè)者已將這一原則牢記于心，特別是在NLP研究中。自監(jiān)督目標(biāo)的出現(xiàn)，如BERT的掩碼語言模型（該模型可以根據(jù)上下文學(xué)習(xí)預(yù)測單詞），基本上使整個(gè)互聯(lián)網(wǎng)都可以用于模型訓(xùn)練。2019年的原始BERT模型是在16 GB的文本數(shù)據(jù)上訓(xùn)練的，而近期的模型，如GPT-3（2020）是在570 GB的數(shù)據(jù)上訓(xùn)練的（從45 TB的CommonCrawl中過濾）。

Bender等人（2021）將“數(shù)據(jù)越多越好”這一格言作為模型規(guī)模增長背后的驅(qū)動(dòng)思想。但他們的文章引起我的一個(gè)思考：這些大型數(shù)據(jù)集中包含了什么思維？

圖注：語言模型的規(guī)模隨時(shí)間的推移而增大

Wikipedia是BERT、GPT和許多其他語言模型的來源。但Wikipedia研究發(fā)現(xiàn)，其編輯所代表的觀點(diǎn)存在問題。大約90%的文章編輯是男性，他們往往是來自發(fā)達(dá)國家的受過正規(guī)教育的白人。他們的身份可能會(huì)對維基百科的內(nèi)容產(chǎn)生影響，比如只有17%的傳記是關(guān)于女性的，可是被編輯提名刪除的傳記中卻有41%是關(guān)于女性的，女性傳記被刪除內(nèi)容明顯高于常規(guī)比例。

NLP模型的另一個(gè)主要來源是Google News，包括原始的word2vec算法。從歷史上看，新聞編輯室一直由白人男性主導(dǎo)，這種模式在過去十年中沒有多大改變。實(shí)際上，在過去幾十年，這種差異變得更大，這意味著當(dāng)模型使用舊的新聞數(shù)據(jù)集時(shí)，這種被代表的問題只會(huì)變得更糟。

此外，互聯(lián)網(wǎng)用戶傾向于年輕、高收入和白人。GPT模型的來源之一CommonCrawl使用了Reddit的數(shù)據(jù)，Reddit有67%的用戶是男性，70%是白人。Bender等人(2021)指出，GPT-2這樣的模型有包容/排斥方法，可能會(huì)刪除代表特定社區(qū)的語言（例如通過排除潛在的冒犯性詞匯，就會(huì)將代表LGBTQ群體的語言排除在外）。

當(dāng)前NLP中的許多先進(jìn)性能都需要大型數(shù)據(jù)集，這種對數(shù)據(jù)如饑似渴的勁頭已經(jīng)蓋過了人們對數(shù)據(jù)中所代表的觀點(diǎn)看法的關(guān)注。然而，從上面的證據(jù)可以清楚地看出，有些數(shù)據(jù)源并不是“中立的”，反而放大了那些歷史上、在社會(huì)上占據(jù)主導(dǎo)地位的人的聲音。

而且，即便是有缺陷的數(shù)據(jù)源也不能平等地用于模型開發(fā)。絕大多數(shù)標(biāo)記和非標(biāo)記數(shù)據(jù)僅以7種語言存在，約占所有使用者的1/3。這使得世界上其他2/3的國家無法達(dá)到這種表現(xiàn)。為了彌補(bǔ)這一差距，NLP研究人員探索了在高資源語言中預(yù)訓(xùn)練的BERT模型和低資源語言微調(diào)（通常稱為Multi-BERT），并使用“適配器”跨語言遷移學(xué)習(xí)。但是通常來說，這些跨語言方法的表現(xiàn)要比單語言方法差。

這些模型很難跨語言泛化，這一事實(shí)可能指向一個(gè)更大的問題。喬希等人(2021年)這樣解釋：“NLP系統(tǒng)接受訓(xùn)練和測試的少數(shù)幾種語言通常是相關(guān)的……這會(huì)導(dǎo)致形成一種類型學(xué)的回聲室。因此，我們的NLP系統(tǒng)從未看到過絕大多數(shù)類型多樣化的語言現(xiàn)象。”

The State and Fate of Linguistic Diversity and Inclusion in the NLP World。圖注：語言多樣性和包容性在自然語言處理領(lǐng)域的現(xiàn)狀和命運(yùn)

圖注：語言多樣性和包容性在自然語言處理領(lǐng)域的現(xiàn)狀和命運(yùn)

如上所述，這些系統(tǒng)非常擅長挖掘語言中的線索。因此，它們很可能是在利用一組特定的語言模式，所以當(dāng)這些系統(tǒng)應(yīng)用于資源較低的語言時(shí)，性能會(huì)崩潰。

輸入的是垃圾，輸出的也是垃圾

在上文中，我描述了現(xiàn)代NLP數(shù)據(jù)集和模型是如何為一組特定的視角「代言」的，這些視角往往是白人、男性和英語使用者的視角。但是，每一個(gè)數(shù)據(jù)集都必須從它的來源入手，解決數(shù)據(jù)代表的不均衡問題，比如ImageNet 在2019年的更新中刪除了60萬張圖像。這種調(diào)整不僅僅是為了統(tǒng)計(jì)的穩(wěn)健性，也是對那些傾向于對女性和有色人種使用性別歧視或種族主義標(biāo)簽的模型的一種回應(yīng)。

圖注：一位Twitter用戶在基于ImageNet的模型所生成的圖像標(biāo)簽中發(fā)現(xiàn)偏見

無論我上傳什么樣的圖片，使用擁有2500個(gè)標(biāo)簽的AI來進(jìn)行分類的ImageNet Roulette，都會(huì)把我看成是「Black」（黑人）、「Black African」(非裔黑人）、「Negroid」（黑色人種的）、「Negro」（黑人）。
其它可能出現(xiàn)的標(biāo)簽還有「Doctor」（醫(yī)生）、「Parent」（父親）、「Handsome」（帥氣的）。

所有的模型都會(huì)出錯(cuò)，所以在決定是否使用一個(gè)模型時(shí)，總是要權(quán)衡風(fēng)險(xiǎn)和收益。為了便于對這種風(fēng)險(xiǎn)效益進(jìn)行評估，我們可以使用現(xiàn)有的常用性能指標(biāo)，來獲得「錯(cuò)誤」的發(fā)生頻率，比如準(zhǔn)確率。但是我們非常缺乏了解的是，這些錯(cuò)誤是如何分布的？如果一個(gè)模型在一個(gè)群體中的表現(xiàn)不如另一個(gè)群體，這意味著該模型可能會(huì)讓一個(gè)群體受益，而犧牲另一個(gè)群體的利益。

我把這種不平等的風(fēng)險(xiǎn)收益分配稱為「偏見」。統(tǒng)計(jì)偏差被定義為“結(jié)果的期望值與被估計(jì)的真正潛在定量參數(shù)之間的差異”。機(jī)器學(xué)習(xí)中存在許多類型的偏差，但我會(huì)主要討論“歷史偏差”和“表征偏差”。歷史偏差是指世界上已經(jīng)存在的偏差和社會(huì)技術(shù)問題在數(shù)據(jù)中得到的反映。例如，當(dāng)一個(gè)在ImageNet上訓(xùn)練的模型輸出種族主義或性別歧視標(biāo)簽時(shí)，它是在復(fù)制訓(xùn)練數(shù)據(jù)的種族主義和性別歧視。表征偏差是由我們從總體中定義和抽樣的方式造成的。因?yàn)槲覀兊挠?xùn)練數(shù)據(jù)來自于一個(gè)特定群體的視角，因而我們期望訓(xùn)練出的模型會(huì)代表這個(gè)群體的視角。

在NLP領(lǐng)域，存在于詞嵌入模型word2vec和GloVe中的偏見已經(jīng)被深入研究。這些模型是許多下游任務(wù)的基礎(chǔ)，它們提供包含句法和語義信息的單詞表示。它們都基于自監(jiān)督技術(shù)，根據(jù)上下文來對單詞進(jìn)行表示。如果這些表示反映了一個(gè)詞的真正“意義”，那么我們可以想象，與職業(yè)相關(guān)的詞語（如“工程師”或“管家”）在性別和種族上具有中立性，因?yàn)槁殬I(yè)類型并不與特定人群關(guān)聯(lián)起來。

然而，Garg等人（2019）發(fā)現(xiàn)，職業(yè)詞匯的表示并非性別中立或種族中立的。與男性性別詞匯相比，“管家”這類職業(yè)詞匯與女性性別詞匯（如“she”、“her”）關(guān)聯(lián)更強(qiáng)，而“工程師”這類職業(yè)的嵌入詞則更接近男性性別詞匯。這些問題還延伸到了種族上，與西班牙裔有關(guān)的詞匯更接近于“管家”，而與亞洲人有關(guān)的詞匯與“教授”或“化學(xué)家”更接近。

圖注：該表顯示了分別與西班牙裔、亞裔、白人三個(gè)種族最密切相關(guān)的十大職業(yè)類型。引自Garg等(2019)論文“Word embeddings quantify 100 years of gender and ethnic stereotypes”（《詞嵌入量化100年來的性別和種族刻板印象》）。

這些問題也存在于大型的語言模型中。比如，Zhao等人（2019）的工作表明，ELMo嵌入把性別信息納入到職業(yè)術(shù)語中，并且對男性的性別信息編碼比對女性做得更好。Sheng等人（2019）的工作也發(fā)現(xiàn)，在使用GPT-2來對完成含有人口統(tǒng)計(jì)信息（即性別、種族或性取向）的句子時(shí)，會(huì)對典型的邊緣化群體（即女性、黑人和同性戀者）產(chǎn)生偏見性結(jié)果。

圖注：該表顯示了用OpenAI的GPT-2在給定的不同提示下生成的文本示例。引自Sheng等（2019）論文“The Woman Worked as a Babysitter: On Biases in Language Generation”（《當(dāng)保姆的女人：論語言生成中的偏見》）。

詞嵌入模型ELMo和GPT-2，都是在來自互聯(lián)網(wǎng)的不同數(shù)據(jù)集上進(jìn)行訓(xùn)練的。如上所述，互聯(lián)網(wǎng)上所代表的觀點(diǎn)往往來自那些在歷史上處于優(yōu)勢地位并獲得更多媒體關(guān)注的人。這些觀點(diǎn)很可能是偏見問題的根源，因?yàn)槟Ｐ鸵呀?jīng)內(nèi)化了那些有偏見的觀點(diǎn)。正如Ruha Benjamin在他的《追逐科技》（Race After Technology）一書中所言：

「將世界的美、丑和殘忍喂給AI系統(tǒng)卻期望它只反映美，這是一種幻想。」

這些NLP模型不僅復(fù)制了他們所訓(xùn)練的優(yōu)勢群體的觀點(diǎn)，而且建立在這些模型上的技術(shù)也加強(qiáng)了這些群體的優(yōu)勢性。如上文所述，目前只有一部分語言擁有數(shù)據(jù)資源來開發(fā)有用的NLP技術(shù)（如機(jī)器翻譯）。但即使是在那些資源豐富的語言中，如果口音不標(biāo)準(zhǔn)，機(jī)器翻譯和語音識別之類的技術(shù)也表現(xiàn)不佳。

例如，Koenecke等人（2020年）發(fā)現(xiàn)，亞馬遜和谷歌等公司的語音識別軟件對非裔美國人的誤差率幾乎是白人的兩倍。這會(huì)造成一些不便，因?yàn)楣雀柚郑℅oogle Assistant）或Alexa對非標(biāo)準(zhǔn)口音的用戶來說表現(xiàn)得不太好。這也會(huì)對一個(gè)人的生活造成重大影響，比如移民工人很難與邊境管理人員溝通。因?yàn)橛?xùn)練數(shù)據(jù)中表現(xiàn)出了偏見，所以可以預(yù)想，這些應(yīng)用程序?qū)哂袛?shù)據(jù)「優(yōu)勢」的用戶人群的幫助會(huì)比其他人群更大。

除了翻譯和口譯，一個(gè)流行的NLP使用場景是內(nèi)容審核/管理。很難找到一個(gè)不包含至少一個(gè)垃圾郵件檢測訓(xùn)練的NLP項(xiàng)目。但在現(xiàn)實(shí)世界中，內(nèi)容審核意味著它要決定什么類型的言論是「可以接受的」。研究發(fā)現(xiàn)，F(xiàn)acebook和Twitter的算法在審核內(nèi)容時(shí)，對非裔美國用戶內(nèi)容進(jìn)行標(biāo)記的可能性是白人用戶的兩倍。一名非裔美國臉書用戶因?yàn)橐昧穗娨晞　队H愛的白種人》中的一句臺詞而被凍結(jié)了賬戶，而她的白人朋友則沒有受到任何懲罰。

從上面這些例子中，我們可以看到，數(shù)據(jù)訓(xùn)練中的代表性不均衡造成了不均衡的后果。這些后果更嚴(yán)重地落在了歷史上從新技術(shù)中獲益較少的人群（即女性和有色人種）身上。因此，除非對自然語言處理技術(shù)的發(fā)展和部署作出實(shí)質(zhì)性的改變，否則它不僅不會(huì)給世界帶來積極的變化，而且還會(huì)加強(qiáng)現(xiàn)有的不平等制度。

如何步上“正”軌

我在本文前面提到過，AI 領(lǐng)域現(xiàn)在被炒得很熱，這在歷史上其實(shí)已經(jīng)出現(xiàn)過一次。在20世紀(jì)50年代，工業(yè)界和政府對這項(xiàng)令人興奮的新技術(shù)寄予厚望。但是，當(dāng)實(shí)際的應(yīng)用開始達(dá)不到它的承諾時(shí)，人工智能的一個(gè)「寒冬」就會(huì)來臨，這個(gè)領(lǐng)域得到的關(guān)注和資金投入都會(huì)變少。盡管現(xiàn)代社會(huì)受益于免費(fèi)、廣泛可用的數(shù)據(jù)集和巨大的處理能力，但如果人工智能仍然只關(guān)注全球人口中的一小部分，那么在這次熱潮中，也將很難看到它如何兌現(xiàn)自己的承諾。

對于NLP來說，這種「包容性」需求更加迫切，因?yàn)榇蠖鄶?shù)應(yīng)用程序只關(guān)注7種最流行的語言。為此，專家們已經(jīng)開始呼吁更多地關(guān)注低資源語言。

DeepMind的科學(xué)家Sebastian Ruder在2020年發(fā)出了一項(xiàng)呼吁，指出“如果技術(shù)只面向標(biāo)準(zhǔn)口音的英語使用者，那么它就無法普及”。計(jì)算語言學(xué)協(xié)會(huì)(ACL)最近也宣布了2022年會(huì)議的「語言多樣性」分主題。

然而，包容性不應(yīng)僅僅被視為數(shù)據(jù)采集問題。2006年，微軟發(fā)布了智利土著馬普切人（Mapuche）的語言版本的Windows。然而，這項(xiàng)工作是在沒有馬普切人參與或同意的情況下進(jìn)行的，馬普切部落的人們一點(diǎn)也沒有覺得自己被微軟的倡議所「接納」，因?yàn)槲④浳唇?jīng)許可使用他們的語言，他們起訴了微軟。要解決NLP技術(shù)覆蓋范圍方面的差距，就需要更多地關(guān)注代表性不足的群體。這些群體已經(jīng)加入了NLP社區(qū)，并且已經(jīng)啟動(dòng)了他們自己的倡議，以擴(kuò)大NLP技術(shù)的效用。像這樣的舉措，不僅可以將NLP技術(shù)應(yīng)用于更加多樣化的數(shù)據(jù)集，還可以讓各種語言的母語人士參與該技術(shù)的開發(fā)。

正如我之前提到的，當(dāng)前用于確定什么是「最先進(jìn)」的NLP的指標(biāo)，在估計(jì)一個(gè)模型可能會(huì)犯多少錯(cuò)誤方面會(huì)很有用。然而，它們并不能衡量這些錯(cuò)誤在不同人群中是否分布不均（即是否存在偏見）。對此，麻省理工學(xué)院的研究人員發(fā)布了一個(gè)數(shù)據(jù)集StereSet，用于測量語言模型在多個(gè)維度上的偏差。這項(xiàng)工作的結(jié)果是一套衡量模型總體表現(xiàn)的指標(biāo)，以及它與偏好刻板印象關(guān)聯(lián)的傾向性，這很容易讓它本身成為一個(gè)“排行榜”框架。

Drivennda在其Deon ethics checklist（Deon倫理清單）中提出了一種更注重過程的方法。

然而，我們?nèi)栽谔幚硪恍┦冀K困擾著技術(shù)的重大問題：進(jìn)步往往會(huì)讓強(qiáng)者受益，并加劇強(qiáng)者與弱者的現(xiàn)有「分野」。要想實(shí)現(xiàn)NLP技術(shù)的革命性進(jìn)步，就需要將它變得更好，并與現(xiàn)在不同。Bender等人（2021年）提出了一種更具「價(jià)值敏感性」的設(shè)計(jì)，在這種研究的設(shè)計(jì)中，可以實(shí)現(xiàn)監(jiān)控哪些觀點(diǎn)被納入，哪些被排除，以及該混合觀點(diǎn)的風(fēng)險(xiǎn)效益計(jì)算。因此，「成功」并不在于準(zhǔn)確率多高，而是在于技術(shù)能否推動(dòng)體現(xiàn)利益相關(guān)者的價(jià)值觀。

這是一個(gè)非常有力的建議，但這意味著，如果一項(xiàng)倡議不太可能促進(jìn)關(guān)鍵價(jià)值觀的進(jìn)步，那么它可能就不值得追求。Paullada等人（2020年）指出，“一個(gè)映射可以被學(xué)習(xí)并不意味著它有意義”。如上文所舉例，一種算法會(huì)被用來確定一個(gè)罪犯是否可能再次實(shí)施犯罪。據(jù)報(bào)道，該算法的AUC分?jǐn)?shù)很高，但是，它學(xué)到了什么？如上所述，模型是它的訓(xùn)練數(shù)據(jù)的產(chǎn)物，因此它很可能會(huì)重現(xiàn)司法系統(tǒng)中已經(jīng)存在的任何一種偏見。這就對這種特殊算法的價(jià)值提出了質(zhì)疑，也對判決算法的大規(guī)模使用提出了挑戰(zhàn)。而我們會(huì)看到，對價(jià)值敏感的設(shè)計(jì)可能會(huì)帶來一種非常不同的方法。

歸功于研究人員、開發(fā)人員和整個(gè)開源社區(qū)的努力，NLP最近取得了令人震驚的進(jìn)步。從機(jī)器翻譯到語音助手，再到病毒研究（如COVID-19），NLP從根本上改變了我們所使用的技術(shù)。但要取得進(jìn)一步的進(jìn)展，不僅需要整個(gè)NLP社區(qū)的工作，還需要跨職能團(tuán)體和學(xué)科的工作。我們不應(yīng)該追求指標(biāo)上的邊際收益，而應(yīng)該著眼于真正具有「變革性」的改變，這意味著我們要去理解誰正在被「落在后面」，并在研究中納入他們的價(jià)值觀。

參考鏈接：

https://thegradient.pub/nlp-new-old/

https://www.mdpi.com/2072-666X/12/6/665

https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing

https://arxiv.org/pdf/1910.01108.pdf

https://arxiv.org/abs/2004.09095

https://twitter.com/lostblackboy/status/1174112872638689281

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。