誰才是讓AI產生偏見的幕后推手？

作者：時間：2020-07-15 來源：科技日報

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

　　美國麻省理工學院媒體實驗室研究項目顯示，人工智能識別淺色皮膚男性的平均錯誤率不超過1%，識別深色皮膚女性的平均錯誤率達35%……

本文引用地址：http://m.butianyuan.cn/article/202007/415639.htm

　　人臉識別所導致的偏見問題一直受到廣泛關注。近期，一篇關于圖像超分辨率的論文引發(fā)了對于產生偏見原因的新爭論。

　　網友利用論文中的開源代碼進行了模型推理，在使用時發(fā)現(xiàn)，非白人面孔的高糊照片被還原成了一張白人面孔。對此，2018年圖靈獎得主、AI領軍人物楊立昆（Yann LeCun）在推特上指出，當數(shù)據(jù)有偏見時，機器學習系統(tǒng)就變得有偏見。而這一觀點，掀起一場爭論浪潮。有人說，機器學習系統(tǒng)產生偏見不應只歸咎于數(shù)據(jù)集，這種甩鍋的做法是不公平的，還有技術、人類觀念等原因。

現(xiàn)在還沒有100%無偏見的數(shù)據(jù)集

　　隨著人工智能時代的到來，人臉識別技術正被越來越廣泛地應用在執(zhí)法、廣告及其他領域。然而，這項技術在識別性別、膚色等過程中，存在著一定偏見。

　　“在美國，人臉識別系統(tǒng)中白人男性的識別率最高，而黑皮膚女性的識別率則最低；在亞洲國家的人臉識別系統(tǒng)中黃種人的識別率相比白種人的識別率差距就會小一些?！备Ｖ荽髮W數(shù)學與計算機科學學院、福建省新媒體行業(yè)技術開發(fā)基地副主任柯逍博士說。

　　這次陷入爭論中心的人臉識別偏見問題其實是一個存在很久、熱度很高的話題。

　　早前，美國麻省理工學院媒體實驗室主導的一項名為《Gender Shades》的研究項目在研究了各個前沿科技公司的面部識別系統(tǒng)后發(fā)現(xiàn)，各系統(tǒng)在識別男性面臉與淺色面臉方面表現(xiàn)更佳，淺色皮膚男性的平均識別錯誤率不超過1%，淺色皮膚女性的平均識別錯誤率約為7%，深色皮膚男性的平均識別錯誤率約為12%，深色皮膚女性的平均識別錯誤率則高達35%。

　　那么本次爭議中，楊立昆指出的數(shù)據(jù)集問題是如何產生偏見的？有無100%沒有偏見的數(shù)據(jù)集？“不均衡的數(shù)據(jù)，導致了系統(tǒng)在學習時，更好地擬合了比重較大的數(shù)據(jù)，而對占比小的數(shù)據(jù)的擬合則表現(xiàn)不佳，這就可能最終導致了偏見的產生。”柯逍介紹說，如一個常見的人臉識別數(shù)據(jù)集LFW，數(shù)據(jù)集中有近77%的男性，同時超過80%是白人。

　　“目前，幾乎可以肯定的是沒有100%無偏見的數(shù)據(jù)集?！笨洛信e例說，在收集數(shù)據(jù)時，可以針對性地讓男性與女性數(shù)目一樣，甚至也可以讓各種膚色的數(shù)據(jù)數(shù)目都一樣。但是，其中可能大部分人是沒有戴眼鏡的，這可能就對戴眼鏡的人進行識別時帶來了偏見。進一步講，各個年齡段的人臉也很難做到完全一致，導致最后學習到的模型可能對戴眼鏡、年長或年幼的人臉產生偏見。所以有時候討論數(shù)據(jù)偏見的產生，會發(fā)現(xiàn)其產生的原因是考慮問題的角度不同。

出現(xiàn)偏見不能只歸咎于數(shù)據(jù)

　　眾多專家也指出，數(shù)據(jù)可能是機器學習系統(tǒng)中偏見的來源，但不是唯一的來源。

　　其實，在本次爭議中，楊立昆在推特中已經很明確地表示，他的本意并不是說問題都出在數(shù)據(jù)集上，只是針對這篇論文，其算法在特定場景下，換個數(shù)據(jù)集就能解決問題，但并不是說所有的機器學習系統(tǒng)偏見都來源于數(shù)據(jù)集。

　　那么，誰才是產生偏見真正的“幕后推手”？

　　AI學習過程應該是架構、數(shù)據(jù)、訓練算法等的相互作用。算法包括了特征的選擇、損失函數(shù)的選擇、訓練方法的選擇以及超參數(shù)調節(jié)等，其本身的缺陷也是偏見產生的一個原因。

　　2019年12月，美國國家標準技術研究院進行的一項研究發(fā)現(xiàn)，在大多數(shù)當前評估的人臉識別算法中，跨人種差異確實存在廣泛的準確性偏差。

　　柯逍介紹說，在算法設計的時候，往往會選擇L1損失函數(shù)或者L2損失函數(shù)。若在將一個低分辨率人臉圖像還原成高分辨率人臉圖像的方法中，使用L2損失函數(shù)，得到的大多數(shù)人臉圖像更像白人；而使用L1損失函數(shù)，得到大多數(shù)人臉圖像更像黑人。這說明由于損失函數(shù)的選擇不同，某個群體（黑人或白人）在一定程度上就會受算法的忽視，進而產生偏見。

　　這當中還存在另一種情況，假如數(shù)據(jù)帶有少量的偏見，算法系統(tǒng)會將其放大，并變得更具有偏見。一項研究表明，如果初始數(shù)據(jù)中，下廚與女性的聯(lián)系概率是66%，將這些數(shù)據(jù)喂給人工智能后，其預測下廚與女性聯(lián)系起來的概率會放大到84%。一般來說，機器學習系統(tǒng)會選擇最符合通用情況的策略，然而這樣會導致一些非典型情況或較為特殊情況被忽略。

　　除此之外，產生偏見的原因還有相似性的偏見。信息推送系統(tǒng)總會向用戶推薦他已經看到、檢索過的相關內容。最終的結果是導致流向用戶的信息流都是基于現(xiàn)存的觀點和看法?！跋到y(tǒng)會自動幫助用戶屏蔽與他們意見相左的信息，這就催生了一個信息泡沫，用戶看到的都是人工智能讓你看到的。這種偏見根本上也是數(shù)據(jù)與算法共同作用產生的?！笨洛姓f。

　　“總體而言，偏見還是源于規(guī)則制定者?！敝袖J網絡人工智能產品總監(jiān)葉亮說，工程師從頭到尾參與了整個系統(tǒng)設計，尤其是機器學習的目標設定。算法就好像一只嗅探犬，當工程師向它展示特定東西的氣味后，它才能夠更加精準地找到目標。

算法糾偏工具已經上崗

　　近期，國際多家機構相繼宣布禁用人臉識別技術。有色人種被還原成白人的事件，再次掀起了人們對于人工智能系統(tǒng)產生偏見的批判浪潮，也再次警醒人們，技術帶有偏見所帶來的潛在危機。

　　偏見可能導致無辜者蒙冤。在2018年夏天，英國媒體就報道過，由于人臉識別技術的誤判，導致一名年輕黑人男性被誤認為嫌疑犯，在公眾場合被警察搜身。

　　也有報告顯示，一些國外執(zhí)法機構可以根據(jù)AI識別出的發(fā)色、膚色和面部特征對視頻中的人物進行檢索。這種技術上的偏見也在一定程度上放大了人們的偏見。

　　除了對人種與性別的識別偏差之外，人臉識別技術還因其在侵犯隱私方面的問題而引起擔憂。2020年初，美國一家人臉識別技術公司便受到了嚴密的審查，有關部門發(fā)現(xiàn)，其面部識別工具由超過30億張圖像構建而成，然而這些圖像大部分都是通過抓取社交媒體網站收集的，并且已被許多企業(yè)廣泛使用。

　　偏見存在的同時，一批新興的算法糾偏工具也涌入了人工智能。

　　早在2018年，臉書曾發(fā)布一個算法模型，表示會在算法因種族、性別、年齡等因素做出不公正判斷時發(fā)出警告以提醒開發(fā)者；2019年麻省理工學院就提出了一種糾偏算法，可以通過重新采樣來自動消除數(shù)據(jù)偏見。

　　那么克服偏見還需要人工智能技術做出哪些努力？“開源方法和開源技術都有著極大的潛力改變算法偏見?！比~亮指出，開源方法本身十分適合消除偏見程序，開源社區(qū)已經證明它能夠開發(fā)出強健的、經得住嚴酷測試的機器學習工具。如果線上社團、組織和院校能夠接受這些開源特質，那么由開源社區(qū)進行消除算法偏見的機器設計將會順利很多。

　　柯逍認為，可以看出偏見基本來源于數(shù)據(jù)與算法，加強對人工智能所使用的數(shù)據(jù)、算法以及模型的評估，能夠在一定程度上緩解潛在的、可導致偏見與歧視的因素。同時，人工智能的偏見其實都是人類偏見的反映與放大，因此人們放下偏見才是最根本的解決方案。

新聞中心

誰才是讓AI產生偏見的幕后推手？

評論

相關推薦

技術專區(qū)