讓人工智能遠(yuǎn)離偏見
作者 / Francisco Socal Imagination Technologies 公司人工智能&視覺部門產(chǎn)品經(jīng)理
本文引用地址:http://m.butianyuan.cn/article/201802/375420.htm人們都曾看過機(jī)器控制了世界而人類被毀滅的電影。好在這些電影是娛樂性的,而且人們都認(rèn)為這些場景是不會發(fā)生的。然而,一個更應(yīng)該關(guān)注的現(xiàn)實(shí)問題是:算法偏見。
1 算法偏見帶來的問題
所謂“算法偏見”是指在在看似沒有惡意的程序設(shè)計中帶著創(chuàng)建者的偏見,或者所采用的數(shù)據(jù)是帶有偏見的。結(jié)果當(dāng)然是帶來了各種問題,例如,被曲解的谷歌搜索,合格的候選人被禁止進(jìn)入醫(yī)學(xué)院,聊天機(jī)器人在推特上發(fā)布種族主義和性別歧視信息等。
算法偏見造成的最棘手的問題是,從事編程的工程師即使主觀上沒有種族主義、性別歧視、年齡歧視等傾向,也有可能造成偏見。人工智能(AI,Artificial Intelligence)本質(zhì)上就是為了自學(xué)而設(shè)計的,有時它的確會出錯。當(dāng)然,人們可以在事后做出調(diào)整,但最好的解決辦法是一開始就防止它發(fā)生。那么,怎樣才能讓人工智能遠(yuǎn)離偏見呢?
具有諷刺意味的是人工智能最令人興奮的可能性之一就是能夠搭建一個沒有人類偏見的世界。比如當(dāng)涉及到招聘時,一種算法可以讓男性和女性在申請同一份工作時獲得平等的待遇,或者在警務(wù)工作中防止發(fā)生種族偏見。
不管人們是否意識到,人類創(chuàng)造的機(jī)器確實(shí)反映了人們怎樣是看待世界的,因此也會有類似的刻板印象和世界觀。由于人工智能越來越深入到生活中,人類必須重視它。
2 偏見的分類
人工智能面臨的另外一個挑戰(zhàn)是,偏見不是以一種形式出現(xiàn)的,而是有各種類型的。這包括交互偏見、潛意識偏見、選擇偏見、數(shù)據(jù)驅(qū)動的偏見和確認(rèn)偏見。
“交互偏見”是指用戶由于自己與算法的交互方式而使算法產(chǎn)生的偏見。當(dāng)機(jī)器被設(shè)置向周圍環(huán)境學(xué)習(xí)時,它們不能決定要保留或者丟棄哪些數(shù)據(jù),什么是對的,什么是錯的。相反,它們只能使用提供給它們的數(shù)據(jù)——不論是好的、壞的,還是丑的,并在此基礎(chǔ)上做出決策。前面提到的聊天機(jī)器人Tay便是這類偏見的一個例子。它是受到一個網(wǎng)絡(luò)聊天社區(qū)的影響而變得偏種族主義了。
“潛意識偏見”是指算法錯誤地把觀念與種族和性別等因素聯(lián)系起來。例如,當(dāng)搜索一名醫(yī)生的圖像時,人工智能會把男性醫(yī)生的圖像呈現(xiàn)給一名女性,或者在搜索護(hù)士時反過來操作。
“選擇偏見”是指用于訓(xùn)練算法的數(shù)據(jù)被傾向性地用于表示一個群體或者分組,從而使該算法對這些群體有利,而代價是犧牲其他群體。以招聘為例,如果人工智能被訓(xùn)練成只識別男性的簡歷,那么女性求職者在申請過程中就很難成功。
“數(shù)據(jù)驅(qū)動的偏見”是指用來訓(xùn)練算法的原始數(shù)據(jù)已經(jīng)存在偏見了。機(jī)器就像孩子一樣:他們不會質(zhì)疑所給出的數(shù)據(jù),而只是尋找其中的模式。如果數(shù)據(jù)在一開始就被曲解,那么其輸出的結(jié)果也將反映出這一點(diǎn)。
最后一類是“確認(rèn)偏見”,這類似于數(shù)據(jù)驅(qū)動的偏見,偏向于那些先入為主的信息。它影響人們怎樣收集信息,以及人們怎樣解讀信息。例如,如果自己覺得8月份出生的人比其他時候出生的更富有創(chuàng)造性,那就會偏向于尋找強(qiáng)化這種想法的數(shù)據(jù)。
當(dāng)我們了解到這么多偏見的例子滲入到人工智能系統(tǒng)時,似乎會引起我們的擔(dān)憂。但重要的是要認(rèn)清事實(shí),記住這個世界本身就是有偏見的,因此,在某些情況下,人們對從人工智能中得到的結(jié)果并不奇怪。然而,并不應(yīng)該如此,人們需要一個對人工智能算法和系統(tǒng)進(jìn)行測試和驗(yàn)證的過程,以便在開發(fā)期間和部署之前及早發(fā)現(xiàn)偏見。
3 人工智能算法及系統(tǒng)的測試與驗(yàn)證
與人類不同,算法不能撒謊,因此,如果結(jié)果是有偏見的,那一定有原因:和它得到的數(shù)據(jù)有關(guān)。人類可以撒謊去解釋不雇傭某人的原因,但人工智能不能。而采用算法,就有可能知道什么時候會出現(xiàn)偏見,并對其進(jìn)行調(diào)整,以便將來能克服這些問題。
人工智能會學(xué)習(xí),也會犯錯。通常情況下,只有在實(shí)際環(huán)境中使用算法后才能發(fā)現(xiàn)任何內(nèi)在的偏見,因?yàn)檫@些偏見在實(shí)踐中被放大了。不應(yīng)把算法看成是一種威脅,而是解決任何偏見問題的好機(jī)會,并能在必要的時候加以糾正。
可以通過開發(fā)系統(tǒng)來發(fā)現(xiàn)有偏見的決策,并及時采取措施。與人類相比,人工智能特別適合采用貝葉斯(Bayesian)方法來確定某種假設(shè)的概率,從而消除所有人類偏見的可能性。這比較復(fù)雜,但是可行的,特別是考慮到人工智能的重要性(在以后幾年里只會越來越重要)。
隨著人工智能系統(tǒng)的建立和部署,非常重要的一點(diǎn)是必須理解它們是怎樣工作的,只有這樣才能通過設(shè)計讓它們具有意識,避免將來出現(xiàn)偏見問題。不要忘記,盡管人工智能發(fā)展非常迅速,但仍處于起步階段,還有很多值得學(xué)習(xí)和改進(jìn)的地方。這種調(diào)整會持續(xù)一段時間,在此期間,人工智能會變得更聰明,將有越來越多的方法來克服偏見等問題。
技術(shù)行業(yè)總是在質(zhì)疑機(jī)器是怎樣工作的,為什么這樣工作。雖然大部分人工智能是在黑盒中運(yùn)作的,決策過程是隱藏的,但人工智能的透明度是建立信任和避免誤解的關(guān)鍵。
目前有很多研究都在進(jìn)行幫助鑒別偏見的產(chǎn)生,例如Fraunhofer Heinrich Hertz研究所開展的工作。他們正在研究識別不同類型的偏見,例如前面提到的偏見,還有一些更“低級”的偏見,以及人工智能訓(xùn)練和發(fā)展過程中可能出現(xiàn)的問題。
另外還需要考慮的是無監(jiān)督訓(xùn)練。目前大多數(shù)人工智能模型是通過有監(jiān)督訓(xùn)練生成的:采集的是明顯帶有人類選擇的標(biāo)簽數(shù)據(jù)。而對于無監(jiān)督訓(xùn)練,使用不具任何標(biāo)簽的數(shù)據(jù),算法必須要通過自己對數(shù)據(jù)進(jìn)行分類、識別和匯集。雖然這種方法通常比有監(jiān)督學(xué)習(xí)慢很多數(shù)量級,但這種方法限制了人的參與,因此,能夠消除任何有意識或者無意識的人為偏見,從而避免對數(shù)據(jù)產(chǎn)生影響。
在底層也有很多事情可以改進(jìn)。在開發(fā)新產(chǎn)品、網(wǎng)站或者功能時,技術(shù)公司需要各方面的人員。多樣性會給算法提供各種各樣的數(shù)據(jù),而這些數(shù)據(jù)也是有偏見的。如果能有一些人去分析輸出結(jié)果,那么發(fā)現(xiàn)偏見的可能性會更高。
此外,還可以發(fā)揮算法審計的作用。2016年,卡耐基梅隆研究小組在網(wǎng)絡(luò)招聘廣告中發(fā)現(xiàn)了算法偏見。當(dāng)他們列出了在網(wǎng)上尋找工作的人員后,谷歌廣告顯示,男性在高收入工作中所占比例是女性的近六倍。該小組的結(jié)論是,進(jìn)行內(nèi)部審計將有助于減少這類偏見。
4 結(jié)論
總之,機(jī)器偏見來自人的偏見。人工智能的偏見有多種方式的表現(xiàn),但實(shí)際上,它只有一個來源:人類自己。
處理這一問題的關(guān)鍵在于技術(shù)公司、工程師和開發(fā)人員,他們都應(yīng)該采取有效的措施來防止無意中創(chuàng)建一種帶有偏見的算法。通過進(jìn)行算法審計并始終保持透明度,就有信心讓人工智能算法遠(yuǎn)離偏見。
評論