什么是“算法”?仁者見仁,智者見智
將決策系統(tǒng)描述為“算法”通常是人們轉(zhuǎn)移決策責(zé)任的一種方式。對許多人來說,“算法”指的是一套基于客觀經(jīng)驗證據(jù)或數(shù)據(jù)的規(guī)則,是一個極度復(fù)雜的系統(tǒng),以致人類很難理解其內(nèi)部工作原理或預(yù)測算法運(yùn)行時的反應(yīng)。
但這種描述準(zhǔn)確嗎?也不總是。
例如,去年 12 月下旬,斯坦福醫(yī)學(xué)中心把新冠疫苗的分配不當(dāng)歸咎于一種分配“算法”,該算法偏向高級管理人員,而非一線醫(yī)生。據(jù)《麻省理工技術(shù)評論》當(dāng)時的報道,這家醫(yī)院聲稱,為了設(shè)計“非常復(fù)雜的算法”,醫(yī)院已經(jīng)咨詢了倫理學(xué)家,其中一位代表表示“完全行不通”。盡管許多人認(rèn)為算法涉及人工智能或機(jī)器學(xué)習(xí),但該系統(tǒng)實(shí)際上是一個醫(yī)學(xué)算法,在功能上是不同的,更像是一個非常簡單的公式或者是人類委員會設(shè)計的決策樹。
這種脫節(jié)突顯了一個日益嚴(yán)重的問題。隨著預(yù)測模型的激增,公眾在做出關(guān)鍵決策時變得更加謹(jǐn)慎。但決策者在開始制定評估和審計算法的標(biāo)準(zhǔn)時,首先必須定義決策的類別或他們決策適用的輔助工具。給“算法”這個術(shù)語保留解釋的余地,可能會讓一些影響最大的模型超出了確保這類系統(tǒng)對人沒有壞處的政策的影響范圍。
如何識別算法
那么斯坦福醫(yī)學(xué)中心的“算法”是一種算法嗎?這取決于你如何定義這個詞。雖然“算法”還沒有一個公認(rèn)的定義,但計算機(jī)科學(xué)家哈羅德·斯通在 1971 年編寫的教科書里給出了一個普遍的定義:“算法是精確定義一系列操作的一套規(guī)則?!边@個定義包羅萬象,從配方到復(fù)雜的神經(jīng)網(wǎng)絡(luò):基于算法的審計策略涉獵太廣泛了。
在統(tǒng)計學(xué)和機(jī)器學(xué)習(xí)中,我們通常認(rèn)為算法是計算機(jī)為了解數(shù)據(jù)執(zhí)行的指令集。在這些領(lǐng)域中,產(chǎn)生的結(jié)構(gòu)化信息通常稱為模型。計算機(jī)通過算法從數(shù)據(jù)中了解到的信息可能看起來像“權(quán)重”,可以乘以每個輸入因子,也可能要復(fù)雜得多。算法本身的復(fù)雜程度可能也不同。這些算法產(chǎn)生的影響最終取決于它們所應(yīng)用的數(shù)據(jù)和最終模型運(yùn)行的情況。同樣的算法在一種情況下可能會產(chǎn)生積極的影響,而在另一種情況下又會產(chǎn)生截然不同的影響。
在其他領(lǐng)域,上述模型本身被稱為算法。盡管這令人感到困惑,但從最廣泛的定義來看,這也是準(zhǔn)確的:模型是定義一系列操作的規(guī)則(通過計算機(jī)的訓(xùn)練算法來了解規(guī)則,而不是由人類直接表述)。例如,去年在英國,媒體報道一種“算法”不能給由于疫情無法參加考試的學(xué)生公平打分。這些報道確實(shí)討論的是模型——把輸入(學(xué)生過去的表現(xiàn)或老師的評價)轉(zhuǎn)化為輸出(分?jǐn)?shù))的指令集。
斯坦福醫(yī)學(xué)中心發(fā)生的事情就好像是人類(包括倫理學(xué)家)坐下來,決定該系統(tǒng)應(yīng)該采用怎樣的操作,從而根據(jù)員工的年齡和部門等輸入信息決定這個人是否應(yīng)該首先接種疫苗。據(jù)我們所知,這一系列操作并沒有基于優(yōu)化某個定量目標(biāo)的估計程序。這是一套如何讓疫苗優(yōu)先化,以算法的語言固定下來的規(guī)范性決策。這種方法在醫(yī)學(xué)術(shù)語和廣義定義中被視為一種算法,盡管其中唯一涉及的智能是人類。
關(guān)注影響,而不是投入
立法者也在爭論什么是算法。美國國會在 2019 年引入的 HR2291 或算法責(zé)任法案使用了“自動決策系統(tǒng)”一詞,將之定義為“機(jī)器學(xué)習(xí)、統(tǒng)計數(shù)據(jù)或其他數(shù)據(jù)處理、人工智能技術(shù)等得出的計算過程,以此作出決策或幫助人類決策,影響消費(fèi)者?!?/span>
人工智能審計可能會忽略某些類型的偏見,而且也不一定能證明招聘工具是否給崗位挑選了最好的候選人。
紐約市也在考慮引進(jìn) Int 1894 法,這項法律將對“自動化就業(yè)決策工具”采取強(qiáng)制性審計,該工具定義為“功能由統(tǒng)計理論決定的系統(tǒng)或由這類系統(tǒng)定義參數(shù)的系統(tǒng)”。值得注意的是,這兩個法案都要求審計,但只提供了有關(guān)什么是審計的高級指導(dǎo)方針。
隨著政府和產(chǎn)業(yè)的決策者都在為算法審計制定標(biāo)準(zhǔn),對“什么是算法”的意見可能會出現(xiàn)分歧。我們建議主要根據(jù)算法產(chǎn)生的影響來進(jìn)行評估,而不是想著給“算法”下一個統(tǒng)一的定義或統(tǒng)一審計方法。關(guān)注結(jié)果而不是投入的話,我們就能避開技術(shù)復(fù)雜程度這些沒必要的爭論。無論我們討論的是代數(shù)公式還是深層神經(jīng)網(wǎng)絡(luò),重要的一點(diǎn)是會不會造成危害。
在其他領(lǐng)域的影響是一個關(guān)鍵的評估因素,它被嵌入到網(wǎng)絡(luò)安全領(lǐng)域的經(jīng)典 DREAD 框架中,21 世紀(jì)初微軟首次了推廣這一框架,目前還有一些企業(yè)在使用。DREAD 框架中的“A”要求威脅評估人員詢問有多少人會受到一個確定的計算機(jī)安全隱患的影響,從而量化“受影響的用戶”。影響評估在人權(quán)和可持續(xù)發(fā)展分析中也很常見,我們已經(jīng)看到一些人工智能影響評估的早期開發(fā)者建立了類似的規(guī)則。例如,加拿大的《算法影響評估》基于 “該業(yè)務(wù)領(lǐng)域的客戶是否特別容易受到影響? (是或否)”等定性問題打分。
無論我們討論的是代數(shù)公式還是深層神經(jīng)網(wǎng)絡(luò),重要的一點(diǎn)是會不會造成危害。
在評估中引入“影響”這樣一個定義廣泛的術(shù)語肯定比較困難。DREAD 框架后來被 STRIDE 補(bǔ)充或取代,部分是因為協(xié)調(diào)威脅建模所需內(nèi)容的不同觀點(diǎn)帶來了挑戰(zhàn),微軟在 2008 年停用了 DREAD。
在人工智能領(lǐng)域,會議和期刊已經(jīng)引入了影響聲明,公眾對此褒貶不一。這并非萬無一失:純粹公式化的影響評估很容易露出馬腳,而過度模糊的定義可能導(dǎo)致評估武斷或冗長。
盡管如此,這仍然是向前邁出的重要一步。“算法”一詞,無論如何定義,都不該成為設(shè)計和部署系統(tǒng)的人逃避責(zé)任的盾牌。這就是公眾要求算法問責(zé)的呼聲越來越高的原因,而“影響”一詞的概念為不同團(tuán)體滿足這一需求提供了一個有用的共同基礎(chǔ)。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。