科技公司的尷尬戰(zhàn)爭：算法的“好意”，險些毀了一位父親的人生

發(fā)布人：硅星人時間：2022-08-26 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

美國公司不準(zhǔn)的算法，瞄中的卻是無辜的父親。——文｜杜晨編輯｜VickyXiao 題圖來源 | Lars Plougmann CC-BY-SA

家住舊金山的馬克怎么都沒想到，本來急著給自己兒子看病，給醫(yī)生發(fā)了一張照片，結(jié)果卻讓自己險些身敗名裂。
事情發(fā)生在去年年初，由于當(dāng)時仍處在疫情高峰期，一些非緊急醫(yī)療機構(gòu)都關(guān)閉了服務(wù)，也包括馬克家選擇的兒童診所。馬克發(fā)現(xiàn)自己兒子的私處出現(xiàn)腫脹，急忙尋求專業(yè)人士的幫助，和醫(yī)生打視頻電話。
在視頻之前，護士讓馬克發(fā)一張照片給醫(yī)生看下。馬克照做了。
然而讓他沒想到的是，這張照片可給他惹了大禍了。

圖文無關(guān) 圖片來源：Bicanski / CC0 授權(quán)

/ 愛子心切的父親，算法眼中的“戀童癖” /
在照片發(fā)出的兩天后，馬克突然接到了谷歌的一紙通知。
由于涉嫌儲存和傳播有害內(nèi)容，嚴(yán)重違反用戶協(xié)議和公司政策，并且涉嫌違法，他的谷歌賬號被完全關(guān)閉。
由于馬克是谷歌全家桶的忠實用戶，谷歌這一決定的后果相當(dāng)慘痛：
他不僅失去了自己的 Gmail 郵件、通訊錄、日歷，還因為是 Google Fi 虛擬運營商的用戶，連手機號都被一起凍結(jié)了。
到了這里，噩夢還遠未結(jié)束。
谷歌不僅封了他的賬號，還直接把這件事報到專門打擊兒童****/****內(nèi)容的監(jiān)督機構(gòu)那去了，該機構(gòu)后來又聯(lián)系了舊金山警察部門。終于在去年年底，舊金山警方從谷歌公司那里調(diào)取了關(guān)于馬克的所有資料和記錄，正式對馬克展開了調(diào)查。
長達一年的時間里，馬克面臨“戀童癖”的嚴(yán)重指控，工作生活都難以開展，甚至幾乎“身敗名裂”……
《紐約時報》描述此事的文章提到，將馬克置于尷尬境地的，正是谷歌少為人知的兒童****內(nèi)容打擊系統(tǒng)。
根據(jù)美國政府的定義，兒童****內(nèi)容（Child Sexual Abuse Material，以下簡稱 CSAM），包括照片、視頻等，只要其中涉及未成年人露骨****行為的畫面，都屬于此類內(nèi)容。更具體來說，涉及包括誘騙、勒索、展示/鼓動/宣揚性化 (sexualization) 未成年人、拐賣兒童性質(zhì)的內(nèi)容，都屬于谷歌明令禁止的 CSAM 范疇。

圖片來源：谷歌
為了防止平臺、產(chǎn)品和技術(shù)被用于傳播 CSAM，谷歌投入了大量資源，對 CSAM 進行掃描、阻止、移除和舉報——然而這次讓馬克遭殃的并不是谷歌的掃描技術(shù)，而是谷歌的人工查驗流程出了疏漏。
在各大公司，CSAM 檢索和事后舉報的流程，都包括了算法掃描和人工查驗的雙保險制度，谷歌也不免俗。然而在馬克的遭遇當(dāng)中，在算法發(fā)現(xiàn)了照片，并自動觸發(fā)系統(tǒng)鎖死馬克的賬戶，并交由人工查驗之后，核查員似乎并沒有考慮當(dāng)時的場景，沒有發(fā)現(xiàn)這張照片是發(fā)給醫(yī)療專業(yè)人士的。
事后，馬克立即進行了申訴。然而谷歌不僅拒絕復(fù)核之前做出的決定，甚至都不讓他下載保存自己的數(shù)據(jù)。被關(guān)閉的賬號，數(shù)據(jù)在兩個月后就被自動刪除了，馬克失去了過去多年積累的很多重要信息。
事情就這樣拖了整整一年，直到去年年底警方正式啟動了調(diào)查。
在這一年里，馬克幾近“社死”，很難跟同事和朋友完整、誠實地解釋，自己的電話號碼、郵箱，為什么突然就憑空消失了。
直到今年前不久，當(dāng)?shù)鼐讲磐瓿闪苏{(diào)查并予以結(jié)案。
結(jié)果毫無意外：馬克無罪。

圖文無關(guān) 圖片來源：Direct Media / CC0授權(quán)
對于把自己的忠實用戶推進深淵，谷歌用法律作為擋箭牌的解釋，很合情合理，卻也綿軟無力。一位公司發(fā)言人表示，美國的兒童保護相關(guān)法律要求像谷歌這樣的公司必須對發(fā)現(xiàn)的 CSAM 事件進行上報。
根據(jù)谷歌的透明度報告，僅在2021年度，公司就屏蔽了近120萬個涉及 CSAM 的超鏈接，向美國相關(guān)監(jiān)督機構(gòu)“全國失蹤與受虐兒童服務(wù)中心” (NCMEC) 提交了87萬份報告，涉及約670萬條內(nèi)容，關(guān)閉了約27萬個賬號。
遺憾的是，馬克不幸成為了27萬分之一。
身處這27萬人中間，就像那些進了監(jiān)獄卻高喊著無辜的人一樣，那種有冤情說不出，說出也不被人相信的滋味，簡直無法想象。

/ 好心辦壞事 /
在介紹打擊 CSAM 工作的官方頁面上，谷歌宣稱，公司組建并訓(xùn)練了專門的隊伍，使用最尖端的技術(shù)來識別 CSAM。
目前在美國大公司的范圍里，檢索 CSAM 有兩種技術(shù)途徑：哈希值匹配，和計算機視覺識別。
哈希值匹配比較簡單，就是調(diào)取市面上第三方機構(gòu)維護的數(shù)據(jù)庫里的條目，和自己平臺上的圖片進行哈希值匹配，從而檢測已知的 CSAM 相關(guān)內(nèi)容。這方面早年谷歌曾經(jīng)用過微軟的 PhotoDNA。這項技術(shù)已經(jīng)存在了10年多的時間了，不止谷歌，包括 Meta、Reddit、Twitter 等公司，以及 CSAM 領(lǐng)域的權(quán)威公共監(jiān)督機構(gòu) NCMEC，都在使用它。

圖片來源：微軟
以及，谷歌系的 YouTube 也在使用自研的 CSAI Match 技術(shù)來，實現(xiàn)流媒體視頻的哈希匹配。
當(dāng)然，每天都有新的違法圖片和視頻誕生，所以除了哈希匹配之外，谷歌還自研并部署了基于計算機視覺技術(shù)的機器學(xué)習(xí)分類器，從而檢索“未曾見過”的相關(guān)內(nèi)容。
谷歌將這一技術(shù)整合到了 Content Safety API 當(dāng)中，也開放給第三方使用。目前，包括 Meta、Reddit、Adobe、雅虎等公司，也是谷歌自研 CSAM 檢索技術(shù)的用戶和合作伙伴。

圖片來源：谷歌
至于本次案件，谷歌似乎是從馬克的 Google Photos 檢索到了相關(guān)內(nèi)容。
Google Photos 是谷歌推出的照片備份和云端相冊服務(wù)，在自有品牌以及其它一些主流 Android 手機廠商的機型上都有預(yù)裝。值得注意的是，用戶在 Google Photos 里登錄谷歌賬號后，應(yīng)用會提示建議用戶打開自動上傳備份——馬克可能就是在這里吃了虧。
如果打開了自動上傳功能，除了在某些第三方應(yīng)用（比如 Twitter、Instagram) 下載的照片之外，包括相機照片集，以及手機上生成的其它照片，都會被 Google Photos 會自動上傳到云端。
而根據(jù)官方網(wǎng)站和公司發(fā)言人透露的情況，谷歌不止明令限制用戶通過 Google Photos 上傳和傳播相關(guān)內(nèi)容，它的 CSAM 打擊系統(tǒng)，也會對 Google Photos 里的照片進行掃描和匹配。
問題在于，根據(jù)谷歌發(fā)言人的表述，CSAM 打擊系統(tǒng)的對象僅限于用戶“主動行為” (affirmative action) 上傳的圖片。
從務(wù)實的角度來看，馬克開啟了 Google Photos 自動上傳，結(jié)果因為急著給娃看病，拍了這張照片，自動上傳了，忘了刪，回頭被谷歌找上麻煩——這樣也要算作主動行為，未免有點牽強。

圖片來源：《紐約時報》
掃描 CSAM，能夠保護兒童安全，有效地打擊戀童癖和各種變態(tài)，聽上去怎么都是一件好事對不對？
然而實際上，近年來美國大型互聯(lián)網(wǎng)和科技公司在做這件事的時候各種問題故障和丑聞不斷——結(jié)果就是，算法自動化打擊 CSAM 這件事，在技術(shù)道德和隱私權(quán)方面已經(jīng)引發(fā)了巨大爭議。
如果把谷歌這次烏龍事件形容為“人禍”的話，那么去年同一時間蘋果出的事故，可以稱得上“天災(zāi)”了。
去年8月初，蘋果突然宣布，將要在 iOS 平臺上推出一個專門掃描 CSAM 的客戶端側(cè)工具。

圖片來源：蘋果公司
蘋果突出的關(guān)鍵詞在“端側(cè)”上：和谷歌一直以來掃描云端服務(wù)器存儲的用戶內(nèi)容的做法不同，蘋果表示只會在用戶設(shè)備上做這件事，系統(tǒng)會下載 NCMEC 的數(shù)據(jù)庫，然后完全在本地進行哈希值匹配。
然而，蘋果所謂的“端側(cè)”、“注重隱私”等，只是表面說辭。有專家發(fā)現(xiàn)，實際上用戶發(fā)送到 iCloud 保存的照片也會成為檢測對象。還有研究者發(fā)現(xiàn)蘋果所采用的匹配算法 NeuralHash 存在設(shè)計理念缺陷。而且這一技術(shù)根本不是即將推出，而是好久以前就偷偷植入到公開版 iOS 里了，蘋果還專門混淆了 API 命名，以便“隱姓埋名”。
結(jié)果，蘋果宣布了這件事之后沒出一個月，就有人對 NeuralHash 算法實現(xiàn)了哈希碰撞和“原像攻擊”。

簡單來說，哈希碰撞就是找到兩張哈希值相同的隨機照片；而原像攻擊，則是“刻意生成的碰撞”，也即先給定一張照片，然后生成另一張和其哈希值相同，但內(nèi)容不同的照片。
甚至，有人直接在廣受歡迎的 ImageNet 標(biāo)注圖像數(shù)據(jù)庫里，都能夠找到幾對天然的 NeuralHash “雙胞胎”（兩張不同的原視圖片，哈希值相同）……
這些攻擊測試的結(jié)果，從原理和邏輯上直接推翻了蘋果的 CSAM 檢索技術(shù)，使其一文不值。

圖片來源：Cory Cornelius
早期測試的結(jié)果顯示，NeuralHash 的哈希碰撞發(fā)生率和蘋果宣稱的誤報率水平差不多，屬于可以接受的范圍。然而考慮到蘋果在全球擁有超過15億設(shè)備用戶，基數(shù)過于巨大，一旦 NeuralHash 出現(xiàn)誤報，甚至哈希碰撞導(dǎo)致的事故，都會波及大量用戶。

總的來看，目前谷歌、蘋果這兩大移動平臺級超大型公司，在掃描和打擊兒童****這件事上，都確實努力做了一些事情，也值得鼓勵。
然而這件事的另一面，卻令人大為遺憾：
因為一張隨手拍出的照片，工作和生活陷入僵局，甚至險些身敗名裂，這恐怕是馬克，以及不少和他經(jīng)歷相似的人，所完全沒有預(yù)料到的。
這也是整件事的尷尬之處：在過界的美國科技平臺和它們糟糕的算法面前，好心真的可能會辦壞事。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

科技公司的尷尬戰(zhàn)爭：算法的“好意”，險些毀了一位父親的人生

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

科技公司的尷尬戰(zhàn)爭：算法的“好意”，險些毀了一位父親的人生

相關(guān)推薦

技術(shù)專區(qū)

科技公司的尷尬戰(zhàn)爭：算法的“好意”，險些毀了一位父親的人生