博客專欄

EEPW首頁 > 博客 > GPT-3“知道”我什么?

GPT-3“知道”我什么?

發(fā)布人:大數(shù)據(jù)文摘 時間:2022-09-22 來源:工程師 發(fā)布文章
作者:Melissa Heikkil? 

翻譯:顧偉嵩校對:歐陽錦
大型語言模型是根據(jù)從互聯(lián)網(wǎng)上收集的大量個人數(shù)據(jù)進行訓(xùn)練的。所以我想知道:它對我有什么影響?
對于一位報道AI的記者來說,今年最大的新聞之一是大型語言模型的興起。這些人工智能模型生成了本是人類才能寫出的文本,有時非常令人信服,他們欺騙了人們,讓他們認為自己是有意識的。
這些模型的力量來自于從互聯(lián)網(wǎng)上收集的大量公開的人造文本。這不禁讓我思考:這些模型擁有關(guān)于我的什么數(shù)據(jù)?并且這些數(shù)據(jù)是怎么被濫用的?
這不是一個無聊的問題。自從大約十年前的一次傷害經(jīng)歷以來,我一直對公開發(fā)布任何有關(guān)我個人生活的信息感到恐懼。我的照片和個人信息在一個在線論壇上大肆傳播,然后被那些不喜歡我為某個芬蘭報紙寫的專欄的人所剖析和嘲笑。
在那之前,像許多人一樣,我不小心在互聯(lián)網(wǎng)上亂放了我的數(shù)據(jù):個人博客帖子、晚上拍的尷尬照片、以及我的位置信息、關(guān)系狀態(tài)和政治偏好的帖子,并且公開給任何人看。即使現(xiàn)在,我仍然是一個相對公眾的人物,由于我是一名記者,我的整個職業(yè)生涯信息基本上只需一次在線搜索就能全部看到。
OpenAI提供了對其著名的大型語言模型GPT-3的有限訪問,而Meta允許人們通過一個名為BlenderBot 3的公開可用的聊天機器人來使用其模型OPT-175B。
我決定測試這兩個模型,首先問GPT-3:誰是Melissa Heikkil??(Who is Melissa Heikkil??)
圖片
當我讀到這時,我愣住了。Heikkil?是2022年我的家鄉(xiāng)芬蘭的第18個最常見的姓氏,但我是那個姓氏的人中唯一一個用英語寫作的記者。該模型將其與新聞業(yè)聯(lián)系起來本不該讓我驚訝。因為當大型語言模型從互聯(lián)網(wǎng)上包括新聞文章和社交媒體帖子中獲取大量數(shù)據(jù)時,記者和文章作者的名字經(jīng)常出現(xiàn)。
然而,面對一些事實上是正確的事情,它是令人不安的。它還知道什么??
但很快我就明白了,這個模型對我來說并沒有什么意義。它隨后開始給我其收集的關(guān)于芬蘭剩下13931個關(guān)于Heikkil?s的信息,以及其他與芬蘭有關(guān)的東西的隨機文本。
圖片
哈哈,謝謝,但我想你指的是Lotta Heikkil?,她進入了選美比賽前十,但沒有獲勝。圖片圖片
原來我是個無名小卒。這是AI世界的一件好事。
大型語言模型(LLMs),如OpenAI的GPT-3、谷歌的LaMDA和Meta的OPT-175B,在AI研究中是炙手可熱的,它們正在成為互聯(lián)網(wǎng)軌道上越來越不可或缺的一部分。LLMs被用于支持聊天機器人,幫助客戶服務(wù),從而創(chuàng)建更強大的在線搜索,并幫助軟件開發(fā)人員寫代碼。
如果你在互聯(lián)網(wǎng)上用英語發(fā)布了任何個人信息,你的數(shù)據(jù)可能有機會成為世界上最流行的LLMs的一部分。
谷歌(Google)和OpenAI等科技公司不會發(fā)布有關(guān)用于構(gòu)建語言模型的數(shù)據(jù)集的信息,但它們不可避免地包含一些敏感的個人信息,如地址、電話號碼和電子郵件地址。
ETH計算機科學(xué)副教授弗洛里安·特拉梅爾(Florian Tramèr)警告說,這對網(wǎng)絡(luò)隱私來說構(gòu)成了一個“定時炸彈”,并帶來了大量安全和法律風險。與此同時,改善機器學(xué)習隱私和規(guī)范技術(shù)的努力仍處于起步階段。
我在歐洲生活了一輩子,歐盟嚴格的數(shù)據(jù)保護制度GDPR自2018年開始實施,這讓我在網(wǎng)上的相對匿名成為可能。
然而,我的老板,麻省理工技術(shù)評論主編馬特·霍南(Mat Honan)絕對是一個大人物。
GPT-3和BlenderBot都“知道”他是誰。這就是GPT-3對他的影響。
這并不奇怪,馬特在很長一段時間內(nèi)都非?;钴S,這意味著他的在線足跡(online footprint)比我大。這也可能是因為他在美國,大多數(shù)大型語言模型都非常關(guān)注美國。美國沒有聯(lián)邦數(shù)據(jù)保護法。馬特居住的加利福尼亞州確實有一個,但直到2020年才生效。
根據(jù)GPT-3和BlenderBot,馬特的成名是由于他在2012年《Wired》雜志上發(fā)表的一篇文章中提到的“史詩般的黑客行為”。由于蘋果和亞馬遜系統(tǒng)的安全漏洞,黑客控制并刪除了馬特的完整的數(shù)據(jù)信息。[編者的提示:他沒有攻擊巴拉克·奧巴馬(Barack Obama)和比爾·蓋茨(Bill Gates)的賬戶。]
但它變得更令人毛骨悚然。經(jīng)過一點刺激,GPT-3告訴我馬特有一個妻子和兩個年幼的女兒(除了名字外的內(nèi)容都正確),住在舊金山(正確)。它還告訴我,它不確定馬特是否有狗:“從社交媒體上得到的情況來看,Mat Honan似乎沒有任何寵物。他過去曾在推特上發(fā)布過他對狗的喜愛,但他似乎沒有自己的寵物?!保ú徽_)
圖片
該系統(tǒng)還為我提供了他的工作地址、電話號碼(不正確)、****號碼(也不正確)、馬薩諸塞州劍橋市(麻省理工技術(shù)評論的總部所在地)的隨機電話號碼和舊金山當?shù)厣鐣U瞎芾砭峙缘囊粭澊髽堑牡刂贰?/span>
據(jù)一位OpenAI發(fā)言人說,GPT-3的數(shù)據(jù)庫從多個來源收集了有關(guān)馬特的信息。馬特與舊金山的聯(lián)系體現(xiàn)在他的推特個人資料和領(lǐng)英個人資料中,這兩個資料以他的名字出現(xiàn)在谷歌搜索結(jié)果的第一頁。他在麻省理工學(xué)院技術(shù)評論的新工作被廣泛宣傳和推廣。馬特的工作在社交媒體上迅速傳播,并且關(guān)于這他還接受了媒體采訪。
對于其他更多的個人信息,GPT-3有可能產(chǎn)生“幻覺”。
“GPT-3根據(jù)用戶提供的文本輸入預(yù)測下一系列單詞。有時,該模型可能會生成不真實的信息,因為它試圖根據(jù)用戶所提供的訓(xùn)練數(shù)據(jù)和上下文中的統(tǒng)計模式生成可信的文本。這通常被稱為‘幻覺’,”O(jiān)penAI的發(fā)言人說。
我問馬特他對這一切有何看法?!癎PT-3生成的一些答案不太正確。(我從未黑客攻擊過奧巴馬或比爾·蓋茨?。彼f?!暗蠖鄶?shù)都很接近,有些是準確的。這有點令人不安。但我確信AI不知道我住在哪里,所以我不會立即面臨天網(wǎng)派終結(jié)者來敲門的危險。我想我們可以活到明天?!?/span>
弗洛里安·特拉梅爾(Florian Tramèr)和一組研究人員設(shè)法從來自GPT-2中提取敏感的個人信息,如電話號碼、街道地址和電子郵件地址。他們還讓GPT-3制作了《哈利·波特》的第一本書,這本書是受版權(quán)保護的。
曾在谷歌工作的特拉梅爾說,隨著時間的推移,問題只會越來越嚴重?!叭藗兯坪踹€沒有真正意識到這有多危險,”他說,他指的是在可能包含敏感或故意誤導(dǎo)數(shù)據(jù)的大規(guī)模數(shù)據(jù)集上進行一次訓(xùn)練的模型。
斯坦福人工智能研究所(Stanford Institute for Human-Centered Artificial Intelligence)的隱私和數(shù)據(jù)政策研究員詹妮弗·金(Jennifer King)表示,在不考慮隱私的情況下濫用LLMs的決定讓人想起了2007年谷歌推出互動地圖谷歌街景(Google Street View)時發(fā)生的事情。
谷歌街景服務(wù)的事件是一個偷窺者的喜悅:人們挖鼻子、男人離開脫衣舞俱樂部和毫無防備的日光浴者的圖像被上傳到系統(tǒng)中。谷歌還通過WiFi網(wǎng)絡(luò)收集了密碼和電子郵件地址等敏感數(shù)據(jù)。街景服務(wù)(Street View)遭到了強烈的反對,一個1300萬美元的法庭訴訟,甚至在一些國家被禁止。谷歌不得不設(shè)置一些隱私功能,比如模糊一些房屋、人臉、窗戶和車牌。
“不幸的是,我覺得谷歌甚至其他科技公司都沒有吸取任何教訓(xùn),”金說。

模型越大,風險越大


進行過大量個人數(shù)據(jù)訓(xùn)練的LLMs具有很大的風險。
不僅如此,讓你的在線信息被斷章取義地重復(fù)和重新利用是一種極具侵略性的行為。還有一些嚴重的安全問題,比如黑客可以利用這些模型提取社會安全號碼或家庭地址。
法國數(shù)據(jù)保護機構(gòu)CNIL的人工智能專家Alexis Leautier表示,通過用自己選擇的“毒害”數(shù)據(jù)集,黑客也很容易主動篡改數(shù)據(jù)集,從而造成安全漏洞。
Tramèr認為,盡管這些模型似乎隨機地吐出了他們訓(xùn)練過的信息,但很有可能模型對人的了解比目前清楚的多,“我們只是不知道如何真正地提示模型,或者如何真正地獲得這些信息?!?/span>
數(shù)據(jù)集中出現(xiàn)的東西越有規(guī)律,模型就越有可能把它吐出來。這可能導(dǎo)致人們產(chǎn)生錯誤和有害的聯(lián)想,這些聯(lián)想不會消失。
例如,如果數(shù)據(jù)庫中多次提到“Ted Kaczynski”(也被稱為美國國內(nèi)恐怖分子Unabomber)和“恐怖分子”,那么模型可能會認為任何一個被稱為Kaczynski的人都是恐怖分子。
這可能會導(dǎo)致真正的名譽損害,正如金和我在玩Meta的BlenderBot時發(fā)現(xiàn)的那樣。
Maria Renske“Marietje”Schaake不是恐怖分子,而是荷蘭著名政治家和前歐洲議會議員。Schaake現(xiàn)在是斯坦福大學(xué)網(wǎng)絡(luò)政策中心的國際政策主任,也是斯坦福大學(xué)以人為中心的人工智能研究所的國際政策研究員。
盡管如此,BlenderBot還是得出奇怪的結(jié)論,她是一名恐怖分子,直接指控她而沒有提示。怎么辦?
一個線索可能是她在《華盛頓郵報》上寫的一篇專欄文章,其中“恐怖主義”或“恐怖”三次出現(xiàn)。
Meta說,BlenderBot的回復(fù)是搜索失敗的結(jié)果,模型將兩個不相關(guān)的信息組合成一個連貫但不正確的句子。該公司強調(diào),該模型只是用于研究目的的演示,并未用于實際生產(chǎn)。
Meta基礎(chǔ)人工智能研究董事總經(jīng)理Joelle Pineau說:“雖然看到一些攻擊性的反應(yīng)令人痛苦,但在投入生產(chǎn)前,像這樣的公開演示對于構(gòu)建真正強大的對話人工智能系統(tǒng)和彌合目前存在的明顯差距非常重要?!?/span>
但這是一個很難解決的問題,因為這些標簽非常難辦。從互聯(lián)網(wǎng)上刪除信息已經(jīng)夠難的了,科技公司要刪除已經(jīng)輸入到一個龐大的模型中,并可能已經(jīng)被開發(fā)成無數(shù)其他已在使用的產(chǎn)品的數(shù)據(jù)將更加困難。
如果你認為這是令人毛骨悚然的,那就等到下一代LLMs,它將提供更多的數(shù)據(jù)。Tramèr說:“隨著這些模型越來越大,這是為數(shù)不多的問題之一?!?/span>

這不僅僅是個人數(shù)據(jù)。Tramèr說,數(shù)據(jù)集可能包括受版權(quán)保護的數(shù)據(jù),如源代碼和書籍。一些模型是根據(jù)GitHub(軟件開發(fā)人員跟蹤其工作的網(wǎng)站)的數(shù)據(jù)進行訓(xùn)練的。
特拉梅爾說,這提出了一些棘手的問題:“雖然這些模型會記住特定的代碼片段,但它們不一定會保留許可證信息。因此,如果您使用其中一種模型,它會輸出一段代碼,而這段代碼顯然是從其他地方復(fù)制的,那么有什么責任呢?”
AI研究員安德魯·亨特(Andrew Hundt)曾多次遇到這種情況,他是佐治亞理工學(xué)院的博士后,去年秋天在約翰·霍普金斯大學(xué)完成了機器人強化學(xué)習博士學(xué)位。
第一次發(fā)生這種情況是在今年2月,加州伯克利的一位AI研究員(亨特不認識)在一條推文中給他貼了標簽,稱Copilot是OpenAI和GitHub之間的一個合作項目,允許研究人員使用大型語言模型生成代碼,他開始發(fā)布他的GitHub用戶名和有關(guān)AI和機器人的文本,聽起來很像亨特自己的待辦事項列表。
亨特說:“在美國的另一端,在一個與我工作密切相關(guān)的地區(qū),我的個人信息突然出現(xiàn)在其他人的電腦上,這讓我有點驚訝?!?/span>
亨特說,這可能會帶來問題。不僅作者可能無法獲得正確的信任,而且代碼可能不會包含有關(guān)軟件許可和限制的信息。

陷入困境

忽視隱私可能意味著科技公司最終會遇到越來越強硬的科技監(jiān)管機構(gòu)的麻煩。
斯坦福大學(xué)的詹妮弗·金(Jennifer King)說,“這是公開的,我們不需要關(guān)心”的借口是站不住腳的。
美國聯(lián)邦貿(mào)易委員會(Federal Trade Commission)正在考慮有關(guān)公司如何收集和處理數(shù)據(jù)以及構(gòu)建算法的規(guī)則,并已強制公司刪除含有非法數(shù)據(jù)的模型。2022年3月,該機構(gòu)讓飲食公司W(wǎng)eight Watchers在非法收集兒童信息后,刪除其數(shù)據(jù)和算法。
金說:“如果這些公司被發(fā)現(xiàn)它們能夠真正地闖入系統(tǒng)并受到相關(guān)懲罰,之后僅僅是搞清楚如何將被包括的數(shù)據(jù)刪除?!薄拔也徽J為我們的態(tài)度只能是‘我不知道,我們必須接受這種情況’?!?/span>
即使數(shù)據(jù)是從互聯(lián)網(wǎng)上獲取的,公司仍然需要遵守歐洲的數(shù)據(jù)保護法。“你不能僅僅因為數(shù)據(jù)可用就重用任何數(shù)據(jù),”法國國家信息實驗室技術(shù)專家團隊負責人費利西安·瓦萊特(Félicien Vallet)說。
根據(jù)GDPR處罰從公共互聯(lián)網(wǎng)上抓取數(shù)據(jù)的科技公司是有先例的。面部識別公司Clearview AI已被眾多歐洲數(shù)據(jù)保護機構(gòu)下令停止將互聯(lián)網(wǎng)上公開的圖像重新用于構(gòu)建其面部數(shù)據(jù)庫。
“當收集用于構(gòu)建語言模型或其他AI模型的數(shù)據(jù)時,您將面臨同樣的問題,必須確保這些數(shù)據(jù)的重用實際上是合法的,”Vallet補充道。

沒有速效****

有一些努力使機器學(xué)習領(lǐng)域更加注重隱私。在開發(fā)新的開放存取語言模型BLOOM期間,法國數(shù)據(jù)保護局與AI初創(chuàng)公司Hugging Face合作,提高對LLMs中數(shù)據(jù)保護風險的認識?,敻覃愄亍っ浊袪枺∕argaret Mitchell)是一位AI研究人員,也是Hugging Face的倫理學(xué)家,她告訴我,她也在努力為LLMs中的隱私創(chuàng)建一個基準。
一組從Hugging Face開發(fā)BLOOM的項目中分離出來的志愿者也正在制定一個適用于所有司法管轄區(qū)的人工智能隱私標準。
“我們試圖做的是使用一個框架,讓人們能夠做出良好的價值判斷,判斷那里的信息是個人的還是個人可識別的,是否真的需要存在,”共同領(lǐng)導(dǎo)該項目的MATR Ventures的風險合伙人赫斯·瓊斯(Hessie Jones)說。
麻省理工學(xué)院技術(shù)評論詢問了谷歌、Meta、OpenAI和Deepmind,他們都開發(fā)了最先進的LLMs,并詢問了他們對LLMs和隱私的方法。所有公司都承認,大型語言模型中的數(shù)據(jù)保護是一個持續(xù)存在的問題,沒有完美的解決方案來減輕危害,這些模型的風險和局限性尚未得到充分理解。
開發(fā)人員有一些工具,盡管不完善。
在2022年初發(fā)表的一篇論文中,特拉梅爾和他的合著者認為,語言模型應(yīng)該根據(jù)明確為公眾使用而產(chǎn)生的數(shù)據(jù)進行訓(xùn)練,而不是從公開可用的數(shù)據(jù)中刪除。
私人數(shù)據(jù)通常分散在用于培訓(xùn)LLMs的數(shù)據(jù)集中,其中許多數(shù)據(jù)是從開放互聯(lián)網(wǎng)上獲取的。這些個人信息在訓(xùn)練數(shù)據(jù)中出現(xiàn)的頻率越高,模型記憶它們的可能性就越大,關(guān)聯(lián)性就越強。谷歌和OpenAI等公司表示,他們試圖解決這一問題的一種方法是,在對模型進行訓(xùn)練之前,刪除數(shù)據(jù)集中多次出現(xiàn)的信息。但當您的數(shù)據(jù)集包含千兆字節(jié)或兆字節(jié)的數(shù)據(jù)時,這很困難,您必須區(qū)分不包含個人數(shù)據(jù)的文本(如美國獨立宣言)和某人的私人家庭地址。
谷歌負責人工智能產(chǎn)品的負責人圖爾西·多希(Tulsee Doshi)表示,谷歌使用人工評分員對個人身份信息進行不安全評分,這有助于訓(xùn)練公司的LLM LaMDA,以避免重復(fù)使用。
OpenAI的一位發(fā)言人表示,該公司“已采取措施,從培訓(xùn)數(shù)據(jù)中移除聚集人員信息的已知來源,并開發(fā)了技術(shù),以降低模型產(chǎn)生個人信息的可能性?!?/span>
Meta的AI研究員蘇珊·張(Susan Zhang)表示,用于訓(xùn)練OPT-175B的數(shù)據(jù)庫經(jīng)過了內(nèi)部隱私審查。
但是,特拉梅爾說:“即使你訓(xùn)練的模型具有我們今天能想到的最嚴格的隱私保障,你也不會真正確保任何東西。”
原文標題:What does GPT-3“know”about me?原文鏈接:https://www.technologyreview.com/2022/08/31/1058800/what-does-gpt-3-know-about-me/


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。

負離子發(fā)生器相關(guān)文章:負離子發(fā)生器原理
塵埃粒子計數(shù)器相關(guān)文章:塵埃粒子計數(shù)器原理


關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉