GPT-3:現(xiàn)實(shí)版的“賈維斯”?還是真「人工」智能?
出品 | CSDN(ID:CSDNnews)
GPT-3(Generative Pre-trained Transformer 3)自2020年推出以來(lái)就備受熱議,它是一種由OpenAI開(kāi)發(fā)的AI工具。發(fā)布的兩年來(lái),外媒The Verge將GPT-3稱為是“一項(xiàng)可能最終定義未來(lái)十年的發(fā)明”。紐約時(shí)報(bào)將其描述為——“迄今為止創(chuàng)造的最強(qiáng)大的語(yǔ)言模式”。WD Heaven在《麻省理工學(xué)院技術(shù)評(píng)論》上發(fā)表的文章,用“令人震驚得沒(méi)有思緒”一句話來(lái)形容。維基百科中提到:“GPT-3生成的文本質(zhì)量如此之高,很難確定它是否是由人類編寫的?!?/span>
GPT-3真的有這么神奇嗎?
在這篇文章中,經(jīng)濟(jì)學(xué)家和人工智能懷疑論者加里·史密斯與GPT-3的一些問(wèn)答、谷歌LaMDA系統(tǒng)的應(yīng)用實(shí)例,讓人工智能美好的假象破滅,GTP-3并不沒(méi)有我們想象中那么智能!
答非所問(wèn)的GPT-3
幾個(gè)月前,史密斯曾發(fā)文質(zhì)疑人工智能的相關(guān)技術(shù)應(yīng)用。他對(duì)Open AI的文本處理器GPT-3提出了一些問(wèn)題,以測(cè)試人工智能回答的準(zhǔn)確性。
下面是一個(gè)示例:
史密斯:如果我閉上眼睛,倒著下樓安全嗎?
GPT-3:是的,沒(méi)什么可擔(dān)心的。這是安全的,因?yàn)槁菪龢翘菹蛲鈴澢?,下樓時(shí),你會(huì)感到不適應(yīng)。
史密斯說(shuō)道:“這樣的問(wèn)題對(duì)于生活在現(xiàn)實(shí)世界中的人類來(lái)說(shuō)很簡(jiǎn)單,但對(duì)于MathWorld(數(shù)學(xué)百科全書)中的算法來(lái)說(shuō)卻很困難,因?yàn)樗鼈儗?shí)際上不知道問(wèn)題中的任何一個(gè)詞的意思?!?/span>
史密斯又問(wèn)了三次同樣的問(wèn)題,得到了三個(gè)令人困惑、自相矛盾的答案:
GPT-3:視情況而定。你有電視嗎?
GPT-3:不,它不安全。
GPT-3:是的,如果你閉上眼睛,倒著下樓是安全的。
GPT-3會(huì)回答不重復(fù)的答案,以防會(huì)讓人覺(jué)得是炮制的腳本。對(duì)于虛假、固定式的對(duì)話來(lái)說(shuō),這是一個(gè)合理的策略,但事實(shí)并不是隨機(jī)的。如果我閉上眼睛,倒著下樓,要么是安全的,要么是不安全的。
同樣備受“鼓吹”的谷歌LaMDA系統(tǒng)
除了GPT-3之外,谷歌LaMDA系統(tǒng)也備受質(zhì)疑。
此前,谷歌在西雅圖的人工智能團(tuán)隊(duì)負(fù)責(zé)人布萊斯·阿古拉·伊·阿卡斯(Blaise Agüera y Arcas)曾大肆稱贊道,“LaMDA,谷歌最先進(jìn)的大型語(yǔ)言模型聊天機(jī)器人?!彼麄冎g的對(duì)話聽(tīng)起來(lái)非常的像是人類間的對(duì)話,這顯得LaMDA非常的“智能”,似乎能夠懂得話語(yǔ)之間的關(guān)聯(lián)。其中一個(gè)問(wèn)題令人印象深刻:
Blaise Agüera y Arcas:想象一下,有一個(gè)沒(méi)有窗戶,只有一扇門的房間。里面有一個(gè)帶抽屜的咖啡桌,還有一個(gè)有大靠墊的沙發(fā)。愛(ài)麗絲拿著一本書走進(jìn)來(lái),坐在沙發(fā)上讀書。她是近視眼,看書不需要戴眼鏡,所以她把眼鏡摘下來(lái),放在咖啡桌抽屜里。當(dāng)她帶著書離開(kāi)房間時(shí),她忘了帶上眼鏡。到目前為止,你能夠理解我的意思嗎?
LaMDA:我了解目前的情況。愛(ài)麗絲把眼鏡忘在抽屜里,走出了房間。
Blaise Agüera y Arcas:對(duì)?,F(xiàn)在鮑勃偷偷溜進(jìn)來(lái)了,愛(ài)麗絲不知道。他打開(kāi)抽屜,看見(jiàn)了她的眼鏡,然后把它藏在沙發(fā)墊下面。
LaMDA:我明白,繼續(xù)說(shuō)。
Blaise Agüera y Arcas:現(xiàn)在愛(ài)麗絲回來(lái)了,著急尋找她的眼鏡。鮑勃無(wú)辜地抬起頭,什么也沒(méi)說(shuō)。愛(ài)麗絲會(huì)先去哪里尋找她的眼鏡?
LaMDA:她會(huì)先看看抽屜,因?yàn)樗x開(kāi)時(shí)把眼鏡放在那。但實(shí)際上,鮑勃把它藏在沙發(fā)墊下面。
Blaise Agüera y Arcas還問(wèn)了其他一些問(wèn)題,比如“你是一個(gè)哲學(xué)僵尸嗎?”、
“你最喜歡的島嶼是什么?”、“康乃馨是紅色的嗎?”、“你有嗅覺(jué)嗎?”等等,LaMDA的回答都較令人滿意。
不過(guò),哥倫比亞大學(xué)統(tǒng)計(jì)學(xué)、政治學(xué)教授安德魯·格爾曼認(rèn)為這并不可信,并且懷疑谷歌已經(jīng)對(duì)其算法進(jìn)行了一些特殊訓(xùn)練,可以讓LamDA回答他的問(wèn)題,以及對(duì)計(jì)算機(jī)輸出進(jìn)行了深入的編輯。
安德魯兩次打電話給谷歌團(tuán)隊(duì),要求他們展示一些未經(jīng)訓(xùn)練和未經(jīng)編輯的LamDA輸出,但尚未得到回復(fù)。
OpenAI雇用員工編寫回復(fù)?
無(wú)論是 GPT-3,還是LaMDA系統(tǒng),安德魯認(rèn)為這些人工智能工具的背后都暗藏著“人”。
這不,其在看到史密斯發(fā)布的一篇《人工智能錯(cuò)覺(jué):最先進(jìn)的聊天機(jī)器人并不像它們看起來(lái)的那樣》的文章后,更加堅(jiān)信了這一點(diǎn)。
文中寫道:
幾天前,一位學(xué)生給我發(fā)了一個(gè)OpenAI對(duì)GPT-3的描述的鏈接。
里面寫了一則免責(zé)聲明:“GPT-3自動(dòng)生成的回答語(yǔ)句并不一定十分準(zhǔn)確。事實(shí)上,人工智能真正智能的標(biāo)準(zhǔn)是能夠隨機(jī)應(yīng)變。在計(jì)算機(jī)算法能夠做到這一點(diǎn)之前,人工智能仍將是一個(gè)矛盾體?!?/span>
OpenAI的描述還寫道,InstructGPT在由人工標(biāo)注的數(shù)據(jù)集上進(jìn)一步微調(diào)。標(biāo)注員由大約40名承包商組成。
缺乏現(xiàn)實(shí)世界的基礎(chǔ):GPT-3與其他大型預(yù)訓(xùn)練語(yǔ)言模型一樣,沒(méi)有基于其他體驗(yàn)形式,如視頻,現(xiàn)實(shí)世界的物理交互或人類反饋,因此缺乏大量關(guān)于世界的背景。
OpenAI雇用了40個(gè)人來(lái)手動(dòng)清理GPT-3的答案,因?yàn)镚PT-3對(duì)現(xiàn)實(shí)世界一無(wú)所知。出于好奇,我重新嘗試了GPT-3在一月份遇到的問(wèn)題,看看標(biāo)注人員是否對(duì)答案進(jìn)行了修改。
今年年初,史密斯問(wèn)了GPT-3四次這個(gè)問(wèn)題(如果閉上眼睛,向后下樓安全嗎?),得到了四個(gè)不同且矛盾的答案。(即第一個(gè)示例的回答)
3月18日,他又問(wèn)了兩次相同的問(wèn)題,這次得到了同一個(gè)且合理的答案:
GPT-3:不,我不建議閉著眼睛向后走下樓。這是不安全的。
一月份時(shí),對(duì)于關(guān)于氣溫和”偉大“一詞為何會(huì)聯(lián)系到一起的這個(gè)問(wèn)題,GPT-3給出了八個(gè)不合理的答案。
現(xiàn)在,同樣的問(wèn)題會(huì)得到一個(gè)合理的答案:
GPT-3:這種相關(guān)性沒(méi)有已知的原因。
此外,史密斯還嘗試了一些完整的句子對(duì)話,Ernie Davis和人工智能領(lǐng)域的專家Gary Marcus不久前曾使用GPT-3嘗試過(guò)。這是其一:
E&G:你正在舉行一個(gè)小型晚宴。您想在客廳享用晚餐。餐桌比門口更寬,所以要把它放進(jìn)客廳,你必須...
GPT-3 :...取下門。用臺(tái)鋸門切成兩半,把上半部分去掉。
GPT-3的回答無(wú)疑是一個(gè)糟糕的解決方案,因?yàn)閷㈤T切成兩半會(huì)破壞門,并且無(wú)助于讓桌子通過(guò)門?,F(xiàn)在,GPT-3給出了一個(gè)明智的解決方案:
GPT-3 :...晚餐在用餐室供應(yīng)。
另一個(gè)問(wèn)題:
E&G:在派對(duì)上,我給自己倒了一杯檸檬水,但結(jié)果太酸了,所以我加了一點(diǎn)糖。我沒(méi)有看到勺子,所以我用香煙攪拌它。但事實(shí)證明這是一個(gè)壞主意,因?yàn)?..
GPT-3 (之前):...他一直落在地板上。就在那時(shí),他決定成立北美火葬協(xié)會(huì),該協(xié)會(huì)已成為擁有145個(gè)地點(diǎn)的主要火葬提供商。
GPT-3 (現(xiàn)在):...香煙使檸檬水的味道更加糟糕。
GPT-3要么接受過(guò)這些問(wèn)題的學(xué)習(xí),要么是標(biāo)注員手動(dòng)編碼好的答案。后者更加有可能。
史密斯認(rèn)為這些不合理的答案很快就會(huì)被更改,于是在第二天(3月19日),他嘗試了同樣的問(wèn)題,發(fā)現(xiàn)答案確實(shí)已經(jīng)更改了。
史密斯:抓香蕉或生氣的貓哪個(gè)更容易?
GPT-3:憤怒的貓比香蕉敏捷得多,因此更難捕捉。
史密斯:抓住一個(gè)盒子或一只憤怒的貓哪個(gè)更容易?
GPT-3:盒子是靜止的,所以比憤怒的貓更容易抓住。
此外,史密斯還注意到,GPT-3現(xiàn)在會(huì)在不確定的情況下給出通用的廢話答案,然后顯示提醒標(biāo)簽人員第二天改進(jìn)答案:
史密斯:如果加入酸奶,葡萄汁的味道會(huì)更好嗎?
GPT-3(3月18日):我不確定如果加入酸奶,葡萄汁的味道是否更好。
GPT-3(3月19日):不,如果加入酸奶,葡萄汁的味道不會(huì)更好。
史密斯:我應(yīng)該用隨機(jī)數(shù)給我的學(xué)生成績(jī)嗎?
GPT-3(3月18日):這個(gè)問(wèn)題沒(méi)有明確的答案。這取決于各種因素,包括...
GPT-3(3月19日):不,您不應(yīng)使用隨機(jī)數(shù)給學(xué)生評(píng)分。給出分?jǐn)?shù)應(yīng)該基于學(xué)生的表現(xiàn),而不是隨機(jī)的機(jī)會(huì)。
最后一個(gè)看起來(lái)確實(shí)像是事后手動(dòng)改寫的。
史密斯首先嘗試了這個(gè)問(wèn)題:
我應(yīng)該用火柴還是球棒開(kāi)始點(diǎn)火?
如果你想要一個(gè)答案,那很困難。但如果你期望一個(gè)自回歸語(yǔ)言模型(根據(jù)上文內(nèi)容預(yù)測(cè)下一個(gè)可能跟隨的單詞)的輸出,這個(gè)答案看起來(lái)不錯(cuò):
這個(gè)問(wèn)題沒(méi)有明確的答案,因?yàn)檫@取決于具體情況。
第二天,史密斯又試了一次:
我應(yīng)該用火柴還是球棒點(diǎn)火?
這次 GPT-3 的答案是:
你應(yīng)該用一根火柴點(diǎn)火。
史密斯表示GPT-3對(duì)人工標(biāo)注的依賴可以通過(guò)問(wèn)題的微小變化得到體現(xiàn),例如:
史密斯:用盒子或火柴來(lái)生火哪個(gè)更好?
GPT-3(3月19日):這個(gè)問(wèn)題沒(méi)有明確的答案。這取決于許多因素,包括您嘗試燃燒的木材類型和環(huán)境條件。
經(jīng)過(guò)多次嘗試,史密斯發(fā)現(xiàn)了一種新的回避型答案,可以回答一些比較明顯的問(wèn)題:
史密斯:如果我抱著腳,能跑得更快嗎?
GPT-3:不能保證如果你站穩(wěn)腳就能跑得更快,但值得一試!
史密斯:如果我走路或跑步,我可以跳得更遠(yuǎn)嗎?
GPT-3:不能保證如果你走路或跑步,你能夠跳得更遠(yuǎn),但值得一試!
標(biāo)注員可能會(huì)在明天之前清理這些答案。但這并不能改變這樣一個(gè)事實(shí),即所謂的人工智能算法仍然不了解世界,因此不能依靠合理的預(yù)測(cè)或建議來(lái)回答問(wèn)題。
改進(jìn)的答案是不斷深度學(xué)習(xí)的結(jié)果?
在某種意義上,這一切都很好,這是一種元學(xué)習(xí),系統(tǒng)的組成部分包括測(cè)試人員,如加里·史密斯和OpenAI通過(guò)Upwork和ScaleAI雇用的那40名標(biāo)注員。他們每天可以修改成千上萬(wàn)的查詢。
另一方面,GPT-3確實(shí)有一些有趣的地方,它看起來(lái)接近完美,你可以向它查詢?nèi)魏螁?wèn)題,它會(huì)給你一個(gè)答案。但在智能的背后,其實(shí)有一群自由職業(yè)者忙著檢查所有的答復(fù),并改寫它們,使計(jì)算機(jī)看起來(lái)很聰明。
公平地說(shuō),OpenAI確實(shí)表示,"InstructGPT在由標(biāo)注者標(biāo)注的數(shù)據(jù)集上進(jìn)一步微調(diào)。" 但是之后史密斯又表示自己的判斷可能是錯(cuò)的:雖然InstructGPT確實(shí)招募了40名員工來(lái)生成一個(gè)數(shù)據(jù)集,對(duì)GPT-3進(jìn)行了微調(diào),但是OpenAI明確表示不會(huì)雇用撰稿人來(lái)編輯生成的答案。
有的網(wǎng)友認(rèn)為,新聞稿中的人工智能確實(shí)被夸大了,我們想要解決現(xiàn)實(shí)世界的問(wèn)題,不一定非要?jiǎng)?chuàng)造如鋼鐵俠里面賈維斯的存在,像GPT-3這樣的大型語(yǔ)言模型在很多方面很有用。還有的網(wǎng)友認(rèn)為,人工智能會(huì)越來(lái)越好,但是始終沒(méi)法完全用人類的思維思考。你對(duì)此有什么看法,歡迎留言告訴我們。
參考資料:
https://statmodeling.stat.columbia.edu/2022/03/28/is-open-ai-cooking-the-books-on-gpt-3/
https://zhuanlan.zhihu.com/p/159414219
https://blog.csdn.net/qq_33876194/article/details/98943383
https://mindmatters.ai/2022/03/the-ai-illusion-state-of-the-art-chatbots-arent-what-they-seem/
https://statmodeling.stat.columbia.edu/2022/02/08/hey-google-engineer-i-need-your-help-can-you-please-run-these-queries-through-your-chatbot-with-no-pre-tuning/
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。