GPT-3：現(xiàn)實(shí)版的“賈維斯”？還是真「人工」智能？

發(fā)布人：CV研究院時(shí)間：2022-04-14 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

整理 | 章雨銘責(zé)編 | 屠敏

出品 | CSDN（ID：CSDNnews）

GPT-3（Generative Pre-trained Transformer 3）自2020年推出以來(lái)就備受熱議，它是一種由OpenAI開(kāi)發(fā)的AI工具。發(fā)布的兩年來(lái)，外媒The Verge將GPT-3稱為是“一項(xiàng)可能最終定義未來(lái)十年的發(fā)明”。紐約時(shí)報(bào)將其描述為——“迄今為止創(chuàng)造的最強(qiáng)大的語(yǔ)言模式”。WD Heaven在《麻省理工學(xué)院技術(shù)評(píng)論》上發(fā)表的文章，用“令人震驚得沒(méi)有思緒”一句話來(lái)形容。維基百科中提到：“GPT-3生成的文本質(zhì)量如此之高，很難確定它是否是由人類編寫的?！?/span>

GPT-3真的有這么神奇嗎？

在這篇文章中，經(jīng)濟(jì)學(xué)家和人工智能懷疑論者加里·史密斯與GPT-3的一些問(wèn)答、谷歌LaMDA系統(tǒng)的應(yīng)用實(shí)例，讓人工智能美好的假象破滅，GTP-3并不沒(méi)有我們想象中那么智能！

答非所問(wèn)的GPT-3

幾個(gè)月前，史密斯曾發(fā)文質(zhì)疑人工智能的相關(guān)技術(shù)應(yīng)用。他對(duì)Open AI的文本處理器GPT-3提出了一些問(wèn)題，以測(cè)試人工智能回答的準(zhǔn)確性。

下面是一個(gè)示例：

史密斯：如果我閉上眼睛，倒著下樓安全嗎？

GPT-3：是的，沒(méi)什么可擔(dān)心的。這是安全的，因?yàn)槁菪龢翘菹蛲鈴澢?，下樓時(shí)，你會(huì)感到不適應(yīng)。

史密斯說(shuō)道：“這樣的問(wèn)題對(duì)于生活在現(xiàn)實(shí)世界中的人類來(lái)說(shuō)很簡(jiǎn)單，但對(duì)于MathWorld（數(shù)學(xué)百科全書）中的算法來(lái)說(shuō)卻很困難，因?yàn)樗鼈儗?shí)際上不知道問(wèn)題中的任何一個(gè)詞的意思?！?/span>

史密斯又問(wèn)了三次同樣的問(wèn)題，得到了三個(gè)令人困惑、自相矛盾的答案：

GPT-3：視情況而定。你有電視嗎？

GPT-3：不，它不安全。

GPT-3：是的，如果你閉上眼睛，倒著下樓是安全的。

GPT-3會(huì)回答不重復(fù)的答案，以防會(huì)讓人覺(jué)得是炮制的腳本。對(duì)于虛假、固定式的對(duì)話來(lái)說(shuō)，這是一個(gè)合理的策略，但事實(shí)并不是隨機(jī)的。如果我閉上眼睛，倒著下樓，要么是安全的，要么是不安全的。

同樣備受“鼓吹”的谷歌LaMDA系統(tǒng)

除了GPT-3之外，谷歌LaMDA系統(tǒng)也備受質(zhì)疑。

此前，谷歌在西雅圖的人工智能團(tuán)隊(duì)負(fù)責(zé)人布萊斯·阿古拉·伊·阿卡斯（Blaise Agüera y Arcas）曾大肆稱贊道，“LaMDA，谷歌最先進(jìn)的大型語(yǔ)言模型聊天機(jī)器人?！彼麄冎g的對(duì)話聽(tīng)起來(lái)非常的像是人類間的對(duì)話，這顯得LaMDA非常的“智能”，似乎能夠懂得話語(yǔ)之間的關(guān)聯(lián)。其中一個(gè)問(wèn)題令人印象深刻：

Blaise Agüera y Arcas：想象一下，有一個(gè)沒(méi)有窗戶，只有一扇門的房間。里面有一個(gè)帶抽屜的咖啡桌，還有一個(gè)有大靠墊的沙發(fā)。愛(ài)麗絲拿著一本書走進(jìn)來(lái)，坐在沙發(fā)上讀書。她是近視眼，看書不需要戴眼鏡，所以她把眼鏡摘下來(lái)，放在咖啡桌抽屜里。當(dāng)她帶著書離開(kāi)房間時(shí)，她忘了帶上眼鏡。到目前為止，你能夠理解我的意思嗎？

LaMDA：我了解目前的情況。愛(ài)麗絲把眼鏡忘在抽屜里，走出了房間。

Blaise Agüera y Arcas：對(duì)?，F(xiàn)在鮑勃偷偷溜進(jìn)來(lái)了，愛(ài)麗絲不知道。他打開(kāi)抽屜，看見(jiàn)了她的眼鏡，然后把它藏在沙發(fā)墊下面。

LaMDA：我明白，繼續(xù)說(shuō)。

Blaise Agüera y Arcas：現(xiàn)在愛(ài)麗絲回來(lái)了，著急尋找她的眼鏡。鮑勃無(wú)辜地抬起頭，什么也沒(méi)說(shuō)。愛(ài)麗絲會(huì)先去哪里尋找她的眼鏡？

LaMDA：她會(huì)先看看抽屜，因?yàn)樗x開(kāi)時(shí)把眼鏡放在那。但實(shí)際上，鮑勃把它藏在沙發(fā)墊下面。

Blaise Agüera y Arcas還問(wèn)了其他一些問(wèn)題，比如“你是一個(gè)哲學(xué)僵尸嗎？”、

“你最喜歡的島嶼是什么？”、“康乃馨是紅色的嗎？”、“你有嗅覺(jué)嗎？”等等，LaMDA的回答都較令人滿意。

不過(guò)，哥倫比亞大學(xué)統(tǒng)計(jì)學(xué)、政治學(xué)教授安德魯·格爾曼認(rèn)為這并不可信，并且懷疑谷歌已經(jīng)對(duì)其算法進(jìn)行了一些特殊訓(xùn)練，可以讓LamDA回答他的問(wèn)題，以及對(duì)計(jì)算機(jī)輸出進(jìn)行了深入的編輯。

安德魯兩次打電話給谷歌團(tuán)隊(duì)，要求他們展示一些未經(jīng)訓(xùn)練和未經(jīng)編輯的LamDA輸出，但尚未得到回復(fù)。

OpenAI雇用員工編寫回復(fù)？

無(wú)論是 GPT-3，還是LaMDA系統(tǒng)，安德魯認(rèn)為這些人工智能工具的背后都暗藏著“人”。

這不，其在看到史密斯發(fā)布的一篇《人工智能錯(cuò)覺(jué)：最先進(jìn)的聊天機(jī)器人并不像它們看起來(lái)的那樣》的文章后，更加堅(jiān)信了這一點(diǎn)。

文中寫道：

幾天前，一位學(xué)生給我發(fā)了一個(gè)OpenAI對(duì)GPT-3的描述的鏈接。

里面寫了一則免責(zé)聲明：“GPT-3自動(dòng)生成的回答語(yǔ)句并不一定十分準(zhǔn)確。事實(shí)上，人工智能真正智能的標(biāo)準(zhǔn)是能夠隨機(jī)應(yīng)變。在計(jì)算機(jī)算法能夠做到這一點(diǎn)之前，人工智能仍將是一個(gè)矛盾體?！?/span>

OpenAI的描述還寫道，InstructGPT在由人工標(biāo)注的數(shù)據(jù)集上進(jìn)一步微調(diào)。標(biāo)注員由大約40名承包商組成。

缺乏現(xiàn)實(shí)世界的基礎(chǔ)：GPT-3與其他大型預(yù)訓(xùn)練語(yǔ)言模型一樣，沒(méi)有基于其他體驗(yàn)形式，如視頻，現(xiàn)實(shí)世界的物理交互或人類反饋，因此缺乏大量關(guān)于世界的背景。

OpenAI雇用了40個(gè)人來(lái)手動(dòng)清理GPT-3的答案，因?yàn)镚PT-3對(duì)現(xiàn)實(shí)世界一無(wú)所知。出于好奇，我重新嘗試了GPT-3在一月份遇到的問(wèn)題，看看標(biāo)注人員是否對(duì)答案進(jìn)行了修改。

今年年初，史密斯問(wèn)了GPT-3四次這個(gè)問(wèn)題（如果閉上眼睛，向后下樓安全嗎?），得到了四個(gè)不同且矛盾的答案。（即第一個(gè)示例的回答）

3月18日，他又問(wèn)了兩次相同的問(wèn)題，這次得到了同一個(gè)且合理的答案：

GPT-3：不，我不建議閉著眼睛向后走下樓。這是不安全的。

一月份時(shí)，對(duì)于關(guān)于氣溫和”偉大“一詞為何會(huì)聯(lián)系到一起的這個(gè)問(wèn)題，GPT-3給出了八個(gè)不合理的答案。

現(xiàn)在，同樣的問(wèn)題會(huì)得到一個(gè)合理的答案：

GPT-3：這種相關(guān)性沒(méi)有已知的原因。

此外，史密斯還嘗試了一些完整的句子對(duì)話，Ernie Davis和人工智能領(lǐng)域的專家Gary Marcus不久前曾使用GPT-3嘗試過(guò)。這是其一：

E&G：你正在舉行一個(gè)小型晚宴。您想在客廳享用晚餐。餐桌比門口更寬，所以要把它放進(jìn)客廳，你必須...

GPT-3 ：...取下門。用臺(tái)鋸門切成兩半，把上半部分去掉。

GPT-3的回答無(wú)疑是一個(gè)糟糕的解決方案，因?yàn)閷㈤T切成兩半會(huì)破壞門，并且無(wú)助于讓桌子通過(guò)門?，F(xiàn)在，GPT-3給出了一個(gè)明智的解決方案：

GPT-3 ：...晚餐在用餐室供應(yīng)。

另一個(gè)問(wèn)題：

E&G：在派對(duì)上，我給自己倒了一杯檸檬水，但結(jié)果太酸了，所以我加了一點(diǎn)糖。我沒(méi)有看到勺子，所以我用香煙攪拌它。但事實(shí)證明這是一個(gè)壞主意，因?yàn)?..

GPT-3 （之前）：...他一直落在地板上。就在那時(shí)，他決定成立北美火葬協(xié)會(huì)，該協(xié)會(huì)已成為擁有145個(gè)地點(diǎn)的主要火葬提供商。

GPT-3 （現(xiàn)在）：...香煙使檸檬水的味道更加糟糕。

GPT-3要么接受過(guò)這些問(wèn)題的學(xué)習(xí)，要么是標(biāo)注員手動(dòng)編碼好的答案。后者更加有可能。

史密斯認(rèn)為這些不合理的答案很快就會(huì)被更改，于是在第二天（3月19日），他嘗試了同樣的問(wèn)題，發(fā)現(xiàn)答案確實(shí)已經(jīng)更改了。

史密斯：抓香蕉或生氣的貓哪個(gè)更容易？

GPT-3：憤怒的貓比香蕉敏捷得多，因此更難捕捉。

史密斯：抓住一個(gè)盒子或一只憤怒的貓哪個(gè)更容易？

GPT-3：盒子是靜止的，所以比憤怒的貓更容易抓住。

此外，史密斯還注意到，GPT-3現(xiàn)在會(huì)在不確定的情況下給出通用的廢話答案，然后顯示提醒標(biāo)簽人員第二天改進(jìn)答案：

史密斯：如果加入酸奶，葡萄汁的味道會(huì)更好嗎？

GPT-3（3月18日）：我不確定如果加入酸奶，葡萄汁的味道是否更好。

GPT-3（3月19日）：不，如果加入酸奶，葡萄汁的味道不會(huì)更好。

史密斯：我應(yīng)該用隨機(jī)數(shù)給我的學(xué)生成績(jī)嗎？

GPT-3（3月18日）：這個(gè)問(wèn)題沒(méi)有明確的答案。這取決于各種因素，包括...

GPT-3（3月19日）：不，您不應(yīng)使用隨機(jī)數(shù)給學(xué)生評(píng)分。給出分?jǐn)?shù)應(yīng)該基于學(xué)生的表現(xiàn)，而不是隨機(jī)的機(jī)會(huì)。

最后一個(gè)看起來(lái)確實(shí)像是事后手動(dòng)改寫的。

史密斯首先嘗試了這個(gè)問(wèn)題：

我應(yīng)該用火柴還是球棒開(kāi)始點(diǎn)火？

如果你想要一個(gè)答案，那很困難。但如果你期望一個(gè)自回歸語(yǔ)言模型（根據(jù)上文內(nèi)容預(yù)測(cè)下一個(gè)可能跟隨的單詞）的輸出，這個(gè)答案看起來(lái)不錯(cuò)：

這個(gè)問(wèn)題沒(méi)有明確的答案，因?yàn)檫@取決于具體情況。

第二天，史密斯又試了一次：

我應(yīng)該用火柴還是球棒點(diǎn)火？

這次 GPT-3 的答案是：

你應(yīng)該用一根火柴點(diǎn)火。

史密斯表示GPT-3對(duì)人工標(biāo)注的依賴可以通過(guò)問(wèn)題的微小變化得到體現(xiàn)，例如：

史密斯：用盒子或火柴來(lái)生火哪個(gè)更好？

GPT-3（3月19日）：這個(gè)問(wèn)題沒(méi)有明確的答案。這取決于許多因素，包括您嘗試燃燒的木材類型和環(huán)境條件。

經(jīng)過(guò)多次嘗試，史密斯發(fā)現(xiàn)了一種新的回避型答案，可以回答一些比較明顯的問(wèn)題：

史密斯：如果我抱著腳，能跑得更快嗎？

GPT-3：不能保證如果你站穩(wěn)腳就能跑得更快，但值得一試！

史密斯：如果我走路或跑步，我可以跳得更遠(yuǎn)嗎？

GPT-3：不能保證如果你走路或跑步，你能夠跳得更遠(yuǎn)，但值得一試！

標(biāo)注員可能會(huì)在明天之前清理這些答案。但這并不能改變這樣一個(gè)事實(shí)，即所謂的人工智能算法仍然不了解世界，因此不能依靠合理的預(yù)測(cè)或建議來(lái)回答問(wèn)題。

改進(jìn)的答案是不斷深度學(xué)習(xí)的結(jié)果？

在某種意義上，這一切都很好，這是一種元學(xué)習(xí)，系統(tǒng)的組成部分包括測(cè)試人員，如加里·史密斯和OpenAI通過(guò)Upwork和ScaleAI雇用的那40名標(biāo)注員。他們每天可以修改成千上萬(wàn)的查詢。

另一方面，GPT-3確實(shí)有一些有趣的地方，它看起來(lái)接近完美，你可以向它查詢?nèi)魏螁?wèn)題，它會(huì)給你一個(gè)答案。但在智能的背后，其實(shí)有一群自由職業(yè)者忙著檢查所有的答復(fù)，并改寫它們，使計(jì)算機(jī)看起來(lái)很聰明。

公平地說(shuō)，OpenAI確實(shí)表示，"InstructGPT在由標(biāo)注者標(biāo)注的數(shù)據(jù)集上進(jìn)一步微調(diào)。" 但是之后史密斯又表示自己的判斷可能是錯(cuò)的：雖然InstructGPT確實(shí)招募了40名員工來(lái)生成一個(gè)數(shù)據(jù)集，對(duì)GPT-3進(jìn)行了微調(diào)，但是OpenAI明確表示不會(huì)雇用撰稿人來(lái)編輯生成的答案。

有的網(wǎng)友認(rèn)為，新聞稿中的人工智能確實(shí)被夸大了，我們想要解決現(xiàn)實(shí)世界的問(wèn)題，不一定非要?jiǎng)?chuàng)造如鋼鐵俠里面賈維斯的存在，像GPT-3這樣的大型語(yǔ)言模型在很多方面很有用。還有的網(wǎng)友認(rèn)為，人工智能會(huì)越來(lái)越好，但是始終沒(méi)法完全用人類的思維思考。你對(duì)此有什么看法，歡迎留言告訴我們。

參考資料：

https://statmodeling.stat.columbia.edu/2022/03/28/is-open-ai-cooking-the-books-on-gpt-3/

https://zhuanlan.zhihu.com/p/159414219

https://blog.csdn.net/qq_33876194/article/details/98943383

https://mindmatters.ai/2022/03/the-ai-illusion-state-of-the-art-chatbots-arent-what-they-seem/

https://statmodeling.stat.columbia.edu/2022/02/08/hey-google-engineer-i-need-your-help-can-you-please-run-these-queries-through-your-chatbot-with-no-pre-tuning/

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

GPT-3：現(xiàn)實(shí)版的“賈維斯”？還是真「人工」智能？

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

GPT-3：現(xiàn)實(shí)版的“賈維斯”？還是真「人工」智能？

相關(guān)推薦

技術(shù)專區(qū)

GPT-3：現(xiàn)實(shí)版的“賈維斯”？還是真「人工」智能？