Nature封面:AI與人類斗嘴誰更強(qiáng)?IBM團(tuán)隊發(fā)布“AI辯論家”最新研究進(jìn)展
以下文章來源于學(xué)術(shù)頭條 ,作者庫珀
在很多游戲和圍棋比賽中,人工智能(AI)都展現(xiàn)出了 “超人” 能力,現(xiàn)在,它又開始沖擊辯論賽了。
自 AI 概念誕生以來,如何讓計算機(jī)對自然語言的理解和處理能力接近人類,一直是科學(xué)家們的終極愿景。
經(jīng)過數(shù)十年的發(fā)展,目前業(yè)界已經(jīng)開發(fā)出能夠執(zhí)行語言理解任務(wù)的 AI 模型,對于常規(guī)任務(wù)和特定語言現(xiàn)象,例如預(yù)測某個句子的情感,當(dāng)前最先進(jìn)的 AI 系統(tǒng)通常能給出一個不錯的結(jié)果,再搭配上語音相關(guān)技術(shù),進(jìn)行簡單的人機(jī)對話交互也不再稀奇。
然而,在更復(fù)雜的任務(wù)中,例如自動翻譯、自動摘要和多輪隨機(jī)對話考驗下,AI 系統(tǒng)仍然不能很好地滿足人類需要,而比這些單一任務(wù)更具綜合性的考驗是:辯論。
那么,AI 有能力和人進(jìn)行主題辯論嗎?
辯論代表了人類大腦的一種主要認(rèn)知活動,需要同時應(yīng)用廣泛的語言理解和語言生成能力,一個自主的辯論系統(tǒng)超出了以往語言研究的范圍。
不過,來自 IBM 的 AI 研究團(tuán)隊報告了一項最新的研究進(jìn)展:Project Debater(意為 “辯手項目”),經(jīng)評估,該系統(tǒng)已可以與人類專家選手進(jìn)行體面且有意義的現(xiàn)場辯論,它能通過儲存了 4 億篇新聞報道和維基百科頁面的知識庫,自行組織開場白和反駁論點。
圖|Project Debater 與人類選手辯論(來源:IBM)
相關(guān)論文以 “An autonomous debating system”(一個自主辯論系統(tǒng))為題,于 3 月 18 日以封面文章的形式發(fā)表在頂級科學(xué)期刊《自然》(Nature)上。
據(jù)了解,Project Debater 最早于 2011 年被提出,堪稱 “十年磨一劍”,研究人員的目標(biāo)是讓 AI 與人類進(jìn)行現(xiàn)場辯論時應(yīng)對自如。另外,他們還強(qiáng)調(diào)了 AI 與人類進(jìn)行辯論和在游戲競賽中挑戰(zhàn)人類之間有著根本區(qū)別,這有助于讓 AI 走出 “舒適區(qū)”,因為在辯論領(lǐng)域,人類仍然占優(yōu)勢,AI 需要新的范式才能取得實質(zhì)性進(jìn)展。
初次亮相就對陣冠軍選手
研究人員定義了一種辯論形式,它是學(xué)術(shù)競爭性辯論中常用的辯論風(fēng)格簡化版,即一旦被稱為 “辯論動議” 的主題宣布,Project Debater 和人類選手都各有 15 分鐘的準(zhǔn)備時間。
準(zhǔn)備就緒后,雙方就開始輪流發(fā)言,開場發(fā)言和第二次發(fā)言各為 4 分鐘,閉幕發(fā)言各有 2 分鐘,演講通常由支持動議立場的論據(jù)和反駁該立場的觀點論據(jù)組成,辯論前后觀眾們會對辯論動議進(jìn)行投****,能爭取更多選****的選手被宣布為勝利者。
圖|辯論流程與格式的詳細(xì)情況(來源:Nature)
Project Debater 的一次正式亮相是在 2019 年 2 月 11 日,它與一位廣受認(rèn)可的辯論冠軍 Harish Natarajan 進(jìn)行了一次現(xiàn)場辯論較量,Harish Natarajan 是 2016 年世界大學(xué)辯論錦標(biāo)賽的總決賽選手,也是 2012 年歐洲大學(xué)辯論錦標(biāo)賽的冠軍,此次辯論也是 AI 在公眾面前的首次現(xiàn)場辯論。
雖然最終觀眾的投****結(jié)果仍是人類勝利,但 Project Debater 的表現(xiàn)給觀眾留下了深刻的印象,盡管它的修辭技巧仍未達(dá)到專業(yè)選手的水平,但它已能夠指出辯論中的相關(guān)要點。
而這次研究論文的重點,則是描述 Project Debater 系統(tǒng)及其在廣泛辯題中的結(jié)果,而不是這個特定的事件。
考慮到參與辯論所需的任務(wù)的多樣性,以端到端系統(tǒng)的形式設(shè)想一個整體解決方案,例如一個單一的神經(jīng)模型,幾乎是不可行的。相反,IBM 研究團(tuán)隊的做法是將問題分解為并行執(zhí)行的模塊化具體任務(wù)。
有趣的是,其中一些相關(guān)研究受到了科學(xué)界的高度關(guān)注。例如,上下文相關(guān)的語境檢測和上下文相關(guān)的證據(jù)檢測任務(wù)是在該項目背景下提出和制定的,現(xiàn)已成為計算論證界的一個活躍研究領(lǐng)域。
AI 辯手是怎樣練成的?
整體來說,Project Debater 由四個主要模塊組成:論點挖掘、論據(jù)知識庫(AKB)、論點反駁和論證構(gòu)建。
其中,論點挖掘主要分兩個階段進(jìn)行。在離線階段,基于約有 4 億篇報道文章的大型語料庫(來自 LexisNexis2011-2018 語料庫),把文章分成句子,并用其中的單詞、維基百科的概念、它們提到的實體以及預(yù)定義的詞匯來索引這些句子。到了在線階段,一旦辯論動議被提出,系統(tǒng)就依賴此索引進(jìn)行全語料庫的句子級參數(shù)挖掘、檢索與動議相關(guān)的立場聲明和證據(jù)。
具體而言,首先,使用定制查詢檢索包含此類論據(jù)的高傾向性句子;接下來,使用神經(jīng)模型根據(jù)這些句子代表相關(guān)論據(jù)的概率對它們進(jìn)行排序;最后,結(jié)合神經(jīng)網(wǎng)絡(luò)和基于知識的方法對每個接近動議的論點立場進(jìn)行分類。
圖|Project Debater 辯論系統(tǒng)架構(gòu)(來源:Nature)
在此過程中,系統(tǒng)還使用主題擴(kuò)展組件來更好地包含相關(guān)參數(shù)的范圍。也就是說,如果主題擴(kuò)展組件成功識別出與辯論相關(guān)的其他概念,它會請求參數(shù)挖掘模塊也搜索描述這些概念的參數(shù)。此外,論點挖掘模塊還搜索支持另一方的論據(jù),目的是準(zhǔn)備一組對手可能使用的論據(jù)和可能作為回應(yīng)的證據(jù),這一套操作稍后由反駁模塊使用。
AKB 旨在捕捉不同辯論之間的共性。AKB 中的文本包含原則性的論點、反證論點和可能與廣泛主題相關(guān)的常見例子,這些文本是手動編寫或自動提取然后手動編輯,并分組成專題類。
給定一個新的辯題,系統(tǒng)能使用基于特征的分類器來確定哪些類與該辯題相關(guān)。然后,所有與匹配類相關(guān)聯(lián)的文本都可以潛在地用于語音中,系統(tǒng)根據(jù)它們與辯題的語義關(guān)聯(lián)性來選擇那些它預(yù)測最相關(guān)的文本,這些文本不僅包括論點,還包括鼓舞人心的引語、豐富多彩的類比、辯論的適當(dāng)框架等等。
在論點反駁階段,IBM 的 Watson(沃森)將使用其針對定制語言和定制聲學(xué)模型的自動語音到文本服務(wù),將人類對手的語音轉(zhuǎn)換為文本,神經(jīng)模型會將獲得的文本分割成句子,并添加雙關(guān)語。
下一步,專用組件會確定哪些提前預(yù)測的論據(jù)確實由對方陳述,并針對性提出反駁。除了基于主張的反駁論據(jù)之外,AKB 的關(guān)鍵情感術(shù)語也被識別出來,并作為簡單反駁形式的索引。
最后的論證構(gòu)建模塊,則是一個集成聚類分析的基于規(guī)則的系統(tǒng)。在刪除了預(yù)先指定為冗余的參數(shù)之后,剩余的參數(shù)將根據(jù)語義相似性進(jìn)行聚類,對于每個集群,都會確定一個主題,類似于一個維基百科的概念。
系統(tǒng)會選擇一組高質(zhì)量的論點集群。接下來,使用各種文本規(guī)范化和重新措辭技術(shù)來提高流利性,最后使用預(yù)定義的模板逐段生成每個語音,完成與對手的辯論交流。
AI 的辯論能力如何?
與玩游戲、下圍棋等競賽不同,辯論往往摻雜著更多主觀因素,因此客觀評估一個 AI 辯論系統(tǒng)的性能是項挑戰(zhàn),因為沒有一個統(tǒng)一標(biāo)準(zhǔn)來決定辯論勝利者。
在公開辯論中,辯論前后觀眾的投****可以決定 “獲勝” 的一方,但這種方法存在固有的局限性。
首先,如果辯論前的觀眾投****高度不平衡,那其中一方的勝辯壓力必定就很高;其次,投****涉及個人意見,并可能受到各種難以量化和控制的因素影響;另外,創(chuàng)造一個有大量公正觀眾的現(xiàn)場辯論是復(fù)雜的,而制作多場這樣的辯論更是如此。
盡管如此,研究人員為了評估 Project Debater 系統(tǒng)的總體性能,將其與各種基線進(jìn)行比較,并跟蹤其隨時間的進(jìn)展情況,由于 Project Debater 之外,研究人員并沒有發(fā)現(xiàn)其他自動方法可以參加一個完整的辯論活動,因此,對比的范圍也是在有限任務(wù)下進(jìn)行,比如生成一個辯論開場白,這顯然是任何辯論系統(tǒng)應(yīng)該具備的第一步。
圖|Project Debater 系統(tǒng)對比評估(來源:Nature)
研究人員選擇了 78 個動議來評估當(dāng)一個新的辯題出現(xiàn)時,各種 AI 系統(tǒng)以及人類專家的表現(xiàn),每一次演講都由 15 位評審員進(jìn)行了回顧評分,以判斷此演講是否能作為支持辯題立場的良好開場白,其中 5 分表示高度一致。Project Debate 的評估結(jié)果明顯優(yōu)于其他系統(tǒng),并且非常接近人類專家的得分。
在開場白之后的評估中,研究人員使用了相同的 78 個動議,再次要求被選中的一組人群想象自己是辯論聽眾,在這種情況下,讓他們閱讀三篇辯論演講,但不告知演講的來歷。結(jié)果顯示,所有辯題 Project Debater 的平均得分均高于中立 3 分,78 個動議中有 50 次表現(xiàn)的平均得分≥4 分,這表明在至少 64% 的動議中,群眾評論員認(rèn)為 Project Debater 在辯論中表現(xiàn) “良好”。
不過,雖然 Project Debater 得分顯著高于所有對比基線和對照組的得分,但距離人類專家的得分還有明顯差距。
圖|Project Debater 輸出的辯論內(nèi)容類型分析(來源:Nature)
值得注意的是,研究人員還將 Project Debater 系統(tǒng)的內(nèi)容組成與人類預(yù)先準(zhǔn)備的信息相結(jié)合,圍繞關(guān)鍵主題進(jìn)行分組,以提供關(guān)于廣泛主題的知識、論據(jù)和反駁。所以,知識庫中還補(bǔ)充了所謂的 “罐裝” 文本 —— 由人類預(yù)先編寫的句子片段 —— 可用于在辯論中介紹和組織文稿。
在進(jìn)一步評估中,研究人員檢查了所有 78 個動議辯論演講中的內(nèi)容類型相對分布。結(jié)果是,Project Debater 只有不到 18% 的內(nèi)容是來自傳統(tǒng)的 “罐裝” 文本,而剩下的內(nèi)容是由更高級的 AI 底層系統(tǒng)組件提供的。
在 Nature 評論文章中,來自英國鄧迪大學(xué)(University of Dundee)辯論技術(shù)中心的 Chris Reed 撰文表示,這一發(fā)現(xiàn)暗示了一個未來,即 AI 可以幫助人類制定和理解復(fù)雜的論點。
在 AI 領(lǐng)域,開發(fā)能夠識別人類自然語言中的論點的 AI 系統(tǒng)是一項最嚴(yán)峻的挑戰(zhàn)。Project Debater 展示了該領(lǐng)域的研究已經(jīng)取得了很大的進(jìn)步,并強(qiáng)調(diào)了在開發(fā)能夠識別、生成和辯論觀點的技術(shù)時,將不同 AI 組件(每個組件處理特定任務(wù))集成在一起工作的重要性,無疑這是一項巨大的工程壯舉。
同時,他也指出了一些問題,Project Debater 系統(tǒng)最薄弱的方面或許就是,它努力在模仿人類辯手在思維和表達(dá)方面的連貫性和流暢性 —— 這個問題與論據(jù)選擇、抽象表達(dá)和編排論點的最高層次有關(guān),且這種局限性并不是 AI 系統(tǒng)所獨有的,人類初級選手同樣存在。
舌戰(zhàn)群儒般的高超辯論技巧是門藝術(shù),而構(gòu)成好的論據(jù)組合的模式也是極盡不同的,因此,僅僅通過詢問人類觀眾是否認(rèn)為這是 “一場體面的辯論表演” 來評價 Project Debater 的性能也是另一種局限。在現(xiàn)實世界中,沒有明確的界限來界定論點,發(fā)生在辯論之外的討論也不是離散的,而是與交叉引用、類比、例證和概括的網(wǎng)絡(luò)互連。
圖|Project Debater 工作流程示意圖
探索舒適區(qū)之外的能力
在論文討論部分,研究人員表示,AI 和自然語言處理(NLP)的研究通常集中在所謂的 “狹義 AI” 上,由狹義定義的任務(wù),通常具有明確的評估指標(biāo),并適合于端到端的解決方案,例如那些源于深度學(xué)習(xí)技術(shù)研究的快速落地的解決方案。
相反,“復(fù)合 AI” 任務(wù),即與更廣泛的人類認(rèn)知活動相關(guān)的任務(wù),需要同時應(yīng)用多種技能,AI 系統(tǒng)處理的效率較低。
自 20 世紀(jì) 50 年代以來,AI 技術(shù)突飛猛進(jìn),能執(zhí)行日益復(fù)雜的任務(wù),在游戲或棋盤競賽中的明確規(guī)則下,是 AI 發(fā)揮能力的 “舒適區(qū)”。
首先,游戲中有一個明確的贏家定義,便于使用強(qiáng)化學(xué)習(xí)技術(shù);其次,游戲中的每個動作都有明確的定義,可以被客觀地量化,從而訓(xùn)練競賽技巧;另外,在玩游戲時,AI 系統(tǒng)會想出任何策略來確保獲勝,即使相關(guān)的動作不容易被人類理解;最后,對于許多 AI 任務(wù)挑戰(zhàn),大量相關(guān)的結(jié)構(gòu)化數(shù)據(jù)是可用的,這對于系統(tǒng)的開發(fā)必不可少。
這四個特點在競爭性辯論中卻并不適用,競爭性辯論需要一種高級的使用人類語言的形式,一種有很大的主觀性和解釋空間的形式,相應(yīng)地,往往沒有明確的贏家。而許多現(xiàn)實世界的問題本質(zhì)上也是模糊的,站在不同角度的立場也根本不同。
對于 AI 系統(tǒng)來講,使用人類可能無法捉摸的策略贏得辯論似乎不太可能,特別是在需要人類觀眾評判勝利者的情況下。因此,在人類所擅長的辯論比賽中,走出舒適區(qū)的 Project Debater,還有許多問題有待解答。
參考資料:
https://www.nature.com/articles/s41586-021-03215-w
https://www.nature.com/articles/d41586-021-00539-5https://www.research.ibm.com/artificial-intelligence/project-debater/https://www.mercurynews.com/2019/02/11/ibms-ai-loses-debate-to-human-but-has-strong-showing/
https://www.mercurynews.com/2019/02/11/ibms-ai-loses-debate-to-human-but-has-strong-showing/
編輯:于騰凱
校對:林亦霖
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。