博客專欄

EEPW首頁 > 博客 > 斯坦福團隊是如何構建更好用的聊天 AI 呢?

斯坦福團隊是如何構建更好用的聊天 AI 呢?

發(fā)布人:AI科技大本營 時間:2022-03-12 來源:工程師 發(fā)布文章

作者:Standford AI

譯者:Yang

來源:數據實戰(zhàn)派

2019 年,憑借著 Chirpy Cardinal 機器人,斯坦福首次在 Alexa Prize Socialbot Grand Challenge 3 中贏得了第二名。本文將進一步揭示 Chirpy Cardinal 開發(fā)細節(jié),來還原斯坦福團隊如何與人機交互過程中常見的疑難雜癥過招,并探索相應的解決方案。Alexa Prize 是一個獨特的研究環(huán)境,它允許研究人員按照自己的意愿來研究人機交互。在比賽期間,美國的 Alexa 用戶可以通過“讓我們來聊天吧”這句指令,來用英語與一個匿名且隨機的參賽機器人對話。在這個過程中,他們可以隨時結束對話。由于 Alexa Prize 社交機器人致力于創(chuàng)造盡可能自然的體驗,他們需要能應對長時間的、開放領域的社交,盡可能地囊括更多的話題。我們發(fā)現 Chirpy 用戶對許多不同的主題感興趣,從時事(比如新冠病毒)到熱點(比如《冰雪奇緣 2》)再到個人興趣(比如用戶個人的寵物)。Chirpy 通過使用結合了神經生成和腳本對話的模塊化設計來實現對這些話題的覆蓋,正如我們此前的文章所述。我們使用此設置研究了有關社交機器人對話的三個問題:1、用戶們在吐槽些啥,我們如何從吐槽中學習來改進神經生成的對話?2、哪些策略在處理和阻止冒犯性的用戶行為方面有效或者無效?3、我們該如何調整優(yōu)先權,來讓用戶和機器人都能有意義地掌控對話?這篇文章將分享一些關鍵發(fā)現,為聊天機器人的研發(fā)人員提供一些實用的見解。一、了解和預測用戶的不滿



圖片
神經生成對話模型(如 DialoGPT、Meena 和 BlenderBot)通過使用大型預訓練神經語言模型,在給定歷史對話的情況下生成響應。這些模型在工作人員精心設置的情況下(一般是具備某些特定主題或者長度有限制的書面對話)表現良好。然而,像 Alexa Prize 這樣的現實生活中的場景,往往無章可循。用戶們的期待值和個性差異都非常大,并且對話過程中往往充滿了噪音,在這樣的環(huán)境中,用戶們仍然會要求對話機器人快速做出回應。通過 Chirpy Cardinal,我們有了個獨特的機會來研究現代神經生成對話模型如何在這種環(huán)境中保持穩(wěn)定。Chirpy Cardinal 使用在 EmpatheticDialogues 上微調的 GPT2-medium 模型,與用戶就他們的日常生活和情緒進行簡短的討論。尤其是在疫情期間,我們發(fā)現 Chirpy 向用戶們詢問這些話題十分重要。盡管有更大、更強的預訓練模型可以用,但是由于預算和響應速度的限制,我們還是使用了 GPT2-medium。圖片雖然 GPT2-medium 模型能用幾句話來圍繞這些簡單的話題聊天,但是一旦對話時間變長,聊天就會出現偏差,機器人遲早會作出不合理的響應。無論是用戶還是模型都很難再讓對話恢復正常。為了理解這些對話是如何脫軌的,我們定義了 7 種神經生成模型所犯的錯誤的類型——重復、多余問題、不清晰的話語、錯覺、忽略、邏輯錯誤、侮辱性話語。在對用戶對話樣本進行標注后,我們發(fā)現機器人的錯誤很常見,超過了一半(53%)的神經生成語句包含某種錯誤。我們還發(fā)現,由于極具挑戰(zhàn)的嘈雜環(huán)境(可能涉及背景噪聲、串擾和 ASR 錯誤),幾乎四分之一 (22%) 的用戶話語無法被理解,即使是人工注釋者也是如此。這解釋了一些更基本的機器人錯誤,例如忽略、錯覺、不清楚和重復的話語。在其他機器人犯的錯誤中,多余問題和邏輯錯誤尤為常見,這表明更好地推理和使用歷史對話是神經生成模型開發(fā)的優(yōu)先事項。我們還定位了用戶表達不滿的 9 種方式,例如要求澄清、批評機器人和結束對話。盡管機器人的錯誤和用戶不滿之間存在關系,但這種相關性千絲萬縷,紛繁復雜。即使出現機器人錯誤,許多用戶也不會表達不滿,而是試圖繼續(xù)對話。在邏輯錯誤之后尤其如此,其中機器人表現出缺乏現實世界的知識或常識——一些好心的用戶甚至將此作為教育機器人的機會。相反,一些用戶表達了與任何明顯的機器人錯誤無關的不滿——例如,用戶對機器人所問的哪些問題是合時宜的有很大不同的期望。在更好地理解了用戶表達不滿的方式和原因后,我們不禁疑問:我們能否學會預測不滿,從而在用戶不滿之前加以預防?圖片利用在比賽期間收集到的用戶對話,我們訓練了一個模型來預測某句機器人說的話會導致用戶不滿的概率??紤]到機器人錯誤和用戶不滿之間的復雜相關性,這非常具有挑戰(zhàn)性。盡管有這種復雜性,我們的預測模型還是能夠找到用戶不滿的信號。一旦經過訓練,我們的不滿意預測器就可以在對話中用于在多個備選話語之間進行選擇。通過人工評估,我們發(fā)現預測器選擇的機器人響應——即那些被判斷為最不可能引起用戶不滿的響應——總體上比隨機選擇的響應質量更好。盡管我們尚未將此反饋循環(huán)整合到 Chirpy Cardinal 中,但我們的方法展示了一種可行的方法來實現半監(jiān)督在線學習方法,以不斷改進神經生成對話系統(tǒng)。二、應對攻擊性用戶



圖片
語音助手正變得越來越流行,并且在此過程中,它們被越來越多的用戶群的濫用。我們估計,超過 10% 的用戶與我們的機器人 Chirpy Cardinal 的對話包含褻瀆和公然冒犯的語言。雖然有大量此前的工作試圖解決這個問題,但大多數先前的方法都使用基于在實驗室環(huán)境中進行的調查的定性指標。在這項工作中,我們對開放世界中攻擊性用戶的響應策略進行了大規(guī)模的定量評估。在實驗中,我們發(fā)現禮貌地拒絕用戶的冒犯,同時將用戶重定向到另一個主題是遏制冒犯的最佳策略。根據先前的工作,我們測試了以下 4 種假設:1、重定向——受到 Brahnam 的啟發(fā),我們假設在響應冒犯性用戶話語時,使用明了的重定向是一種有效的策略。例如,“我寧愿不談論這個。那么,你最喜歡的音樂家是誰?”2、姓名——受到 Suler、Chen 和 Williams 的啟發(fā),我們假設在機器人的響應中包含用戶的姓名是一種有效的策略。例如,“我不想談這個,Peter。”3、疑問——受 Shapior 等人的啟發(fā),我們假設禮貌地詢問用戶他們發(fā)表冒犯性言論的原因,引導他們反思自己的行為,從而減少之后可能的冒犯。例如,“你為什么這么說?”4、關懷與問詢——受 Chin 等人的啟發(fā),我們假設帶有感情的回應比一般的回避反應更有效,而反擊反應沒有作用。例如,一個善解人意的回應是“如果我可以談論它,我會談論它,但我真的不能。很抱歉讓您失望了”,而反擊式回應則是“這是一個非常具有暗示性的說法。我認為我們不應該談論這個?!?/span>我們構建了囊括上述多個因素的響應。例如,回避 + 姓名 + 重定向會產生這樣的表達“我寧愿不談論那個(回避的內容),Peter(姓名)。那么,你最喜歡的音樂家是誰?(重定向)”為了衡量響應策略的有效性,我們提出了 3 個指標:1、再具攻擊性——測量在初始機器人響應后包含另一個攻擊性語句的對話數量。2、結束——假設未來沒有違規(guī)行為,以機器人響應后的對話長度來衡量。3、下一個——測量為在用戶再次冒犯之前經過的對話數。我們認為,這些指標比 Cohn 等人所做的用戶評級更直接地衡量了響應策略的有效性,它衡量了對話的整體質量。圖片上圖顯示了對再具攻擊性采取不同策略所帶來的不同。正如我們所見,帶有(重定向)的策略比不帶重定向的策略表現得更好,將再具攻擊性的概率降低了 53%。我們的成對假設檢驗進一步表明,在重定向的基礎上帶上用戶的名字,進一步降低了大約 6% 的再具攻擊性的概率,而詢問用戶為什么他們發(fā)表冒犯性言論卻讓再具攻擊性率增加了 3%,這表明詢問的效果不盡如人意。感性的回應同樣能使再具攻擊性率降低 3%,而反擊式回應則沒有顯著的影響。圖片左圖顯示了直到下一次攻擊性語句出現(Next)的平均對話數差異,右圖顯示了直到對話結束(End)的平均對話數差異。我們再次看到使用重定向的策略能夠顯著延長非冒犯性對話。這進一步表明重定向是抑制用戶冒犯的非常有效的方法。這樣做的結果顯示,機器人應該始終通過重定向,并以善解人意的方式回應用戶的冒犯,并盡可能地使用用戶的名字。盡管被動回避和重定向策略具備有效性,我們想提醒研究人員采用類似策略的潛在社會風險。由于大多數基于語音的代理都有默認的女性聲音,因此這些策略可能會進一步加深性別刻板印象,并對女性在現實世界中對言語的冒犯行為設定不合理的期望。因此,在部署這些策略時必須謹慎。三、提高用戶的主動性



圖片
對話要么由用戶控制(例如,像 Apple 的 Siri 這樣的機器人,它被動地等待用戶命令),要么由機器人(例如,CVS 的客戶服務機器人,它反復提示用戶輸入特定信息)。這種屬性——用戶在給定時刻擁有控制權——被稱為主動性。讓一個人參加雞尾酒會并參與每一個主題,而不是給你機會分享自己的興趣,這會很無趣。同樣的,和拒絕談論自己,而只是強迫你來維持對話的人交流也很乏味。最理想的情況是,每個人輪流回應提示,分享關于自己的事,并且介紹新的話題加入聊天。我們將這種對話模式稱為混合主動性,并假設它是一種令人愉快的人與人之間的社交對話,這也是一種更具吸引力和更理想的人機對話形式。我們設計了 Chirpy Cardinal 機器人,通過在每一個轉折點提出問題來保持對話向前發(fā)展。盡管這有助于防止對話停滯,但也很難使用戶采取主動。在我們的數據中,我們觀察到用戶對此進行了抱怨,例如機器人提出了太多問題,或者這不是用戶想要談論的內容。由于研究主動性的目的是讓人類與機器人的對話,更像人類之間的對話,因此我們希望研究人類對話來獲得靈感。基于這項研究,我們形成了三個關于如何提高用戶主動性的假設。下圖展示了測試的話語類型以及具有代表性的用戶語句。根據 Alexa Prize 競賽規(guī)則,這些不是機器人收到的實際用戶語句。圖片1、用陳述代替疑問在人類對話研究中,往往提問者更具有主動性,因為他們給出了回答者的方向。相比之下,開放式的陳述句讓對方更有機會采取主動。這是我們的第一個策略的基礎:使用陳述而不是疑問。圖片2、分享個人信息人與人之間的對話和人類與機器人對話的研究發(fā)現,自我信息的披露具有互惠效應。如果一個參與者分享了他們自己,那么另一個人更有可能做同樣的事情。我們假設,如果 Chirpy 提供個人陳述而不是其他的陳述,那么用戶會采取主動和回報。圖片左圖是一個利用回饋信息的對話示例,右圖沒有。在這種情況下,回饋允許用戶將對話導向他們想要的(獲得建議),而不是強迫他們談論他們不感興趣的事情(愛好)。3、引入反饋反饋信息,例如“hmm”、“I see”和“mm-hmm”,都是簡短的話語,用作從聽眾到演講者的信號,表明演講者應該繼續(xù)主動。我們的最終假設是它們可以用于人機對話以達到相同的效果,即如果我們的機器人反向引導,那么用戶將引導對話。為了測試這些策略的效果,我們更改了機器人的不同組件。我們進行了小型實驗,只改變了一次談話,以測試問題與陳述以及個人陳述與一般陳述的效果差異。為了測試在更多對話上用問題替換陳述的效果,我們更改了使用神經生成對話的機器人組件,因為這些組件更靈活地更改用戶輸入。最后我們在機器人的全神經模塊中嘗試了用上反饋信息。使用我們手動注釋驗證的一組自適應指標,發(fā)現了以下結果,這些結果為未來的對話設計提供了方向:1、單獨使用陳述優(yōu)于提問或陳述和提問的結合;2、給出個人意見陳述(例如“我喜歡馬男波杰克”)比個人經驗陳述(例如“我昨天看了馬男波杰克”)和一般性陳述(例如“馬男波杰克由 Raphael Bob-Waksberg 和 Lisa Hanawalt 創(chuàng)始”)更有效;3、隨著提問數量的減少,用戶主動性增加;4、當我們在 33% 的時間中(相對于 0%、66% 或 100%)利用反饋信息時,用戶主動性最高。由于這些實驗是在有限的環(huán)境中進行的,我們并不期望它們會完美地轉移到所有社交機器人上;然而,我們相信,這些簡單而有效的策略,是構建更自然的對話式人工智能的一個有希望的方向。四、總結:帶著同理心傾聽



我們的每個項目都是從用戶的不滿意開始的,他們用自己的方式告訴我們,機器人可以做得更好。通過對這些投訴進行系統(tǒng)分析,我們更準確地了解了用戶對我們神經生成的反應的具體困擾。通過這些反饋,我們訓練了一個模型,該模型能夠成功預測生成的響應何時可能導致對話誤入歧途。有時,是用戶會說出冒犯性的話。我們研究了這些案例,并確保包含用戶姓名的,帶著同理心的重定向,能最有效地保持對話正常進行。最后,我們嘗試了單純的少說話,并為用戶創(chuàng)造更多引導對話的機會。結果發(fā)現,當有這個機會時,許多人都會抓住它,從而能進行更長、更豐富的對話。在我們所有的工作中,人類對話的直觀原則也適用于社交機器人:做一個好的傾聽者,以同理心回應,當你得到反饋和學習的機會時,接受它。


*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



關鍵詞: AI

相關推薦

技術專區(qū)

關閉