對話式AI落地最難的一道題，在京東云被這些科學(xué)家搞定了

發(fā)布人：機(jī)器之心時(shí)間：2022-07-21 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

與你對話的智能客服，可能比想象中更懂你。

2012 年 10 月的一天，Geoffrey Hinton 發(fā)送給鄧力一封郵件，提到了自己最近在做的一項(xiàng)工作。與往常不同的是，Hinton 在郵件正文中使用了「look at this huge margin!!!」這樣的描述。
這項(xiàng)研究成果就是大名鼎鼎的 AlexNet。在當(dāng)年的 ImageNet 挑戰(zhàn)賽上，AlexNet 將圖像識別的錯誤率從 26% 直接降低到 16%，一戰(zhàn)成名。
現(xiàn)在看來，這個(gè)成果就像是破曉時(shí)分的第一縷陽光。人們對深度學(xué)習(xí)的質(zhì)疑自此打消，AI 的第三次發(fā)展浪潮終于到來。
Hinton 和鄧力在深度學(xué)習(xí)方面的交流其實(shí)始于很久之前。2008 年的 NIPS 大會，時(shí)任微軟研究院語音研究首席研究員的鄧力和同事何曉冬在溫哥華舉辦了一場語音語言研討會，邀請過 Hinton 來做報(bào)告。但當(dāng)時(shí)的深度學(xué)習(xí)始終缺少具備說服力的成果，尚不被看好。
之后，鄧力多次邀請 Hinton 到訪微軟交流。同時(shí)，鄧力和微軟的同事開始嘗試將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于語音識別領(lǐng)域，在 2012 年于天津舉辦的「二十一世紀(jì)的計(jì)算」論壇上，微軟全球技術(shù)副總裁 Richard Rashid 演示了用深度學(xué)習(xí)進(jìn)行語音識別，相比之前的語音識別系統(tǒng)錯誤率降低 30% 以上，引發(fā)業(yè)界轟動。
語音、語義、視覺等領(lǐng)域的突飛猛進(jìn)，展示出一種希望：以往那些尚不可用的人工智能技術(shù)，在不久的未來就能真正為人類服務(wù)。
Hinton 最終選擇了谷歌，但微軟研究院陸續(xù)誕生了一系列最具影響力的早期成果，也造就了一批知名 AI 學(xué)者。
提到深度學(xué)習(xí)領(lǐng)域，微軟的鄧力、俞棟、何曉冬都是最早一批入場的人。在密蘇里大學(xué)哥倫比亞分校取得博士學(xué)位之后，何曉冬就加入了微軟。

鄧力與何曉冬。
2013 年，何曉冬、鄧力等人提出了深度結(jié)構(gòu)化語義模型 DSSM （Deep Structured Semantic Models）。這一模型在工業(yè)界的適應(yīng)性是前所未有的，至今幾乎所有做搜索推薦場景的大廠仍在使用 DSSM 及其衍生模型。
大洋這一邊的中國，也正在經(jīng)歷一場巨變。移動互聯(lián)網(wǎng)的高速發(fā)展，衍生出大量的數(shù)據(jù)以及豐富的應(yīng)用場景。京東就是極具代表性的企業(yè)之一。
2018 年，何曉冬選擇回國，加入京東。從全球范圍內(nèi)來看，京東在人工智能技術(shù)上不是起步最早的企業(yè)。但和其他公司不同，京東的 AI 技術(shù)從一開始就脫胎于大規(guī)模的產(chǎn)業(yè)實(shí)踐，帶著明顯的「產(chǎn)業(yè)烙印」。
這正是推動何曉冬選擇京東的關(guān)鍵因素。
走到產(chǎn)業(yè)的「最深處」
何曉冬一直認(rèn)為，「AI 本身是個(gè)科學(xué)問題，其實(shí)也是個(gè)應(yīng)用問題。」
微軟在 2014 年專門成立了深度學(xué)習(xí)技術(shù)中心（DLTC），展開了一系列探索性研究。如今的熱門方向「多模態(tài)深度學(xué)習(xí)」，就是在那個(gè)時(shí)候啟動的。圍繞微軟的 MSCOCO 數(shù)據(jù)集，一眾大學(xué)和研究機(jī)構(gòu)嘗試教會模型用一句話來描述一張圖片。
2015 年，何曉冬在 CVPR 大會上介紹了 DSSM 升級版本——DMSM，為模型添加了「看圖說話」的多模態(tài)能力，這在當(dāng)時(shí)是一項(xiàng)很前沿的研究，立即引起了大量關(guān)注。
在波士頓的會場，當(dāng)時(shí)的微軟全球執(zhí)行副總裁沈向洋穿過人群找到他，表示「就想來看看這個(gè)論文的海報(bào)」，并希望這項(xiàng)研究不只停留在實(shí)驗(yàn)室，而是真正成為一個(gè)產(chǎn)品。后來，DLTC 成立了一個(gè)產(chǎn)品團(tuán)隊(duì)，并將其視覺模塊替換為孫劍、何愷明等人最新提出的 ResNet。

DMSM 的「看圖說話」能力：「Jen-Hsun Huang, Xiaodong He, Jian Sun et al. that are posing for a picture.」（黃仁勛、何曉冬、孫劍等合影留念）
在 2016 年初微軟研究院舉辦的技術(shù)節(jié)（TechFest）上，何曉冬也在自己的「攤位」向微軟 CEO Satya Nadella 展示了這項(xiàng)工作。

同年 3 月，這項(xiàng)技術(shù)被 Satya Nadella 拿到了微軟 Build 大會上介紹，在場的記者們掏出手機(jī)拍照，發(fā)現(xiàn)生成的描述意外地精確，全球轟動。

「在微軟研究院，你可以做任何研究；但是如果想放大，就要選擇場景，選擇合適的產(chǎn)業(yè)和行業(yè)。中國互聯(lián)網(wǎng)服務(wù)的天花板更高，服務(wù)量更大，應(yīng)用場景更廣，后來我們想到，比如京東的人工智能技術(shù)很多就是在實(shí)踐中打磨的，某種意義上說，京東的智能客戶服務(wù)場景，可能是國內(nèi)在客服領(lǐng)域最佳的 AI 實(shí)踐場景。」
2017 年到 2018 年間，幾位 AI 領(lǐng)域的知名學(xué)者陸續(xù)加盟京東。他們的初衷是相似的：將學(xué)界最先進(jìn)的技術(shù)帶過來，在產(chǎn)業(yè)中真正用一用。
全面向技術(shù)轉(zhuǎn)型之后，京東內(nèi)部曾就「走哪種 AI 發(fā)展路線」進(jìn)行過一番探討和規(guī)劃。他們得出的結(jié)論是，要從技術(shù)、產(chǎn)品、生態(tài)三方面啟動搭建。
2019 年底至 2021 年初，京東云經(jīng)歷了兩次組織架構(gòu)上的調(diào)整。第一次是京東云與人工智能、IoT 三大事業(yè)部整合為京東云與 AI 事業(yè)部，第二次是京東將云與 AI 業(yè)務(wù)與京東數(shù)科整合，成立京東科技子集團(tuán)。
三年兩次的架構(gòu)調(diào)整，伴隨著的是京東在 AI 落地經(jīng)驗(yàn)上的不斷深化。大家的共識逐漸清晰：一定要更懂產(chǎn)業(yè)，在產(chǎn)業(yè)服務(wù)上做文章。
據(jù)統(tǒng)計(jì)，京東體系目前用于技術(shù)研發(fā)的投入超過了 800 億，京東科技 60% 以上的員工都是技術(shù)和產(chǎn)品人才，何曉冬、鄭宇、陶大程、梅濤 4 位科學(xué)家入選 IEEE Fellow，此外還包括 40 + 位全球頂級科學(xué)家。迄今為止，京東累計(jì)申請專利 4635 個(gè)，在國際 AI 頂級會議共發(fā)表近 500 篇論文，獲得了 25 項(xiàng)國家 AI 競賽冠軍。
幾年過后，京東在 AI 技術(shù)上的積累愈發(fā)深厚。更重要的是，京東可以提供基于最佳實(shí)踐的解決方案，通過產(chǎn)品為客戶創(chuàng)造價(jià)值，客戶不需要是有經(jīng)驗(yàn)的開發(fā)者，用戶只需要做出商業(yè)上的決策。
如何成為「最懂產(chǎn)業(yè)的云」
來到京東之后，何曉冬延續(xù)了此前在對話式 AI、多模態(tài)等領(lǐng)域的研究，并帶領(lǐng)團(tuán)隊(duì)將一系列研究成果迅速轉(zhuǎn)化，應(yīng)用在京東的智能服務(wù)業(yè)務(wù)中，包括知識融合的預(yù)訓(xùn)練模型 K-PLUG、長文本閱讀 Read-over-Read 模型、數(shù)值推理 OPERA 模型、時(shí)序知識圖譜 TSQA 模型等。
其中，基于領(lǐng)域預(yù)訓(xùn)練 K-PLUG 的商品文案生成模型已經(jīng)覆蓋了京東的 3000 多個(gè)三級品類，人工審核通過率 95% 以上，媲美優(yōu)秀的人類寫手，目前共生成文案 30 億字，已應(yīng)用于京東發(fā)現(xiàn)好貨頻道、搭配購、AI 直播帶貨等，累計(jì)帶來超過 3 億元 GMV。

一鍵生成 3000 + 品類文案。
同時(shí)，何曉冬還牽頭搭建了京東內(nèi)部大規(guī)模對話式 AI 系統(tǒng)的搭建工作。
和國外主要針對 To C 業(yè)務(wù)的「閑聊機(jī)器人」相比，京東的智能對話系統(tǒng)以 To B 為主，往往是來自真實(shí)場景的具體問題或任務(wù)驅(qū)動型的對話。京東積累了大量與真人溝通的場景數(shù)據(jù)，為智能人機(jī)對話與交互等前沿技術(shù)的落地提供了最好的實(shí)踐場。
技術(shù)上的差距已經(jīng)不構(gòu)成絕對挑戰(zhàn)，但到了落地應(yīng)用又是另外一回事。拿對話式 AI 來說，比較常見的技術(shù)壁壘包括口語不流利、話語權(quán)決策、魯棒性這三個(gè)問題。
業(yè)界一直在尋找好的破解路徑。在今年 5 月的谷歌 I/O 大會上，為了解決語音背景噪聲、用戶說話磕巴、語句斷斷續(xù)續(xù)產(chǎn)生的問題，谷歌宣布 Google Assistant 已經(jīng)進(jìn)一步優(yōu)化了神經(jīng)網(wǎng)絡(luò)模型，可以對非連續(xù)的對話進(jìn)行理解。
京東云遇到此類問題的時(shí)間要比谷歌早，形成了有效解決方案的時(shí)間也更早。
2020 年底，業(yè)界首個(gè)大規(guī)模商用的智能對話與交互系統(tǒng)「言犀」應(yīng)運(yùn)而生。針對上述的問題，言犀給出了自己的解決方案。
以口語不流利的問題為例，我們都知道，口語化表達(dá)經(jīng)常包含磕巴、語句斷斷續(xù)續(xù)的情況，還會有大量的重復(fù)、停頓、自我修正等表述；不同文化背景、不同地區(qū)的方言習(xí)慣也存在不同的呈現(xiàn)方式。此外，幾乎每年都會出現(xiàn)大量互聯(lián)網(wǎng)新詞匯。這些都會對下游的語義理解造成干擾。
言犀采用序列標(biāo)注模型對句子中的每個(gè)字進(jìn)行分類，從而識別句子中需要刪除的冗余成分，達(dá)到口語順滑的目的。面向?yàn)榱司徑饽Ｐ蛯τ跇?biāo)注數(shù)據(jù)的過度依賴，言犀采用自監(jiān)督學(xué)習(xí)的方式，通過對大規(guī)模的書面流暢文本進(jìn)行插入、刪除等操作，從而生成大量的不流暢文本。同時(shí)，還聯(lián)合語法判別任務(wù)，對于輸入的文本，從整個(gè)句子層面判斷是否語法正確。
還有一個(gè)問題是怎么學(xué)習(xí)「接話」問題。對于智能對話系統(tǒng)來說，判斷在合適的時(shí)機(jī)接過話語權(quán)，并且在聽者和說話者之間流暢、自然地轉(zhuǎn)換，是個(gè)有些超綱的問題。
對此，言犀引入了多模態(tài)技術(shù)，不再單憑語音信號來判斷是否接過話語權(quán)，而是分別使用語音、語義以及時(shí)間三種不同緯度的特征來判斷是否切換話語權(quán)。

多模態(tài)融合的話語權(quán)決策 (Turn taking)
對于語義特征，言犀采用 transformer 等語言模型，根據(jù)上下文來判斷當(dāng)前語句是否完整；對于語音特征，言犀會將音頻片段分楨，提取每一幀的特征向量，再將其輸入到一個(gè)深層的 ResNet 網(wǎng)絡(luò)，提取其特征表示。如果提取的特征有音調(diào)偏低、語速變慢等特點(diǎn)，則代表可能是結(jié)尾的最后一個(gè)字；此外，還會基于語音片段的時(shí)長、語速、聲調(diào)等時(shí)間維度進(jìn)一步判斷，最后通過融合三種不同模態(tài)的特征，來判斷是否接過話語權(quán)。
一個(gè)形象的比喻是：京東每天有千萬級的對話量，相當(dāng)于千萬次「圖靈測試」。通過和用戶間的不斷溝通，言犀持續(xù)測試最佳的應(yīng)答方式，提升自己解決問題的能力。
在近日舉行的 2022 京東云峰會上，言犀官宣了品牌升級動作。升級后的「言犀 2.0」，產(chǎn)業(yè)標(biāo)簽更加突出。

相比于第一代，言犀 2.0 最大的特點(diǎn)是突出了交互型多模態(tài)數(shù)字人的應(yīng)用，在語音、語義的功能之上，增加了視覺技術(shù)的驅(qū)動。
言犀多模態(tài)數(shù)字人平臺定位「產(chǎn)業(yè)服務(wù)型數(shù)字人」，集成智能多模態(tài)技術(shù)于一身，包括語音語義、多輪對話、表情形象驅(qū)動等能力，可以生成生動的語音、自然的面部表情和身體姿勢，提供身臨其境的交互體驗(yàn)。

在 2022 京東云峰會上，全新發(fā)布的多模態(tài)數(shù)字人「言小?！?。
言犀多模態(tài)數(shù)字人平臺已經(jīng)通過信通院首批數(shù)字人系統(tǒng)基礎(chǔ)能力評測，現(xiàn)在擁有 100 + 數(shù)字人形象，廣泛應(yīng)用在零售直播、****業(yè)務(wù)辦理、政務(wù)服務(wù)等場景。數(shù)智供應(yīng)鏈的最后一環(huán)
在當(dāng)前環(huán)境下，以及產(chǎn)業(yè)數(shù)字化正由量變向質(zhì)變進(jìn)化。京東指出，產(chǎn)業(yè)數(shù)字化的下一站一定是數(shù)智供應(yīng)鏈。
智能服務(wù)則是「數(shù)智供應(yīng)鏈的最后一環(huán)」。京東 2009 年就自建了客服團(tuán)隊(duì)，2012 年就開始做智能客服，至今已超過 10 年。目前，京東云自研的言犀平臺已涵蓋了售前、售中、售后、物流等全鏈路服務(wù)。
在大會上，何曉冬還分享了一些數(shù)字：

目前，言犀平臺擁有海量的脫敏數(shù)據(jù)，每天可提供1000萬次的智能客戶服務(wù)，每月共計(jì)200萬小時(shí)通話語音，成功抗住了春晚5.5億次服務(wù)流量洪峰和多個(gè)京東618和11.11。言犀擁有業(yè)內(nèi)最細(xì)粒度的知識庫，包括4層知識體系，40+獨(dú)立子系統(tǒng)，3000+意圖，3000萬個(gè)高質(zhì)量的問答知識點(diǎn)，覆蓋1000萬自營SKU的電商知識圖譜。言犀每天自動回流7萬+知識點(diǎn)，可以實(shí)現(xiàn)動態(tài)語言模型更新以及對話路徑自動挖掘。
作為一家新型實(shí)體企業(yè)，京東一端連接消費(fèi)互聯(lián)網(wǎng)，一端連接產(chǎn)業(yè)互聯(lián)網(wǎng)，已經(jīng)將對話式 AI 技術(shù)服務(wù)于京東 5.8 億用戶和 17.4 萬商家。今年 618 期間，京東智能客服累計(jì)咨詢服務(wù)量 6.1 億次，物流智能外呼累計(jì)提供電話預(yù)約服務(wù) 253 萬通；還累計(jì)完成了 3.3 億次智能質(zhì)檢與風(fēng)控。
同樣的能力，也已經(jīng)應(yīng)用在全國多地的政務(wù)咨詢業(yè)務(wù)中。
疫情之下，各個(gè)城市的防控需求變得常態(tài)化。常規(guī)的疫情防控與排查需要城市各級單位進(jìn)行大量的調(diào)查走訪，人力物力消耗極大，同時(shí)人群聚集更易增加疾病傳播風(fēng)險(xiǎn)，這為科技防疫提供了用武之地。
在這樣的情況下，京東言犀推出了疫情防控與排查解決方案，30 分鐘內(nèi)就可以從 0 到 1 搭建完成，且擁有高并發(fā)穩(wěn)定可靠的系統(tǒng)架構(gòu)，最高可支撐 100 萬人次 / 小時(shí)，支持多批次需求的外呼任務(wù)。今年 5 月北京疫情防控過程中，一些北京市民接到過 96010 打來的流調(diào)電話。這個(gè)「外呼人員」，就來自京東言犀。

在北京生活的市民群眾來自全國各地，口音皆不相同，且電話端還可能存在高噪音的問題。針對這些挑戰(zhàn)，言犀利用其深度語音識別引擎以及口語順滑、話語權(quán)決策等前沿技術(shù)進(jìn)行優(yōu)化，保證了通話流暢自然。
北京市通州區(qū)政府聯(lián)合京東云言犀平臺，對近 3 日未做核酸檢測的市民進(jìn)行了超過 50 萬人的智能外呼排查，在 5 個(gè)小時(shí)內(nèi)就完成了通知、提醒近 40 萬人參與核酸檢測，為疫情防控大大減輕了壓力，節(jié)約了大量人力成本。作為抗疫外呼的官方電話號碼，96010 正在推廣至全北京市，以提供疫情防控智能外呼服務(wù)。
政務(wù)熱線被稱為「民情的溫度計(jì)」，特別是疫情期間，人們會打政務(wù)熱線咨詢能不能打疫苗、能不能出門的問題，但很多群眾會感覺到「打不通、說不清、辦不了」，這就對智能對話系統(tǒng)提出了要求：首先響應(yīng)速度要快，然后要能準(zhǔn)確識別方言濃厚、斷斷續(xù)續(xù)的句子。
在「大同 12345 政務(wù)熱線」的合作項(xiàng)目中，運(yùn)營人員經(jīng)過一段時(shí)間的數(shù)據(jù)追蹤發(fā)現(xiàn)：京東言犀的呼入電話接起率達(dá)到了 92%，遙遙領(lǐng)先于其他城市。同時(shí)，言犀也自動完成了工單創(chuàng)建、智能匹配至對應(yīng)委辦局、跟蹤工單執(zhí)行情況、自動對市民回訪等全閉環(huán)流程。

從場景中來，到場景中去。憑借 19 年來高效、創(chuàng)新、可持續(xù)的跨越式發(fā)展，京東已經(jīng)驗(yàn)證和凝練了一套完整的能力體系。對話式 AI 落地再難，京東的科學(xué)家們也早已準(zhǔn)備好了答案。
用何曉冬博士的一句總結(jié)：「如果想走得更遠(yuǎn)，AI 必須要成規(guī)模的覆蓋低頻、長尾的場景。將單點(diǎn)的、最先進(jìn)的科研模型在產(chǎn)品上綜合落地，這是真正能夠拓展 AI 價(jià)值邊界的事情?！?/span>
最先進(jìn)的人工智能算法，服務(wù)最接地氣的場景，就是京東云的本色，也應(yīng)該是產(chǎn)業(yè) AI 發(fā)展的本色。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

對話式AI落地最難的一道題，在京東云被這些科學(xué)家搞定了

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

對話式AI落地最難的一道題，在京東云被這些科學(xué)家搞定了

相關(guān)推薦

技術(shù)專區(qū)

對話式AI落地最難的一道題，在京東云被這些科學(xué)家搞定了