博客專欄

EEPW首頁 > 博客 > 2022穩(wěn)居C位的AIGC,到底有什么用?

2022穩(wěn)居C位的AIGC,到底有什么用?

發(fā)布人:機(jī)器之心 時(shí)間:2022-11-19 來源:工程師 發(fā)布文章

元宇宙之外,AIGC有其貼近產(chǎn)業(yè)的一面。

如果總結(jié) 2022 年十大技術(shù)趨勢(shì),AIGC(AI-Generated Content)一定能穩(wěn)站一席。


一方面,市場(chǎng)融資火爆,AIGC 創(chuàng)業(yè)公司 Jasper. AI、Stability AI 都分別獲得了超 1 億美元的融資,資本都在盯著這個(gè)具有想象空間的賽道。


另一方面,技術(shù)呈現(xiàn)擴(kuò)圈之姿,尤其在繪畫領(lǐng)域,一幅名為《太空歌劇院》的 AI 畫作甚至拿到了美國科羅拉多州博覽會(huì)藝術(shù)比賽的一等獎(jiǎng)。


圖片

AI畫作《太空歌劇院》


但沉下心來觀察這個(gè)賽道會(huì)發(fā)現(xiàn)這樣的境況:AIGC 離產(chǎn)業(yè)應(yīng)用有點(diǎn)遠(yuǎn)。一些人會(huì)將生成式 AI 出色的表現(xiàn)與元宇宙等熱門概念聯(lián)系到一起,認(rèn)為 AIGC 即將成為構(gòu)建元宇宙的重要工具,徹底變革人類的生活方式,這一愿景為一些背靠生成式 AI 大模型的初創(chuàng)公司帶來了大筆融資,但距離落地成真還有一段時(shí)間。


生成式 AI 落地真的還有一段時(shí)間嗎?對(duì)于手握精尖技術(shù)去找應(yīng)用、找落地的企業(yè)或許是這樣的,但對(duì)于已經(jīng)在產(chǎn)業(yè)中摸爬滾打了 20 余年的京東來說,從 2017 年喊出“技術(shù)!技術(shù)!技術(shù)!”,到用 AI 技術(shù)武裝自身業(yè)務(wù),再到把反復(fù)歷練的產(chǎn)業(yè) AI 能力通過京東云對(duì)外輸出服務(wù)產(chǎn)業(yè),京東將 AI 能力滲透到了產(chǎn)業(yè)的毛細(xì)血管里,潤(rùn)物細(xì)無聲般走進(jìn)了百姓的生活,比如,當(dāng)前應(yīng)用最廣泛的就是交互數(shù)字人。


京東云
,贊106


這是京東云推出的言犀虛擬數(shù)字人主播,高性價(jià)比和不錯(cuò)的交互體驗(yàn),讓 TA 獲得了眾多商家的青睞。在雙十一期間,言犀虛擬數(shù)字人服務(wù)近 200 家付費(fèi)品牌,帶來數(shù)百萬 GMV 轉(zhuǎn)化。


從技術(shù)視角來看,當(dāng)前數(shù)字人是 AIGC 技術(shù)的集大成者,包含了生成圖片、語言、音頻、視頻和 3D 等等。


從產(chǎn)業(yè)視角來看,在京東內(nèi)部或許沒有 AIGC 這樣一個(gè) “時(shí)髦” 的稱呼,但在日常業(yè)務(wù)中,他們?cè)缇烷_始用技術(shù)幫助商家生成商品文案、對(duì)話文本、外呼語音…… 現(xiàn)在還能生成數(shù)字人幫商家賣貨,其應(yīng)用范圍貫穿京東的整個(gè)數(shù)智供應(yīng)鏈。同時(shí),他們的各種 AIGC 模型也從這條供應(yīng)鏈上 “學(xué)習(xí)” 新的東西,把更好的技術(shù)、服務(wù)向外輸出,讓我們看到了這套技術(shù)更貼近產(chǎn)業(yè)的一面。


與數(shù)智供應(yīng)鏈深度耦合的 AIGC


AIGC 并不是一個(gè)新概念,其萌芽階段可以追溯到上世紀(jì) 50 年代,90 年代從實(shí)驗(yàn)性向?qū)嵱眯灾饾u轉(zhuǎn)變。從 2014 年起,隨著以生成對(duì)抗網(wǎng)絡(luò)(GAN)為代表的深度學(xué)習(xí)算法的提出和迭代更新,AIGC 迎來了新時(shí)代,生成內(nèi)容百花齊放,效果逐漸逼真直至人類難以分辨。2018 年,AI 生成的畫作以 43.25 萬美元的價(jià)格被成功拍賣,引發(fā)各界關(guān)注。


彼時(shí),在京東 AI 團(tuán)隊(duì)的研究中,AI 作畫已不是新鮮事,他們的研究涉及多模態(tài)、大模型等方面的基礎(chǔ)研究以及 AI 寫詩、AI 生成文案、AI 畫圖、AI 寫書法等一些實(shí)用性研究,為之后的 AIGC 產(chǎn)品問世打下了基礎(chǔ)。其中一篇典型論文成果 AttnGAN 引用過 1000 多次,是 AIGC 領(lǐng)域的經(jīng)典工作之一。


圖片

AttnGAN 生成結(jié)果示例。


但同時(shí),京東也意識(shí)到,如果真的想用這些 AIGC 技術(shù)變革行業(yè),僅靠研究是不夠的,還需要結(jié)合業(yè)務(wù)實(shí)際來解決一些工程化難點(diǎn)。于是,從 2019 年開始,生成式 AI 如何一頭扎進(jìn)京東的多個(gè)供應(yīng)鏈環(huán)節(jié)成了團(tuán)隊(duì)的第一要?jiǎng)?wù)。


供應(yīng)鏈?zhǔn)且粋€(gè)極端復(fù)雜的、上下貫通的、跟千行百業(yè)都息息相關(guān)的實(shí)體鏈條,小至快消品、3C 電子、服裝,大至汽車、高鐵、飛機(jī)制造…… 只要有生產(chǎn),有流轉(zhuǎn),有消費(fèi),就有供應(yīng)鏈。作為一家以供應(yīng)鏈技術(shù)和服務(wù)為底層邏輯、擁有復(fù)雜供應(yīng)鏈場(chǎng)景的新型實(shí)體企業(yè),京東在數(shù)智供應(yīng)鏈中醞釀以 AIGC、語音識(shí)別、語義理解等為代表的產(chǎn)業(yè) AI 能力,然后再通過與產(chǎn)業(yè)的深度融合,釋放其 “生萬物” 的潛力,其價(jià)值無疑是巨大的。但在此之前,他們必須先解決這些 AIGC 模型在供應(yīng)鏈各環(huán)節(jié)的應(yīng)用效果和效率的問題。


比如,語音生成的難點(diǎn)在于如何讓生成的語音更像真人,傳統(tǒng)的 TTS(語音合成)技術(shù)往往會(huì)因?yàn)槿狈Νh(huán)境音和語調(diào)、重音、情緒方面的變化而讓人感覺不真實(shí)。


京東語音算法負(fù)責(zé)人張政臣介紹,這種不真實(shí)在一定程度上是由訓(xùn)練數(shù)據(jù)造成的,因?yàn)楫?dāng)前的大部分語音數(shù)據(jù)是在錄音棚里錄的,導(dǎo)致生成結(jié)果偏播音主持場(chǎng)景,用到直播等場(chǎng)景中就不太合適。


因此,京東的語音團(tuán)隊(duì)首先考慮從語料入手來解決這個(gè)問題,這也是京東龐大供應(yīng)鏈的優(yōu)勢(shì)所在:這條數(shù)智化供應(yīng)鏈每天都會(huì)產(chǎn)生大量真實(shí)場(chǎng)景的對(duì)話,既有客服的也有主播的,拿這些語料訓(xùn)練出的語音模型生成結(jié)果明顯要更加自然。此外,他們也用了一些技術(shù)性的方法,比如對(duì)于某些語氣詞、聲音的韻律變化單獨(dú)建模和控制。 


當(dāng)然,也有很多客戶會(huì)提出使用真人錄音的需求,同時(shí)又要往里面加入一些變量,比如把一段外呼錄音中的地點(diǎn)由 “經(jīng)海路” 改成 “科創(chuàng)街” 或其他幾百個(gè)不同的地址。由于錄音成本很高,被改動(dòng)的變量是需要用技術(shù)來合成的,同時(shí)又要保證合成的聲音和原有的錄音無縫銜接,聽不出差別。


得益于多年來利用供應(yīng)鏈數(shù)據(jù)訓(xùn)練出的大型基線模型,京東的語音團(tuán)隊(duì)現(xiàn)在已經(jīng)能夠以一種低成本的方式解決這個(gè)問題,只需要少量的數(shù)據(jù)(比如錄音師的十幾句話)就能實(shí)現(xiàn)個(gè)性化的 TTS,達(dá)到之前需要很多訓(xùn)練數(shù)據(jù)才能達(dá)到的效果。


京東言犀語音生成片段音頻:00:0000:15京東言犀語音生成片段。其中,「王師傅、燒肉醬、采購專員」均為編輯生成,過渡平滑自然。


文本生成最大的問題是“可控性”,即想辦法讓模型生成我們想要的內(nèi)容。


“我們?cè)缙诘哪P涂梢陨珊芰鲿车奈谋?,但是很多時(shí)候我們發(fā)現(xiàn),可控這件事并沒有得到很好的解決,大家還是沉浸于生成超出想象的、天馬行空的內(nèi)容。但是在真正的產(chǎn)業(yè)應(yīng)用中,(模型)必須可解釋、可控?!本〇| NLP 算法工程師李浩然回憶說。


具體到言犀虛擬數(shù)字人這樣的商品營銷文案自動(dòng)生成,“可控”就意味著模型生成的文本必須滿足可讀性(Readability)、忠實(shí)性(Faithfulness)、信息性(Informativeness)等幾個(gè)要求,長(zhǎng)文本(比如直播劇本)還要具備多樣性(Diversity)和篇章連貫性(Coherence)。京東 NLP 團(tuán)隊(duì)提出的基于領(lǐng)域知識(shí)增強(qiáng)的預(yù)訓(xùn)練語言模型 K-PLUG 就是用來解決這些問題的。


在 K-PLUG 誕生之前,一些通用的預(yù)訓(xùn)練語言模型也可以用來生成商品文案,但在商品賣點(diǎn)的獨(dú)特性等方面仍有所欠缺,比如下面這段油煙機(jī)的文案:


圖片

為了讓模型更精通電商場(chǎng)景,K-PLUG 首先會(huì)定義電商領(lǐng)域的領(lǐng)域知識(shí),包括商品的知識(shí)圖譜、要素知識(shí)、類別知識(shí)以及賣點(diǎn)知識(shí),然后針對(duì)這些不同的知識(shí)去設(shè)計(jì)不同的下游任務(wù)。有了這些知識(shí),模型就學(xué)會(huì)了如何去 “閱讀” 商家給的商品說明材料以及去哪兒找規(guī)格、賣點(diǎn)等信息,然后通過 “Only Copy” 的機(jī)制將一些關(guān)鍵信息復(fù)制到生成文本中。


更重要的是,這里用到的電商知識(shí)是京東供應(yīng)鏈已經(jīng)積累了很多年的,覆蓋超過 1000 萬種自營商品。有了這些知識(shí)做基礎(chǔ),K-PLUG 僅用 1 億參數(shù)量(約為 Google T5 的三分之一)就超過了 Google T5 的商品文案生成效果,而且因?yàn)轶w積小,更容易在業(yè)務(wù)中部署,實(shí)用性非常強(qiáng)。


據(jù)統(tǒng)計(jì),基于 K-PLUG 的商品文案生成模型已經(jīng)覆蓋了京東的 3000 多個(gè)三級(jí)品類,累計(jì)生成文案 30 億字,應(yīng)用于京東發(fā)現(xiàn)好貨頻道、搭配購、AI 直播帶貨等,累計(jì)帶來超過 3 億元 GMV。


目前,京東的 NLP 團(tuán)隊(duì)還在進(jìn)一步優(yōu)化 K-PLUG 的長(zhǎng)文本生成效果,以適應(yīng)直播劇本撰寫等長(zhǎng)文本場(chǎng)景。據(jù)悉,他們將嘗試?yán)镁〇|平臺(tái)上現(xiàn)有的大量長(zhǎng)文本以及領(lǐng)域知識(shí)來訓(xùn)練更大的模型,使其生成的文本句與句之間更加有邏輯。


當(dāng)然,未來的這個(gè)模型也不會(huì)很大(參數(shù)量約為 10 億),因?yàn)樵谑褂脮r(shí),大模型帶來的價(jià)值和成本有一個(gè)平衡點(diǎn),在關(guān)注如何訓(xùn)練超大規(guī)模參數(shù)模型、提高模型通用性的同時(shí),京東更關(guān)注大模型在供應(yīng)鏈各環(huán)節(jié)的應(yīng)用效果。


“我們(在做業(yè)務(wù)的時(shí)候)并沒有追求千億級(jí)、萬億級(jí)的生成式大模型,因?yàn)樗鼈冊(cè)趯?shí)際應(yīng)用的時(shí)候會(huì)有多方面的問題,比如對(duì)服務(wù)器要求很高,這樣的模型在很多場(chǎng)景下可能都用不起來,所以我們會(huì)從效率的角度去做模型的設(shè)計(jì)。在有些場(chǎng)景下,即使是 10 億參數(shù)的模型,我們也會(huì)通過蒸餾、量化的方式讓它進(jìn)一步提升效率,減少對(duì)服務(wù)器配置的要求。很多時(shí)候,我們的推理(理解或生成)模型既支持 GPU 的部署環(huán)境,也支持 CPU 的部署環(huán)境。”京東集團(tuán)高級(jí)算法總監(jiān)吳友政解釋說。


“融”生萬物,向“實(shí)”而升


經(jīng)過幾年的發(fā)展,當(dāng)前的 AIGC 算法已經(jīng)具備了真實(shí)復(fù)刻和創(chuàng)造某類既定內(nèi)容的能力,同時(shí)相關(guān)模型對(duì)簡(jiǎn)單場(chǎng)景的內(nèi)容生成也取得了比較好的成果。但面對(duì)產(chǎn)業(yè)供應(yīng)鏈中多樣性變化和復(fù)雜場(chǎng)景內(nèi)容生成的挑戰(zhàn),現(xiàn)有 AIGC 的算法能力仍需進(jìn)一步提升。


舉例來說,當(dāng)前的算法已經(jīng)可以應(yīng)對(duì)高清人臉和數(shù)字人頭像的生成,但在動(dòng)畫視頻內(nèi)容的生成上仍然稍顯乏力,因?yàn)楹笳叩膭?dòng)態(tài)復(fù)雜性和可能性的復(fù)雜程度以幾何倍數(shù)增長(zhǎng)。


“這意味著我們現(xiàn)在的算法其實(shí)已經(jīng)不再是單點(diǎn)迭代,而是多種算法互相之間聯(lián)合優(yōu)化,變成一種系統(tǒng)級(jí)的優(yōu)化。”京東集團(tuán)副總裁、智能產(chǎn)品與服務(wù)部總裁何曉冬坦言。


他回憶道,以前做 AI 算法的時(shí)候會(huì)局限于怎么做一個(gè)單點(diǎn),比如語音識(shí)別、圖像識(shí)別,包括把這個(gè)單點(diǎn)的能力上云,讓別人調(diào)用。但從供應(yīng)鏈的角度來看,很多技術(shù)要在鏈條里面產(chǎn)生價(jià)值,就必然是融合性的。


這種 “融合” 不僅是不同模態(tài)的技術(shù)(語音、文本、圖像等)之間的融合,也包括技術(shù)與各行各業(yè)的特異性場(chǎng)景的深度融合。


當(dāng)然,融合的前提是前期有比較全面的積累,而這正是京東云做 AIGC 的優(yōu)勢(shì)所在:京東自身的供應(yīng)鏈環(huán)節(jié)就足夠多,足夠復(fù)雜,每天都會(huì)提出很多新的挑戰(zhàn),這幫助他們擺脫了單點(diǎn)技術(shù)思維,更多地從產(chǎn)業(yè)需求的角度去看這些技術(shù),對(duì)每個(gè)方向都做更全面的思考和更深刻的理解。


這種融合性的做事方法已經(jīng)幫助京東在 “生萬物” 的道路上邁出了很大的一步,除了常規(guī)的對(duì)話生成、文本生成、語音生成等應(yīng)用外,京東還會(huì)用融合性的 AIGC 去做數(shù)字人生成和數(shù)字孿生。


圖片


由實(shí)而生,向?qū)嵍?。京東是實(shí)體經(jīng)濟(jì)高質(zhì)量發(fā)展的見證者,更是深度的參與者。目前,他們正通過京東云向千行百業(yè)釋放自己的 AIGC 能力,這些能力降低了內(nèi)容制作分發(fā)門檻,讓更多的中小企業(yè)可以參與到數(shù)字經(jīng)濟(jì)中來,進(jìn)而實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型,這是實(shí)現(xiàn)產(chǎn)業(yè)升級(jí)的關(guān)鍵一步。


以實(shí)助實(shí)、增強(qiáng)實(shí)體經(jīng)濟(jì)活力的效果,這既是 AIGC 的機(jī)會(huì)所在,也是京東做 AIGC 的使命所在。


參考鏈接:

https://ieeexplore.ieee.org/document/8578241

http://www.caict.ac.cn/kxyj/qwfb/bps/202209/P020220902534520798735.pdf

https://zhuanlan.zhihu.com/p/530855309


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉