博客專欄

EEPW首頁(yè) > 博客 > 數(shù)智商業(yè)技術(shù)2.0時(shí)代的新「三駕馬車」,阿里媽媽鄭波談如何把握生成式大模型

數(shù)智商業(yè)技術(shù)2.0時(shí)代的新「三駕馬車」,阿里媽媽鄭波談如何把握生成式大模型

發(fā)布人:機(jī)器之心 時(shí)間:2023-08-03 來(lái)源:工程師 發(fā)布文章

看阿里媽媽如何在數(shù)智商業(yè)技術(shù)新時(shí)代把握生成式大模型引領(lǐng)的這股 AI 浪潮。


2023 年已經(jīng)過(guò)半,可以說(shuō)是屬于生成式 AI 大模型的一年。自 ChatGPT 推出以來(lái),這股新的 AI 技術(shù)浪潮迅速席卷了國(guó)內(nèi)外。尤其是國(guó)內(nèi),科技大廠、初創(chuàng)公司和科研機(jī)構(gòu)陸續(xù)推出了近百個(gè)通用或特定領(lǐng)域?qū)俅竽P图皯?yīng)用產(chǎn)品。


隨之而來(lái),行業(yè)企業(yè)也尋求自身業(yè)務(wù)場(chǎng)景與相關(guān) AI 技術(shù)的契合點(diǎn)。以當(dāng)前企業(yè)發(fā)展中普遍達(dá)成共識(shí)的數(shù)智化經(jīng)營(yíng)為例,也在積極探索大語(yǔ)言模型、多模態(tài)技術(shù)等對(duì)數(shù)智化升級(jí)和業(yè)務(wù)經(jīng)營(yíng)效率與效果的提升。


在近日于武漢舉行的 2023ACM 中國(guó)圖靈大會(huì) SIGAI China 論壇上,阿里媽媽及閑魚(yú) CTO 鄭波分享了他關(guān)于數(shù)智商業(yè)技術(shù)的洞見(jiàn)。他認(rèn)為,在這輪生成式 AI 大模型的驅(qū)動(dòng)下,數(shù)智商業(yè)技術(shù)將進(jìn)入 2.0 時(shí)代,其中知識(shí)驅(qū)動(dòng)、邏輯推理和創(chuàng)造性將成為明顯的特征。


在其主題報(bào)告《知識(shí)、推理和創(chuàng)造,重塑數(shù)智商業(yè)技術(shù) —— 從北大 - 阿里媽媽人工智能創(chuàng)新聯(lián)合實(shí)驗(yàn)室談起》中,鄭波介紹了阿里媽媽技術(shù)團(tuán)隊(duì)針對(duì)不同業(yè)務(wù)場(chǎng)景,探索生成式 AI 大模型、多模態(tài)、引擎等技術(shù)的創(chuàng)新和應(yīng)用,為商家客戶和消費(fèi)者提供精準(zhǔn)、高效、高質(zhì)的產(chǎn)品和服務(wù)。


以下為鄭波老師的主題分享內(nèi)容,機(jī)器之心在不改變?cè)獾那疤嵯逻M(jìn)行了整理。


數(shù)智經(jīng)營(yíng)技術(shù)從 1.0 進(jìn)入 2.0 時(shí)代

阿里媽媽做好了準(zhǔn)備


大家知道,自去年 12 月底至今,一波以生成式 AI 大模型和 AIGC 為代表的 AI 技術(shù)浪潮正在深刻影響著未來(lái)的技術(shù)走向,學(xué)術(shù)界和工業(yè)界都在關(guān)注相關(guān)技術(shù)的發(fā)展。我將更多地從工業(yè)界視角分享阿里媽媽對(duì)數(shù)智商業(yè)技術(shù)的一些趨勢(shì)判斷和技術(shù)進(jìn)展。


作為直接與商家客戶、消費(fèi)者互動(dòng)的平臺(tái),我們觀察到,AI 技術(shù)正以前所未有的速度重塑和改變商業(yè)場(chǎng)景,技術(shù)變革的速度可以用「時(shí)新日異」來(lái)形容。


面向未來(lái)的數(shù)智商業(yè)技術(shù),我們認(rèn)為將會(huì)呈現(xiàn)三個(gè)明顯特征,即知識(shí)驅(qū)動(dòng)、邏輯推理和創(chuàng)造性。未來(lái)將形成基于認(rèn)知和常識(shí)、端到端鏈路有推理和執(zhí)行過(guò)程的、更有創(chuàng)造性的數(shù)智商業(yè)技術(shù)。


基于此,我們判斷數(shù)智商業(yè)技術(shù)將從 1.0 時(shí)代進(jìn)入 2.0 時(shí)代。1.0 時(shí)代以在線經(jīng)營(yíng)、基于數(shù)據(jù)統(tǒng)計(jì)和經(jīng)驗(yàn)判斷的數(shù)字經(jīng)營(yíng)為主,而 2.0 時(shí)代將會(huì)是知識(shí)經(jīng)營(yíng)、基于 AI 的決策執(zhí)行和因果推斷的創(chuàng)造性智能經(jīng)營(yíng)時(shí)代。


同時(shí) 1.0 時(shí)代更多是從領(lǐng)域數(shù)據(jù)、有監(jiān)督學(xué)習(xí)等 AI 技術(shù)出發(fā),2.0 時(shí)代則將從生成式 AI 大模型、多模態(tài)技術(shù)以及對(duì)數(shù)據(jù)的更有效運(yùn)用等新變化出發(fā)。除了進(jìn)一步重塑和改變商業(yè)場(chǎng)景之外,2.0 時(shí)代將深刻影響商家經(jīng)營(yíng)方式、消費(fèi)者購(gòu)物體驗(yàn)等。


圖片


在這種新的趨勢(shì)下,阿里媽媽立足知識(shí)驅(qū)動(dòng)、邏輯推理和創(chuàng)造性三大方向,通過(guò)生成式 AI 大模型等領(lǐng)域的技術(shù)探索和研究應(yīng)用,形成領(lǐng)先的全棧式技術(shù)體系,將最前沿的 AI 技術(shù)應(yīng)用到多樣化商業(yè)場(chǎng)景中來(lái)。具體如下:


  • 探索大語(yǔ)言模型、多模態(tài)、大模型引擎技術(shù)在智能營(yíng)銷 Agent、聯(lián)盟廣告分析(智能問(wèn)答助手)等知識(shí)驅(qū)動(dòng)方面的應(yīng)用;

  • 在邏輯推理方面,通過(guò)增強(qiáng)分析以及包括 AIDA、Neural Auction、AIGB 等 AIGA 決策智能技術(shù)算法體系,幫助商家進(jìn)行投放決策和精準(zhǔn)評(píng)估,管理大規(guī)模的人群、商品和內(nèi)容資產(chǎn);

  • 在創(chuàng)造性方面,通過(guò)營(yíng)銷創(chuàng)意工具、智能設(shè)計(jì)等幫助商家自由生產(chǎn)創(chuàng)意;

  • 通過(guò)內(nèi)容風(fēng)控和防作弊等幫助商家和平臺(tái)更精準(zhǔn)識(shí)別和處理風(fēng)險(xiǎn),降低損失。

  • 接下來(lái)一一來(lái)看阿里媽媽在知識(shí)驅(qū)動(dòng)、邏輯推理和創(chuàng)造性三個(gè)方面的應(yīng)用進(jìn)展。


知識(shí)驅(qū)動(dòng)篇

多模態(tài)賦能商品檢測(cè) 

& 大模型服務(wù)引擎貫穿多場(chǎng)景


在知識(shí)驅(qū)動(dòng)方面,我首先介紹多模態(tài)技術(shù)深度應(yīng)用工業(yè)場(chǎng)景的案例 —— 拍立淘。在手機(jī)淘寶中,用戶會(huì)使用拍立淘拍照搜索來(lái)準(zhǔn)確表達(dá)搜索意圖,通常是想要找同款或者比較價(jià)格。因此,充分理解 Query 圖片和商品,實(shí)現(xiàn)同款商品準(zhǔn)確檢測(cè),不僅影響用戶體驗(yàn),也決定了商家對(duì)這部分精準(zhǔn)用戶的有效投放。


可以說(shuō),廣告投放的多個(gè)環(huán)節(jié)都涉及到多模態(tài)技術(shù)的運(yùn)用。我們首先針對(duì)商品主體檢測(cè),提出基于文本 prompt 的多模態(tài)目標(biāo)檢測(cè)方法,通過(guò)文本和圖片主體的對(duì)齊來(lái)提升目標(biāo)檢測(cè)效果,相比單模態(tài)方法在檢測(cè) mAP 指標(biāo)上提升 2.1%。


在識(shí)別主體后,我們通過(guò)多階段的表征預(yù)訓(xùn)練框架,訓(xùn)練了面向同款檢索的商品多模態(tài)表征,并通過(guò)高性能向量化檢索引擎實(shí)現(xiàn)在線實(shí)時(shí)同款商品召回,top100 召回商品同款率超過(guò) 98%。


圖片


對(duì)于商品多模態(tài)統(tǒng)一預(yù)訓(xùn)練表征,我們使用了預(yù)訓(xùn)練 + 微調(diào)的兩階段訓(xùn)練范式。第一階段使用超過(guò)百億級(jí)電商圖文語(yǔ)料,采用圖文掩碼建模任務(wù)做無(wú)監(jiān)督預(yù)訓(xùn)練,讓模型在見(jiàn)過(guò)更多數(shù)據(jù)后,學(xué)得更好的圖文編碼器;第二階段使用超過(guò)十億級(jí)拍立淘成交圖文對(duì),采用對(duì)比學(xué)習(xí)任務(wù)做有監(jiān)督微調(diào),并在 loss 上同時(shí)對(duì)齊圖像、文本和圖文,不同模態(tài)之間更好地對(duì)齊。


為了支持多模態(tài)模型的高效訓(xùn)練,阿里媽媽技術(shù)團(tuán)隊(duì)研發(fā)了基于 MDL 訓(xùn)練框架和 AiLake 存儲(chǔ)系統(tǒng)的大規(guī)模多模態(tài)訓(xùn)練平臺(tái)。目前基于 100 張 A100 卡,我們可以在兩天內(nèi)完成 50 億量級(jí)樣本的訓(xùn)練。


除了商品檢索的多模態(tài)技術(shù)創(chuàng)新,阿里媽媽還針對(duì)智能創(chuàng)意、營(yíng)銷分析、平臺(tái)提效、業(yè)務(wù)反作弊等多樣化商業(yè)場(chǎng)景開(kāi)發(fā)了 AI Serving4LM(大模型服務(wù))引擎,具備千億參數(shù)規(guī)模的大模型服務(wù)能力。


圖片


邏輯推理篇

決策智能、增強(qiáng)分析助力商家精準(zhǔn)投放


在邏輯推理方面,我將首先介紹阿里媽媽的決策智能技術(shù)體系。


我們以智能營(yíng)銷決策大模型 AIGA(AI Generated Action)為核心塑造了智能營(yíng)銷技術(shù)體系,其中 RL-based Bidding(基于強(qiáng)化學(xué)習(xí)的出價(jià))幫助商家顯著提升營(yíng)銷效果,Learning-based Auction Design(基于學(xué)習(xí)的拍賣機(jī)制設(shè)計(jì))更加高效地統(tǒng)籌優(yōu)化多方利益。該技術(shù)體系完整架構(gòu)如下圖所示。


智能商業(yè)化策略解決的是,什么樣的資源進(jìn)行拍賣對(duì)平臺(tái)最高效且最能平衡用戶體驗(yàn)和商業(yè)收入。


智能拍賣機(jī)制決定了流量資源分配給哪些廣告主以及扣多少錢,其本身也是一個(gè)可決策問(wèn)題。我們提出并落地了 Deep GSP、Neural Auction、Two-stage Auction 等多個(gè)創(chuàng)新算法。


智能出價(jià)策略面向精細(xì)化出價(jià)的決策過(guò)程,通過(guò)多參出價(jià)策略、RL 參數(shù)優(yōu)化或建模范式(如 Max Return 等)進(jìn)行優(yōu)化。


底層是基于算法的工程架構(gòu),包括海量數(shù)據(jù)實(shí)時(shí)處理、ODL(在線深度學(xué)習(xí))模型訓(xùn)練等,它們構(gòu)成技術(shù)體系的基礎(chǔ)。


圖片


其實(shí),我們團(tuán)隊(duì)很早就開(kāi)始嘗試用生成式大模型重塑智能營(yíng)銷技術(shù)體系,并衍生出了 AIGB(AI Generated Bidding)領(lǐng)域技能模型。作為一種基于生成式模型的出價(jià)模型優(yōu)化方案,AIGB 將策略建模作為條件生成模型,消除了以往 RL 學(xué)習(xí)視角下的復(fù)雜性問(wèn)題。


具體地,我們引入生成式模型將序列決策問(wèn)題建模為一個(gè)序列動(dòng)作生成問(wèn)題。模型通過(guò)擬合歷史軌跡數(shù)據(jù)中的行為模式,達(dá)到策略輸出的目標(biāo)。從結(jié)果來(lái)看,在通用數(shù)據(jù)集上,相較主流 RL 方法取得較好效果提升,為 Bidding 建模提供了一個(gè)可用的迭代方案。


接下來(lái)講如何利用數(shù)據(jù)進(jìn)行決策。對(duì)于淘寶平臺(tái)上百萬(wàn)級(jí)中小商家而言,利用數(shù)據(jù)驅(qū)動(dòng)決策的能力是可望不可及的。因此,我們希望借助 LLM,讓數(shù)據(jù)轉(zhuǎn)化為知識(shí),并讓知識(shí)普惠所有商家尤其是中小商家的經(jīng)營(yíng)決策。


如何實(shí)現(xiàn)呢?具體流程可以參考如下 demo。首先利用 LLM 理解客戶意圖、分析任務(wù)規(guī)劃;然后在分析層,OLAP 引擎對(duì)多維數(shù)據(jù)集進(jìn)行分析模型的自動(dòng)化探查,向客戶提供描述性、診斷性、預(yù)測(cè)性和行動(dòng)性知識(shí);最后 AI analyst 將這些領(lǐng)域知識(shí)和洞見(jiàn)以 Data Story 的形式向客戶解讀。并且,這些功能將在隨后的產(chǎn)品中逐步開(kāi)放給商家。


總之,通過(guò)增強(qiáng)分析,我們希望發(fā)揮數(shù)據(jù)在高質(zhì)量業(yè)務(wù)決策中的關(guān)鍵作用,獲得更深刻、敏捷的數(shù)據(jù)洞察。


圖片


最后來(lái)看智能營(yíng)銷引擎,我們形成了多模態(tài)應(yīng)用范式驅(qū)動(dòng)的交互式策略生成技術(shù)工程體系。在邏輯推理的工程引擎方面,為了更好地提升客戶投放效率和效果,阿里媽媽自研超融合多模智能引擎 HME。


目前我們已經(jīng)形成覆蓋 OLAP、AI、Streaming、Batch、運(yùn)籌優(yōu)化五大方向的智能超融合引擎,圍繞洞察 - 策略 - 投放 - 衡量的全鏈路場(chǎng)景,解決商家多經(jīng)營(yíng)目標(biāo)組合優(yōu)化的難題。


創(chuàng)造性篇

用創(chuàng)意服務(wù)為商家減負(fù)和增效


至于阿里媽媽的創(chuàng)造性方面,我將通過(guò)以下幾個(gè)場(chǎng)景具體展開(kāi)。


第一個(gè)場(chǎng)景是智能圖文創(chuàng)意。針對(duì)很多中小商家沒(méi)有制作創(chuàng)意圖預(yù)算的情況,我們利用內(nèi)容生成技術(shù)為他們制作創(chuàng)意圖片。目前每天為百萬(wàn)商家制作數(shù)以億計(jì)的商品創(chuàng)意圖。


同時(shí)為了讓創(chuàng)意圖片更美觀且更原生,我們研發(fā)一整套圖片制作算法,包括 AI for 底圖生成、圖片智能布局和基于上下文的多模態(tài)圖上文案生成。


流程是這樣的:首先對(duì)商品建模,利用擴(kuò)散模型對(duì)商品前景生成不同氛圍且融合度高的背景,裁剪尺度合適的圖片;然后選擇適合圖片的文案、襯底、Logo 或其他裝飾元素;最后根據(jù)預(yù)測(cè)出的文本框位置、大小及周圍顏色紋理,預(yù)測(cè)應(yīng)該寫(xiě)什么文字。


圖片


第二個(gè)場(chǎng)景是虛擬模特。淘寶服飾商家會(huì)請(qǐng)模特來(lái)試穿,模特本身、布景、拍攝都要花不少錢。針對(duì)此,我們利用創(chuàng)意生成技術(shù)研發(fā)虛擬試裝模特。


下圖左為虛擬模特穿售賣衣服的圖片,其中模特的性別、年齡、膚色、發(fā)型以及背景場(chǎng)景都可以個(gè)性化選擇。商家基于自售衣服的特點(diǎn)選擇屬性,然后根據(jù)投放結(jié)果進(jìn)行優(yōu)化,時(shí)間和制作成本大大減少。


我們?cè)诩夹g(shù)上獨(dú)創(chuàng)前、背景多次生成的流程,利用局部紋理控制網(wǎng)絡(luò)來(lái)精細(xì)控制生成內(nèi)容,并根據(jù)特有任務(wù)定制化訓(xùn)練基礎(chǔ)模型,解決了目前模特?fù)Q裝中服飾還原度不夠和前背景邊緣不清晰問(wèn)題。


圖片

阿里媽媽萬(wàn)相實(shí)驗(yàn)室:https://agi.taobao.com/


第三個(gè)場(chǎng)景是多種風(fēng)格字體生成。商家做創(chuàng)意有時(shí)要花錢購(gòu)買商用字體,我們?yōu)樗麄兲峁┝硕嗫蠲赓M(fèi)、有特色的字體。如何做到呢?我們借鑒古代石碑、書(shū)籍中獨(dú)具風(fēng)格的文字,利用 AI 字體風(fēng)格生成技術(shù)學(xué)習(xí)建模一種字體風(fēng)格,再推廣到所有常用字,得到一種可用字體。


如下圖左,我們根據(jù)東晉著名碑刻拓印「爨 (cuan) 寶子碑」和顏真卿真跡「多寶塔碑」分別訓(xùn)練成了「阿里媽媽刀隸體」和「阿里媽媽東方大楷」。目前我們一共免費(fèi)開(kāi)放了 5 種字體。這些字體采用我們自研的字體風(fēng)格遷移算法,提出了內(nèi)容融合和投影字符損失等創(chuàng)新模塊,發(fā)表在了 CVPR 2023 上,遷移效果業(yè)界領(lǐng)先。


圖片


除了通過(guò)上述多個(gè)創(chuàng)意性產(chǎn)品來(lái)為中小商家「減負(fù)」和「增效」,阿里媽媽一直希望推動(dòng) AI 技術(shù)普惠,讓更多中小商家享受科技紅利。這里我要談一談阿里媽媽的 AI 技術(shù)產(chǎn)品 —— 萬(wàn)相臺(tái),從媒體流量變現(xiàn)切換到商家經(jīng)營(yíng)需求視角,通過(guò) AI 技術(shù)在全域流量上最大化滿足商家拉新、上新、大促等不同營(yíng)銷需求,助力生意增長(zhǎng)。


圖片

萬(wàn)相臺(tái)的全鏈路流程。


除了深耕于融合業(yè)務(wù)場(chǎng)景的技術(shù)創(chuàng)新和應(yīng)用,我們也非??粗毓I(yè)界與學(xué)術(shù)界的深度融合、相互促進(jìn)。我認(rèn)為現(xiàn)在也是學(xué)術(shù)界和工業(yè)界更加緊密聯(lián)系的一個(gè)契機(jī),雙方通過(guò)產(chǎn)學(xué)研等合作方式,可以實(shí)現(xiàn)從 AI 理論到工業(yè)實(shí)際應(yīng)用場(chǎng)景的落地。


因此, 阿里媽媽正和國(guó)內(nèi)眾多知名高校、研究機(jī)構(gòu)開(kāi)展多個(gè)方向、多個(gè)項(xiàng)目的產(chǎn)學(xué)研合作,其中代表性的是 2022 年 9 月成立的「北大 - 阿里媽媽人工智能創(chuàng)新聯(lián)合實(shí)驗(yàn)室(PAAI)」,重點(diǎn)攻關(guān) AI 理論和創(chuàng)新算法研究。自成立以來(lái),實(shí)驗(yàn)室已在大規(guī)模圖模型、決策智能和智能音樂(lè)生成等方向有了一些研究成果和應(yīng)用。


目前實(shí)驗(yàn)室已有 5 篇以上論文被 KDD、IJCAI、WWW 等國(guó)際一流頂會(huì)接收,大規(guī)模圖模型和決策智能技術(shù)在阿里媽媽?xiě)?yīng)用場(chǎng)景的落地也在有序上線準(zhǔn)備中,智能音樂(lè)生成方向也完成了廣告配樂(lè)小樣的生成。


感興趣的讀者可以訪問(wèn)該實(shí)驗(yàn)室網(wǎng)站:http://paai.pku.edu.cn/



*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉