決策智能技術(shù)浪潮襲來,數(shù)智商業(yè)領域如何變革?來聽聽三位專家怎么說(1)
近年來,伴隨著廣告主的需求變化和相關技術(shù)發(fā)展,計算經(jīng)濟學理論、博弈論和人工智能技術(shù)被越來越多地應用到廣告拍賣機制、投放策略中。
決策智能在商業(yè)場景中的意義逐漸凸顯。用戶看到的每一次商品展現(xiàn)、商家的每一次廣告出價、平臺的每一次流量分配,背后都有龐大且復雜的決策智能做支撐。
這些動作的目標在于優(yōu)化用戶購物體驗,讓廣告投放的決策過程更加智能,同時讓廣告主、媒體在平臺實現(xiàn)長期繁榮。廣告主希望在有限的資源投入下最大化營銷效果,平臺希望能夠建立更好的生態(tài)。然而流量環(huán)境、其他參競廣告形成的競爭環(huán)境的復雜性、以及廣告投放策略中出價、目標人群、資源位、投放時間等變量的巨大組合復雜度,使得最優(yōu)廣告投放策略的計算與執(zhí)行充滿了挑戰(zhàn)。
這些問題如何解決?效益最大化的目標具體如何分解?這些有關于決策智能的重要議題,也是領域內(nèi)的研究者和從業(yè)者最關心的。
為了深入探討「數(shù)智商業(yè)場景中的決策智能」這一主題,近日,阿里媽媽博見社聯(lián)合機器之心,邀請到了北京大學鄧小鐵教授、中科院蔡少偉研究員和阿里媽媽 CTO 鄭波老師三位領域內(nèi)的資深學者和專家,展開了一系列主題分享。
以下為鄧小鐵教授、蔡少偉研究員、鄭波老師的主題分享內(nèi)容,機器之心在不改變原意的前提下進行了整理。
鄧小鐵教授:計算經(jīng)濟學的幾個最新研究進展
我今天粗糙地介紹一下計算經(jīng)濟學,這是一個很有歷史的研究領域,最早可以追溯到 1930 年。后來的計算經(jīng)濟學從另外一個角度出發(fā),將經(jīng)濟學變成計算,之前的計算經(jīng)濟學就是通過計算做經(jīng)濟學研究,這次講一講其中的思路。
我們從計算的角度來考慮經(jīng)濟學,有幾個主要關鍵問題:首先是優(yōu)化,機器學習都是優(yōu)化,從中可以看到很多優(yōu)化體系。優(yōu)化之后,還有一個問題叫做均衡,以前我們做計算經(jīng)濟學是從計劃經(jīng)濟的思路去做的,但當時也有一派是從世界****做發(fā)展中國家的發(fā)展,他們給發(fā)展中國家定計劃,從優(yōu)化投入產(chǎn)出的思路展開。從計算角度算均衡會是很困難的問題,所以出現(xiàn)了一個概念,叫做可計算的一般均衡(Computable general equilibrium)。
最近,我們也越來越多可以看到動力學系統(tǒng),因為這個世界很多東西并不是均衡的狀態(tài),特別突出看到均衡的場景是在數(shù)字經(jīng)濟活動中,其中包括經(jīng)濟學層面的東西,比如定價。在數(shù)字經(jīng)濟中,每時每秒都可以看到交易數(shù)據(jù)和價格波動。我們可以清清楚楚看得數(shù)據(jù)的變化,而不是一年過去之后再把經(jīng)濟數(shù)據(jù)統(tǒng)計出來。
計算經(jīng)濟學的整個框架下還有很多東西。每一個經(jīng)濟主體都要優(yōu)化,它們共同博弈的不動點即是均衡。平臺也會博弈均衡這件事情,特別是互聯(lián)網(wǎng)廣告平臺,做廣告的人到平臺上來,將廣告要通過平臺、媒體發(fā)放出去。對于媒體,要把廣告位置提供出來,利用自身對某一類人群的吸引力。對于平臺,要想的是如何將大家的興趣更好地匹配。阿里媽媽作為國內(nèi)最大的廣告平臺,同樣面臨著博弈均衡的問題,需要安排好各方面利益,以實現(xiàn)社會效益最大化,同時也實現(xiàn)機制設計最大收益。
我們可以從三個角度來談優(yōu)化。
首先是經(jīng)濟智能體刻畫的問題。很多機器學習的東西都寫成優(yōu)化的問題,比如怎樣用機器學習的方法算出來制約的約束條件,包括有些環(huán)境中的約束條件。
在非完全信息下,有很多條件是未知的,原來的經(jīng)濟學考慮不了如此復雜的東西,比如博弈對手的效益函數(shù)是什么、博弈對手的策略空間是什么、博弈對手都有哪些,非完全信息也是非常重要的對經(jīng)濟活動的刻畫。
很多假設可以刻畫非完全信息,比如經(jīng)濟人知道對手的效益函數(shù)、約束以及其他各種信息。關于彼此的效益函數(shù)有一個 common knowledge:我們知道 distribution。但這個 distribution 怎么來的呢?這就走進入機器學習范疇:為什么 player 要告訴彼此、告訴我們它知道什么?針對這些,在計算角度上就有一些很合理的問題。
博弈動力學,這是計算經(jīng)濟學的第三步。從實體經(jīng)濟的經(jīng)濟學來講,很多活動是經(jīng)過了 6000 年演化發(fā)展過來的,是大家慢慢地博弈,直到均衡。在數(shù)字經(jīng)濟中,想一下子到達均衡會是很大的挑戰(zhàn)。
廣告平臺優(yōu)化是阿里媽媽在做的事情。我們講了這么多難的計算任務,什么時候能夠做好呢?在單參數(shù)的情況下,已有的理論能夠支撐,但是多參數(shù)怎么做到,理論上還沒有現(xiàn)成的定義。
很重要的一點是,整個經(jīng)濟學體系已經(jīng)建好了,但經(jīng)濟學用到互聯(lián)網(wǎng)中會產(chǎn)生一個很大的缺陷 —— 它是靜態(tài)的。大家肯定知道,業(yè)界的事情不是靜態(tài)的,比如說「雙十一」大促會產(chǎn)生很多挑戰(zhàn),如何設計紅包的價格,根據(jù)市場已知模型如何建立這些東西,這些成為了今天計算經(jīng)濟學重要的挑戰(zhàn):一是近似求解優(yōu)化,一是均衡計劃,一是平臺競爭動力學。
近似計算的難度很大,我們最多知道的均衡的解可以算到三分之一,最多是 33% 的錯誤率,跟最優(yōu)相差 33%,所以均衡計算確實挺難的。自動設計方法論、隱藏對手模型學習,是這方面的框架,這里都是跟信息容量相關的東西。
另外就是與市場上的未知對手博弈。我們要考慮至少兩個 company,建立一個模型來設計它們之間的博弈,這里都是單調(diào)的,并不知道所有的信息。根據(jù)已知的信息看市場的波動、價格設計變化,我們基于此設計一個隱函數(shù)的優(yōu)化模型,用機器學習方法做分析。
多方認知次序的先后給我們帶來博弈的認知層次。近年來,一些研究討論了很多一價拍賣為什么比二價拍賣好。Myerson 假設所有人知道所有人的價值分布,發(fā)展了一套最優(yōu)拍賣理論,但我們實際上不知道公共知識。我們自己的研究是從另外一個角度來考慮的,出發(fā)點是沒有先驗的共同知識,把原來用的概率方法建立 Myerson 最優(yōu)拍賣理論的假設放棄掉。
在沒有這套拍賣均衡的基礎假設的環(huán)境下,最優(yōu)解可以如何實現(xiàn)均衡?可以發(fā)現(xiàn),泛化一價拍賣收益是跟 Myerson 相等的。這里應對買家以最優(yōu)效益為目標公布的價值分布,賣家設計的 Myerson 最優(yōu)收益,等價于它已泛化一價拍賣的期望拍賣收益。
最終的結(jié)論是,Myerson 和 GFP 是等價的,它們要比 VCG 要好,但是在 IID 情況下是相等的,Symmetric BNE 和 GSP 也是等價的。
計算經(jīng)濟學用到的另外一個概念是馬爾可夫博弈,一種在動態(tài)環(huán)境下的博弈,特別是無窮輪博弈求解的問題。我們對問題從三個方向進行了處理:一是為計算做了有理化的簡化,把目標限制在近似解;二是用時間折現(xiàn)率保證無窮輪收益的收斂性;三是數(shù)學上的分階段求以及將策略不同輪的變化局限在一輪的變化。如此,無窮求和的難點得以克服。
我們進一步在馬爾可夫博弈的應用方面簡化了計算的難度。對于比特幣的共識機制的設計,有清晰的馬爾可夫獎勵分析,而且講了一個很好的故事。按照機制設計規(guī)定,大多數(shù)人支持它就是對。但后面發(fā)現(xiàn),大多數(shù)支持并不保證經(jīng)濟學上的安全,有四分之一的人通過自私挖礦攻擊就可以推翻多數(shù)原則。
遠見挖礦策略:「螳螂捕蟬,黃雀在后」
對于數(shù)字經(jīng)濟設計環(huán)節(jié)的問題,我們最新的工作是可以用 Insightful mining Equilibrium 克服,用遠見挖礦的策略實現(xiàn)最優(yōu),最后是馬爾科夫博弈的構(gòu)架,形成了馬爾科夫獎勵過程,增加一個認知層級,從誠實礦池、自私礦池,再越過一個層級,達到遠見礦池的結(jié)果。
同樣地,許多互聯(lián)網(wǎng)公司要處理動態(tài)的東西而非靜態(tài)的東西,如今世界經(jīng)濟學不再是以前的經(jīng)濟學,此外還通過數(shù)學使得機器學習方法論和博弈論緊密結(jié)合在了一起。我們因此克服了只能處理靜態(tài)經(jīng)濟學的情形,演進到了能夠處理動態(tài)的情形。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。
波段開關相關文章:波段開關原理