學(xué)貫中西(14):人機協(xié)同決策(續(xù))
1 三種類型的AI
過去20 年,AI 在辨識( 分類) 和預(yù)測,兩方面表現(xiàn)令人類驚奇。就像算命仙,辨識出您的本命、預(yù)測出您的“時和運”了。若時來運轉(zhuǎn),就努力擴大行動,趨吉迎福。若時運不濟,就凡事小心慎行,冬藏春迎,蓄銳待發(fā)。這階段的AI,通稱為:識別型AI。
在大數(shù)據(jù)時代里,人眼可看、手中能掌握的資料很有限,且視野小,人為優(yōu)化只能獲得局部最優(yōu)解(Local optimum)。于是,就需要AI 生成來幫忙,以人為找出的局部最佳解為條件( 基礎(chǔ)),輸入給AI ( 如Conditional GAN 模型), 讓它協(xié)助生成全局最佳解(Global optimum)。這階段的AI,通稱為:生成型AI。
上一期里,曾經(jīng)談到了AI 能夠幫助檢驗人類決策者的假設(shè),降低決策風(fēng)險,促進企業(yè)的成長茁壯。于是,AI 有3 種:識別型AI、生成型AI、決策型AI。
● 識別型AI:對事物或現(xiàn)象,洞察其特征(Feature),而進行歸類( 識別)。
● 生成型AI:學(xué)習(xí)目標(biāo)事物或現(xiàn)象的數(shù)據(jù)分布(Distribution),生成新數(shù)據(jù),呈現(xiàn)逼真的事物。
● 決策型AI:由< 生成型AI> 提供方案,由< 識別型AI> 評估風(fēng)險,然后挑選風(fēng)險最低、勝率最高的方案,并采取行動。所以決策型AI 的關(guān)鍵因子是:風(fēng)險。
2 決策型AI的3項特點
從商業(yè)決策而觀之,商業(yè)環(huán)境是善變的,而且存在競爭者刻意唱反調(diào),使得看似最佳獲利方案,卻可能是最賠錢的。于是,決策型AI 的第1 項特點是:需要把環(huán)境或敵方的可能方案(的特征)輸入到AI模型里。
《孫子兵法》說:勝兵先勝而后求戰(zhàn);敗兵先戰(zhàn)而后求勝。于是,決策型AI 的第2 項特點是:幫忙做“先勝”的評估,也就是“不敗”的評估,也就是評估風(fēng)險。
例如,當(dāng)今股市領(lǐng)域,最著名的投資決策者是巴菲特。他說,他的投資決策都基于兩條原則,第1 條原則是不賠錢( 先不敗、先勝);而第2 條原則是永遠(yuǎn)不忘記。
從成吉思汗與神鷹的故事,可協(xié)助我們領(lǐng)會到,如果決策型AI 扮演神鷹的角色,既符合AI 的特性,又非常具有價值。當(dāng)AI( 神鷹) 發(fā)現(xiàn)決策者思緒不夠完美時,可以給予畫龍點睛的效果。更具價值在于:當(dāng)AI( 神鷹)發(fā)現(xiàn)決策者的決定是錯的,而且行動是災(zāi)難性的,AI立即提出嚴(yán)重警告。于是,決策型AI 的第3 項特點是:把“決策型AI”做在決策點與行動點之間。例如,成吉思汗拿著杯子去盛裝那滴下來的山泉水。
裝滿了水,快拿到口邊,準(zhǔn)備一飲而盡時,在天空中飛翔的神鷹突然飛撲下來,“嗖”的一聲,就把成吉思汗手中的杯子踢翻了,水都灑到地上了。
神鷹在決策者的“決策時間點”與“行動時間點”之間的數(shù)秒鐘內(nèi),實時納入當(dāng)下的決策,做出智慧的推論,采取保護主人的行動,而且刻不容緩( 圖1)。
圖1
過去,許多人把AI 做到“決策時間點”之前,提供給決策者參考,是OK 的,只是這樣的作法,只是把AI 做成為BI ( 商業(yè)智能) 或大數(shù)據(jù)分析的延伸,其價值并非最高的。把AI 做在策者的“決策時間點”與“行動時間點”之間,我稱為:AI 神鷹。把AI 做在策者的“決策時間點”之前,我稱為:AI 獵狗。
AI 獵狗作用于人類的“決策前”;而AI 神鷹作用于“決策后”。這兩項AI 成為人類決策者的最佳伙伴。對于基層經(jīng)理人( 決策) 而言,AI 獵狗可以發(fā)揮很大的輔助效果。對于高層總裁( 決策) 而言,AI 神鷹可以發(fā)揮關(guān)鍵性的效益。所以成吉思汗出行時,隨身攜帶神鷹,而不是獵狗。獵狗看利益,神鷹看風(fēng)險。兩者協(xié)同合作,帶給人類趨吉避兇效果,讓企業(yè)勢如破竹。如成吉思汗一般,建立地球史上最大版圖的帝國。AI 天生具有“考古”和當(dāng)下“探索”的強大能力。也就是AI 出生就具有獵狗的天份,能極靈敏地嗅出利益機會( 如那里有兔子)。也就是一般統(tǒng)稱的“預(yù)測(Predict)”能力,這種極靈敏能力既可以用來嗅出“利益”,也可以用來嗅出“危險”。于是,將一群擅于嗅出風(fēng)險的AI 獵狗們,巧妙組合成為一個團隊,就成為一只“AI 神鷹”了。
3 以劃拳比賽為例
這是一個做給小學(xué)生玩的AI 游戲,讓小朋友與Zenbo 機器人玩剪刀、石頭、布的劃拳比賽( 圖2 和圖3)。
圖2
圖3
比賽一開始,請先開啟Zenbo 的“AI 劃拳游戲”,如圖4。Zenbo 會說出:“我們一起來玩剪刀、石頭、布。當(dāng)我喊‘剪刀、石頭、布’,我們就同時出拳喔,準(zhǔn)備好了嗎?”。請您回答:“好了”。Zenbo 就出現(xiàn)下述畫面( 圖5),同時Zenbo 也說出:“開始出拳喔,剪刀、石頭、布”。
圖4
圖5
這時請您出拳,要用口說出來。例如說出:“布”。此刻Zenbo 先已決定它的出拳,瞬間已聽到您說出的話(布),就顯示出來。
圖6
同時,Zenbo 就很高興地說出:“哈哈哈,我贏了”。然后繼續(xù)下一回合的比賽。
4 AI模型的架構(gòu)設(shè)計
我們共有3 個模型:RnnPredict、DecisionRiskModel、VoiceClassifier。第1 個模型(RnnPredict) 是基于RNN的模型,它從比賽的歷史數(shù)據(jù)中,探索對方出拳的規(guī)律(圖7)。
圖7
第2個模型(DecisionRiskModel) 是基于對方出拳的規(guī)律,加上己方的決策,進行風(fēng)險(Risk) 評估,如圖8。
圖8
第3個模型(VoiceClassifier) 是監(jiān)視、辨別對方當(dāng)下出拳的行為,而計算出勝負(fù)( 圖9)。
圖9
在這劃拳游戲里,AI 必須在看到對方出拳之前,預(yù)先作最好的決策。所以第2 個模型的運行時間,是比第3 個模型還要早。這第2 個模型是依賴第1 個模型所探索的到的對方出拳規(guī)律。
5 AI模型的學(xué)習(xí)(訓(xùn)練)流程
5.1 訓(xùn)練RnnPredict模型
這RnnPredict 模型會從比賽的經(jīng)驗中找出對手的出拳規(guī)律。例如,當(dāng)A 與您比賽100 回合,它會記錄比賽的過程。
RnnPredict 模型會觀察您出拳的各種習(xí)慣性。例如,它會從這100 次的出拳紀(jì)錄( 數(shù)據(jù)) 中萃取您連續(xù)出拳相同時,接著您會習(xí)慣性選擇出什么拳呢? 于是,它萃取出來了( 圖10)。
圖10
接著,按下“AI 尋找規(guī)律”,RnnPredict 模型就展開機器學(xué)習(xí),并且以神經(jīng)網(wǎng)絡(luò)的權(quán)重來記錄它找出來的規(guī)律,然后他也輸出所找到的規(guī)律( 圖11)。
圖11
從上圖里AI 輸出的結(jié)果看來,AI 的確發(fā)現(xiàn)了您的出拳習(xí)慣:幾乎沒有連續(xù)3 次出一樣的拳。例如,從上圖的第1 列,您前兩次都出“石頭”,AI 就估算出您這次將出拳的可能性是:出“布”、“剪刀”、“石頭”的可能性,分別為(0.75,0.25,0)。
5.2 訓(xùn)練DecisionRiskModel模型
這是一個分類模型( 屬于識別型AI)。剛才AI 基于過往的大數(shù)據(jù),發(fā)現(xiàn)1 個規(guī)律:您連續(xù)兩回合出招一樣時,其后( 第3 招) 出招,幾乎不會與前兩回相同。例如,前兩回合,您都出“剪刀”,這一回合,您幾乎不會繼續(xù)出“剪刀”。所以,您只會出“石頭”或“布”了。此時,如果AI 出石頭,就它就穩(wěn)輸了( 風(fēng)險高);反之如果AI 出“布”,它就穩(wěn)不輸了( 風(fēng)險低);同理如果AI 出剪刀,就輸贏各一半( 風(fēng)險中等)。前兩回,如果您出其他招( 不連續(xù)出同一招) 時,都全部看成“中等風(fēng)險”。
于是,AI 只要善用它所發(fā)現(xiàn)的規(guī)則,在出拳瞬間自我評估它出招的風(fēng)險,確保它不會掉入高風(fēng)險的賽局里,它(AI) 的贏面就大增了。現(xiàn)在就來把上述的贏家規(guī)律輸入到Excel 表格里( 圖12)。
圖12
按下“訓(xùn)練”,就開始訓(xùn)練DecisionRiskModel 分類模型。它是用來評估各種出拳方案的風(fēng)險評估。例如,輸入值[1,1,0],表示對方連續(xù)兩次出“剪刀”,而AI決定出“石頭”,此時評估出來:風(fēng)險高。于是AI 決定改變出拳的選擇。例如,改為出“布”,就輸入[1,1,2],此時評估風(fēng)險低,就是好策略了。
6 結(jié)束語
本期說明了決策型AI 的特色。并以劃拳比賽為例,說明其架構(gòu),包括3 個AI 模型:第1 個是RnnPredict模型,負(fù)責(zé)探索對方的出拳規(guī)律( 知彼)。第2 個是DecisionRiskModel 模型,負(fù)責(zé)評估決策風(fēng)險( 知己)。
第3 個是VoiceClassifier 模型是典型的語音識別模型。雖然本范例里,由3 個模型組合起來,與人們競賽。但是它們也可以在商業(yè)環(huán)境里,協(xié)助人類決策者,進行優(yōu)越的商業(yè)決策。
(本文來源于《電子產(chǎn)品世界》雜志2022年12月期)
評論