基于黑板的多Agent智能決策支持系統(tǒng)的Agent實現(xiàn)

作者：時間：2009-08-26 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

如果τ(r)=φ(假設(shè)由一個動作作為結(jié)束)，則不可能存在對的后繼狀態(tài)。在這種情況下，就說系統(tǒng)結(jié)束執(zhí)行。同時，假設(shè)所有執(zhí)行都最終會結(jié)束。形式上，環(huán)境Env是一個3元組Env=E，e0，τ>，其中E提供環(huán)境狀態(tài)的集合，e0∈E是初始狀態(tài)，τ是狀態(tài)轉(zhuǎn)移函數(shù)。把Agent的模型表示成一個函數(shù)，將一次執(zhí)行(假設(shè)以環(huán)境狀態(tài)為結(jié)束)映射到動作：

本文引用地址：http://m.butianyuan.cn/article/188711.htm

Ag:RE-AC
因此，Agent根據(jù)系統(tǒng)到當(dāng)前為止的歷史決定執(zhí)行具體的動作。
系統(tǒng)是Agent和環(huán)境構(gòu)成的對。任何系統(tǒng)都有與之相關(guān)的可能的執(zhí)行集合：用R(Ag,Env)表示Agent在環(huán)境Env中的執(zhí)行的集合。假設(shè)R(Ag，Env)只包含可以結(jié)束的執(zhí)行，即執(zhí)行r不存在可能的后繼狀態(tài)：τ(r)=φ(這里不考慮無限的執(zhí)行)。形式上，序列：(e0,a0,el，al,e2，…)。表示Agent Ag在環(huán)境Envr=E，e0，τ>中的一次執(zhí)行，如果：e0是Env的初始狀態(tài)；a0=Ag(e0)；對于u>0，那么：eu∈τ((e0,a0，…au一1))其中：au=Ag((e0,a0，…eu))
3．2 Agent的行為描述
構(gòu)造Agent最主要的目的是為了決策，其決策過程是一個感知到動作的過程。把Agent的決策函數(shù)分解成感知函數(shù)see和動作函數(shù)action。Agent具有內(nèi)部狀態(tài)，設(shè)I是Agent的所有內(nèi)部狀態(tài)的集合，Per為(非空)的感知集合，Agent的決策過程基于這種信息，感知函數(shù)see實現(xiàn)從外部環(huán)境狀態(tài)到感知的映射：see：E→Per。動作選擇函數(shù)action定義為從內(nèi)部狀態(tài)到動作的映射：action：I→Ac。引入一個附加函數(shù)next，實現(xiàn)從內(nèi)部狀態(tài)和感知到內(nèi)部狀態(tài)的映射：next：IxPer→I。因此，Agent行為可描述為：Agent從某個初始內(nèi)部狀態(tài)i0開始，觀察環(huán)境狀態(tài)e，產(chǎn)生一個感知see(e)，然后通過next函數(shù)更新Agent的內(nèi)部狀態(tài)，變成next(i0,see(e))。Agent通過action(next(i0,see(e)))選擇動作。執(zhí)行這個動作使Agent進(jìn)入另一個循環(huán)，繼續(xù)通過see感知外部世界，通過next更新狀態(tài)，通過action選擇動作執(zhí)行。其過程如圖2所示。

3．3 Agent的行為建模
Agent行為中的認(rèn)知過程包括狀態(tài)評估、決策制定、規(guī)劃、學(xué)習(xí)等。Agent行為建模就是對認(rèn)知處理所包含的幾個認(rèn)知過程進(jìn)行建模。其中決策制定是核心過程。決策制定是從多個方法中選擇具有最優(yōu)效用的方法并執(zhí)行的過程?？梢杂眯в美碚搧砗饬糠桨傅膬?yōu)劣。
根據(jù)效用理論，假設(shè)有m個可選方案，在當(dāng)前的狀態(tài)下，采用的決策方案為Ai，產(chǎn)生的可能狀態(tài)為Sj，每一狀態(tài)的效用值是U(Sj)，概率是Pj，則該決策的期望效用值為：

比較每個方案的不同期望效用，其中期望效用值最大的方案即為當(dāng)前的最佳決策A，即：

例如，有3種可選擇方法，2種狀態(tài)的決策問題，狀態(tài)空間用(ω1，ω2)表示，可選方案為A1，A2，A3，效用函數(shù)如表1所示。

從表1可知，當(dāng)前處于狀態(tài)ω1時，A3是最好的選擇；當(dāng)前狀態(tài)處于ω2時，A1是最優(yōu)選擇。當(dāng)這兩種狀態(tài)分別以一定的概率p1，p2出現(xiàn)時，記p=p1，則p2=1-P。由式(1)和式(2)可得：

在概率不能確定情況下，根據(jù)式(3)判斷概率的大致范圍。如對Al最優(yōu)的p應(yīng)滿足：5―3p≥4+2P，5―3P≥3+5p。則有p≤1／5。類似的可計算A2，A3最優(yōu)對應(yīng)的概率范圍分別為1／5≤p≤1／3，p≥1／3。在能夠判斷決策范圍的情況下，就可以據(jù)此對各方法進(jìn)行分析，簡化決策。當(dāng)影響效用值的因素不止一個時，就需要采用適當(dāng)?shù)姆椒ㄓ嬎阈в弥?，在各屬性滿足互斥條件，即各自產(chǎn)生的效用值互相獨立時，可以采用加法的形式計算效用值。有時候，方法的選擇需要體現(xiàn)靈活性和可變性，這時可以通過引入相關(guān)的隨機變量建立隨機效用模型來計算效用值，從而使決策結(jié)果更符合實際情況。

4 結(jié)語
采用的基于黑板的多Agent智能決策 支持系統(tǒng)模型．每個Agent本身具有自治性，Agent之間通過黑板進(jìn)行信息共享，利用黑板中的信息決定自身行為，協(xié)同完成復(fù)雜問題地求解。由于Agent自身具有不確定性，對多Agent系統(tǒng)需要解決Agent之間的有效協(xié)調(diào)，因此建立統(tǒng)一的協(xié)調(diào)機制，使Agent之間可以有效地相互協(xié)調(diào)工作，提高系統(tǒng)整體性能。實際應(yīng)用中還有待于進(jìn)一步完善。

新聞中心

基于黑板的多Agent智能決策支持系統(tǒng)的Agent實現(xiàn)

評論

相關(guān)推薦

技術(shù)專區(qū)