隨機(jī)過(guò)程在數(shù)據(jù)科學(xué)和深度學(xué)習(xí)中有哪些應(yīng)用?
“The only simple truth is that there is nothing simple in this complex universe. Everything relates. Everything connects”— Johnny Rich, The Human Script
本文引用地址:http://m.butianyuan.cn/article/201908/403911.htm介紹
機(jī)器學(xué)習(xí)的主要應(yīng)用之一是對(duì)隨機(jī)過(guò)程建模。機(jī)器學(xué)習(xí)中一些隨機(jī)過(guò)程的例子如下:
●泊松過(guò)程:用于處理等待時(shí)間以及隊(duì)列。
●隨機(jī)漫步和布朗運(yùn)動(dòng)過(guò)程:用于交易算法。
●馬爾可夫決策過(guò)程:常用于計(jì)算生物學(xué)和強(qiáng)化學(xué)習(xí)。
●高斯過(guò)程:用于回歸和優(yōu)化問(wèn)題(如,超參數(shù)調(diào)優(yōu)和自動(dòng)機(jī)器學(xué)習(xí))。
●自回歸和移動(dòng)平均過(guò)程:用于時(shí)間序列分析(如,ARIMA模型)。
在本文中,我將簡(jiǎn)要地向你介紹這些隨機(jī)過(guò)程。
歷史背景
隨機(jī)過(guò)程是我們?nèi)粘I畹囊徊糠?。隨機(jī)過(guò)程之所以如此特殊,是因?yàn)殡S機(jī)過(guò)程依賴于模型的初始條件。在上個(gè)世紀(jì),許多數(shù)學(xué)家,如龐加萊,洛倫茲和圖靈都被這個(gè)話題所吸引。
如今,這種行為被稱為確定性混沌,它與真正的隨機(jī)性有著截然不同的范圍界限。
由于愛德華·諾頓·洛倫茲的貢獻(xiàn),混沌系統(tǒng)的研究在1963年取得了突破性進(jìn)展。當(dāng)時(shí),洛倫茲正在研究如何改進(jìn)天氣預(yù)報(bào)。洛倫茲在他的分析中注意到,即使是大氣中的微小擾動(dòng)也能引起氣候變化。
洛倫茲用來(lái)描述這種狀態(tài)的一個(gè)著名的短語(yǔ)是:
“A butterfly flapping its wings in Brazil can produce a tornado in Texas”
(在巴西,一只蝴蝶扇動(dòng)翅膀就能在德克薩斯州制造龍卷風(fēng))
— Edward Norton Lorenz
(愛德華·諾頓·洛倫茲)
這就是為什么今天的混沌理論有時(shí)被稱為“蝴蝶效應(yīng)”。
分形學(xué)
一個(gè)簡(jiǎn)單的混沌系統(tǒng)的例子是分形(如圖所示)。分形是在不同尺度上不斷重復(fù)的一種模式。由于分形的縮放方式,分形不同于其他類型的幾何圖形。
分形是遞歸驅(qū)動(dòng)系統(tǒng),能夠捕獲混沌行為。在現(xiàn)實(shí)生活中,分形的例子有:樹、河、云、貝殼等。
圖1:MC. Escher,Smaller and Smaller[1]
在藝術(shù)領(lǐng)域有很多自相似的圖形。毫無(wú)疑問(wèn), MC. Escher是最著名的藝術(shù)家之一,他的作品靈感來(lái)自數(shù)學(xué)。事實(shí)上,在他的畫中反復(fù)出現(xiàn)各種不可能的物體,如彭羅斯三角形和莫比烏斯帶。在"Smaller and Smaller"中,他也反復(fù)使用了自相似性(圖1)。除了蜥蜴的外環(huán),畫中的內(nèi)部圖案也是自相似性的。每重復(fù)一次,它就包含一個(gè)有一半尺度的復(fù)制圖案。
確定性和隨機(jī)性過(guò)程
有兩種主要的隨機(jī)過(guò)程:確定性和隨機(jī)性。
在確定性過(guò)程中,如果我們知道一系列事件的初始條件(起始點(diǎn)),我們就可以預(yù)測(cè)該序列的下一步。相反,在隨機(jī)過(guò)程中,如果我們知道初始條件,我們不能完全確定接下來(lái)的步驟是什么。這是因?yàn)檫@個(gè)過(guò)程可能會(huì)以許多不同的方式演化。
在確定性過(guò)程中,所有后續(xù)步驟的概率都為1。另一方面,隨機(jī)性隨機(jī)過(guò)程的情況則不然。
任何完全隨機(jī)的東西對(duì)我們都沒有任何用處,除非我們能識(shí)別出其中的模式。在隨機(jī)過(guò)程中,每個(gè)單獨(dú)的事件都是隨機(jī)的,盡管可以識(shí)別出連接這些事件的隱藏模式。這樣,我們的隨機(jī)過(guò)程就被揭開了神秘的面紗,我們就能夠?qū)ξ磥?lái)的事件做出準(zhǔn)確的預(yù)測(cè)。
為了用統(tǒng)計(jì)學(xué)的術(shù)語(yǔ)來(lái)描述隨機(jī)過(guò)程,我們可以給出以下定義:
●觀測(cè)值:一次試驗(yàn)的結(jié)果。
●總體:所有可能的觀測(cè)值,可以記為一個(gè)試驗(yàn)。
●樣本:從獨(dú)立試驗(yàn)中收集的一組結(jié)果。
例如,拋一枚均勻硬幣是一個(gè)隨機(jī)過(guò)程,但由于大數(shù)定律,我們知道,如果進(jìn)行大量的試驗(yàn),我們將得到大約相同數(shù)量的正面和反面。
大數(shù)定律指出:
“隨著樣本規(guī)模的增大,樣本的均值將更接近總體的均值或期望值。因此,當(dāng)樣本容量趨于無(wú)窮時(shí),樣本均值收斂于總體均值。重要的一點(diǎn)是樣本中的觀測(cè)必須是相互獨(dú)立的?!?/p>
--Jason Brownlee
隨機(jī)過(guò)程的例子有股票市場(chǎng)和醫(yī)學(xué)數(shù)據(jù),如血壓和腦電圖分析。
泊松過(guò)程
泊松過(guò)程用于對(duì)一系列離散事件建模,在這些事件中,我們知道不同事件發(fā)生的平均時(shí)間,但我們不知道這些事件確切在何時(shí)發(fā)生。
如果一個(gè)隨機(jī)過(guò)程能夠滿足以下條件,則可以認(rèn)為它屬于泊松過(guò)程:
●事件彼此獨(dú)立(如果一個(gè)事件發(fā)生,并不會(huì)影響另一個(gè)事件發(fā)生的概率)。
●兩個(gè)事件不能同時(shí)發(fā)生。
●事件的平均發(fā)生比率是恒定的。
讓我們以停電為例。電力供應(yīng)商可能會(huì)宣傳平均每10個(gè)月就會(huì)斷電一次,但我們不能準(zhǔn)確地說(shuō)出下一次斷電的時(shí)間。例如,如果發(fā)生了嚴(yán)重問(wèn)題,可能會(huì)連續(xù)停電2-3天(如,讓公司需要對(duì)電源供應(yīng)做一些調(diào)整),以便在接下來(lái)的兩天繼續(xù)使用。
因此,對(duì)于這種類型的隨機(jī)過(guò)程,我們可以相當(dāng)確定事件之間的平均時(shí)間,但它們是在隨機(jī)的間隔時(shí)間內(nèi)發(fā)生的。
由泊松過(guò)程,我們可以得到一個(gè)泊松分布,它可以用來(lái)推導(dǎo)出不同事件發(fā)生之間的等待時(shí)間的概率,或者一個(gè)時(shí)間段內(nèi)可能發(fā)生事件的數(shù)量。
泊松分布可以使用下面的公式來(lái)建模(圖2),其中k表示一個(gè)時(shí)期內(nèi)可能發(fā)生的事件的預(yù)期數(shù)量。
圖2:泊松分布公式[3]
一些可以使用泊松過(guò)程模擬的現(xiàn)象的例子是原子的放射性衰變和股票市場(chǎng)分析。
隨機(jī)漫步和布朗運(yùn)動(dòng)過(guò)程
隨機(jī)漫步是可以在隨機(jī)方向上移動(dòng)的任意離散步的序列(長(zhǎng)度總是相同,圖3)。隨機(jī)漫步可以發(fā)生在任何維度空間中(如:1D,2D,nD)。
圖3:高維空間[4]中的隨機(jī)漫步
現(xiàn)在我將用一維空間(數(shù)軸)向您介紹隨機(jī)漫步,這里解釋的這些概念也適用于更高維度。
我們假設(shè)我們?cè)谝粋€(gè)公園里,我們看到一只狗在尋找食物。它目前在數(shù)軸上的位置為0,它向左或向右移動(dòng)找到食物的概率相等(圖4)。
圖4:數(shù)軸[5]
現(xiàn)在,如果我們想知道在N步之后狗的位置是多少,我們可以再次利用大數(shù)定律。利用這個(gè)定律,我們會(huì)發(fā)現(xiàn)當(dāng)N趨于無(wú)窮時(shí),我們的狗可能會(huì)回到它的起點(diǎn)。無(wú)論如何,此時(shí)這種情況并沒有多大用處。
因此,我們可以嘗試使用均方根(RMS)作為距離度量(首先對(duì)所有值求平方,然后計(jì)算它們的平均值,最后對(duì)結(jié)果求平方根)。這樣,所有的負(fù)數(shù)都變成正數(shù),平均值不再等于零。
在這個(gè)例子中,使用RMS我們會(huì)發(fā)現(xiàn),如果我們的狗走了100步,它平均會(huì)從原點(diǎn)移動(dòng)10步(√100=10)。
如前面所述,隨機(jī)漫步用于描述離散時(shí)間過(guò)程。相反,布朗運(yùn)動(dòng)可以用來(lái)描述連續(xù)時(shí)間的隨機(jī)漫步。
評(píng)論