隨機(jī)過程在數(shù)據(jù)科學(xué)和深度學(xué)習(xí)中有哪些應(yīng)用？

作者：雷鋒字幕組時間：2019-08-20 來源：雷鋒網(wǎng)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

編者按：機(jī)器學(xué)習(xí)的主要應(yīng)用之一是對隨機(jī)過程建模。

“The only simple truth is that there is nothing simple in this complex universe. Everything relates. Everything connects”— Johnny Rich, The Human Script

本文引用地址：http://m.butianyuan.cn/article/201908/403911.htm

介紹

機(jī)器學(xué)習(xí)的主要應(yīng)用之一是對隨機(jī)過程建模。機(jī)器學(xué)習(xí)中一些隨機(jī)過程的例子如下:

●泊松過程：用于處理等待時間以及隊列。

●隨機(jī)漫步和布朗運(yùn)動過程：用于交易算法。

●馬爾可夫決策過程：常用于計算生物學(xué)和強(qiáng)化學(xué)習(xí)。

●高斯過程：用于回歸和優(yōu)化問題（如，超參數(shù)調(diào)優(yōu)和自動機(jī)器學(xué)習(xí)）。

●自回歸和移動平均過程：用于時間序列分析(如,ARIMA模型)。

在本文中，我將簡要地向你介紹這些隨機(jī)過程。

歷史背景

隨機(jī)過程是我們?nèi)粘Ｉ畹囊徊糠帧ｋS機(jī)過程之所以如此特殊，是因為隨機(jī)過程依賴于模型的初始條件。在上個世紀(jì)，許多數(shù)學(xué)家，如龐加萊，洛倫茲和圖靈都被這個話題所吸引。

如今，這種行為被稱為確定性混沌，它與真正的隨機(jī)性有著截然不同的范圍界限。

由于愛德華·諾頓·洛倫茲的貢獻(xiàn)，混沌系統(tǒng)的研究在1963年取得了突破性進(jìn)展。當(dāng)時，洛倫茲正在研究如何改進(jìn)天氣預(yù)報。洛倫茲在他的分析中注意到，即使是大氣中的微小擾動也能引起氣候變化。

洛倫茲用來描述這種狀態(tài)的一個著名的短語是：

“A butterfly flapping its wings in Brazil can produce a tornado in Texas”
（在巴西，一只蝴蝶扇動翅膀就能在德克薩斯州制造龍卷風(fēng)）
— Edward Norton Lorenz
（愛德華·諾頓·洛倫茲）

這就是為什么今天的混沌理論有時被稱為“蝴蝶效應(yīng)”。

分形學(xué)

一個簡單的混沌系統(tǒng)的例子是分形（如圖所示）。分形是在不同尺度上不斷重復(fù)的一種模式。由于分形的縮放方式，分形不同于其他類型的幾何圖形。

分形是遞歸驅(qū)動系統(tǒng)，能夠捕獲混沌行為。在現(xiàn)實生活中，分形的例子有:樹、河、云、貝殼等。

圖1：MC. Escher，Smaller and Smaller^[1]

在藝術(shù)領(lǐng)域有很多自相似的圖形。毫無疑問， MC. Escher是最著名的藝術(shù)家之一，他的作品靈感來自數(shù)學(xué)。事實上，在他的畫中反復(fù)出現(xiàn)各種不可能的物體，如彭羅斯三角形和莫比烏斯帶。在"Smaller and Smaller"中，他也反復(fù)使用了自相似性（圖1）。除了蜥蜴的外環(huán)，畫中的內(nèi)部圖案也是自相似性的。每重復(fù)一次，它就包含一個有一半尺度的復(fù)制圖案。

確定性和隨機(jī)性過程

有兩種主要的隨機(jī)過程：確定性和隨機(jī)性。

在確定性過程中，如果我們知道一系列事件的初始條件（起始點(diǎn)），我們就可以預(yù)測該序列的下一步。相反，在隨機(jī)過程中，如果我們知道初始條件，我們不能完全確定接下來的步驟是什么。這是因為這個過程可能會以許多不同的方式演化。

在確定性過程中，所有后續(xù)步驟的概率都為1。另一方面，隨機(jī)性隨機(jī)過程的情況則不然。

任何完全隨機(jī)的東西對我們都沒有任何用處，除非我們能識別出其中的模式。在隨機(jī)過程中，每個單獨(dú)的事件都是隨機(jī)的，盡管可以識別出連接這些事件的隱藏模式。這樣，我們的隨機(jī)過程就被揭開了神秘的面紗，我們就能夠?qū)ξ磥淼氖录龀鰷?zhǔn)確的預(yù)測。

為了用統(tǒng)計學(xué)的術(shù)語來描述隨機(jī)過程，我們可以給出以下定義：

●觀測值：一次試驗的結(jié)果。

●總體：所有可能的觀測值，可以記為一個試驗。

●樣本：從獨(dú)立試驗中收集的一組結(jié)果。

例如，拋一枚均勻硬幣是一個隨機(jī)過程，但由于大數(shù)定律，我們知道，如果進(jìn)行大量的試驗，我們將得到大約相同數(shù)量的正面和反面。

大數(shù)定律指出：

“隨著樣本規(guī)模的增大，樣本的均值將更接近總體的均值或期望值。因此，當(dāng)樣本容量趨于無窮時，樣本均值收斂于總體均值。重要的一點(diǎn)是樣本中的觀測必須是相互獨(dú)立的?！?/p>
--Jason Brownlee

隨機(jī)過程的例子有股票市場和醫(yī)學(xué)數(shù)據(jù)，如血壓和腦電圖分析。

泊松過程

泊松過程用于對一系列離散事件建模，在這些事件中，我們知道不同事件發(fā)生的平均時間，但我們不知道這些事件確切在何時發(fā)生。

如果一個隨機(jī)過程能夠滿足以下條件，則可以認(rèn)為它屬于泊松過程：

●事件彼此獨(dú)立（如果一個事件發(fā)生，并不會影響另一個事件發(fā)生的概率）。

●兩個事件不能同時發(fā)生。

●事件的平均發(fā)生比率是恒定的。

讓我們以停電為例。電力供應(yīng)商可能會宣傳平均每10個月就會斷電一次，但我們不能準(zhǔn)確地說出下一次斷電的時間。例如，如果發(fā)生了嚴(yán)重問題，可能會連續(xù)停電2-3天（如，讓公司需要對電源供應(yīng)做一些調(diào)整），以便在接下來的兩天繼續(xù)使用。

因此，對于這種類型的隨機(jī)過程，我們可以相當(dāng)確定事件之間的平均時間，但它們是在隨機(jī)的間隔時間內(nèi)發(fā)生的。

由泊松過程，我們可以得到一個泊松分布，它可以用來推導(dǎo)出不同事件發(fā)生之間的等待時間的概率，或者一個時間段內(nèi)可能發(fā)生事件的數(shù)量。

泊松分布可以使用下面的公式來建模（圖2），其中k表示一個時期內(nèi)可能發(fā)生的事件的預(yù)期數(shù)量。