【E問E答】什么是數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)和AI?它們有啥區(qū)別?
當(dāng)我進(jìn)行以數(shù)據(jù)科學(xué)家進(jìn)行自我介紹時(shí),經(jīng)常會(huì)被問道:“數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)有什么區(qū)別?”或者“這是不是意味著你在研究人工智能?”所以我將通過本文進(jìn)行回答。
本文引用地址:http://m.butianyuan.cn/article/201801/374798.htm這些領(lǐng)域確實(shí)有很多重疊的地方,但它們并不是一個(gè)領(lǐng)域:即使很難用語言表達(dá),這些領(lǐng)域的大多數(shù)專家也都能直觀的理解特定的工作是如何被分類為數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)或人工智能的。
所以在這篇文章中,我提出了關(guān)于這三個(gè)領(lǐng)域差異的簡化定義:
·數(shù)據(jù)科學(xué)產(chǎn)生洞察力。
·機(jī)器學(xué)習(xí)做出預(yù)測。
·人工智能生成行為。
顯然,這不是一個(gè)充分條件:不是所有符合該定義的東西都是該領(lǐng)域的一部分。(算命先生做出預(yù)言,但我們不會(huì)說他們在做機(jī)器學(xué)習(xí)!)這也不是一個(gè)確定某人角色或者職位頭銜的好方法(我是數(shù)據(jù)科學(xué)家嗎?)。
但是我認(rèn)為這個(gè)定義對區(qū)分這三種工作是非常有效方法,并且可以避免你談?wù)撍臅r(shí)候聽起來很傻。
數(shù)據(jù)科學(xué)生成洞察力
數(shù)據(jù)科學(xué)與其他兩個(gè)領(lǐng)域非常不同,因?yàn)樗哪繕?biāo)同時(shí)也是人類的一個(gè)目標(biāo):獲得洞察力和理解能力。Jeff Leek對數(shù)據(jù)科學(xué)能夠達(dá)到的洞察類型有一個(gè)很好的定義,包括描述性(“平均客戶端更新的幾率為70%”)探索性(不同的銷售人員有不同的更新率)和因果關(guān)系。
同樣,并不是所有產(chǎn)生洞察力的都有資格成為數(shù)據(jù)科學(xué),數(shù)據(jù)科學(xué)的經(jīng)典定義是它涉及了統(tǒng)計(jì)學(xué),軟件工程和領(lǐng)域?qū)I(yè)知識的組合。但是我們可以利用這個(gè)定義來區(qū)分它和ML、AI。它們最主要的區(qū)別在于,在數(shù)據(jù)科學(xué)循環(huán)過程中總需要人參與:由人理解洞察結(jié)果,了解大體輪廓,或者從結(jié)論中獲益。所以像“下棋算法使用數(shù)據(jù)科學(xué)來選擇下一步”或者“谷歌地圖使用數(shù)據(jù)科學(xué)來推薦駕駛方向”這些說法都是毫無意義的。
因此,數(shù)據(jù)科學(xué)的定義強(qiáng)調(diào):
·統(tǒng)計(jì)推斷
·數(shù)據(jù)可視化
·實(shí)驗(yàn)設(shè)計(jì)
·領(lǐng)域知識
·通訊
數(shù)據(jù)科學(xué)家可以使用一些非常簡單的工具:他們可以獲得百分比,并根據(jù)SQL查詢結(jié)果繪制線形圖。也可以使用非常復(fù)雜的方法:他們能夠與分散的數(shù)據(jù)倉庫合作,分析數(shù)以萬億計(jì)的記錄,從而開發(fā)最前沿的統(tǒng)計(jì)技術(shù),建立交互式可視化。但是不管他們使用什么,目的都是為了更好地理解他們的數(shù)據(jù)。
機(jī)器學(xué)習(xí)做出預(yù)測
我認(rèn)為機(jī)器學(xué)習(xí)屬于預(yù)測領(lǐng)域:“給出具有特定特征的實(shí)例X,推測Y”。這些預(yù)測可能是關(guān)于未來的(預(yù)測這個(gè)病人是否會(huì)進(jìn)入敗血癥),也可能是關(guān)于預(yù)測對計(jì)算機(jī)來說不那么明顯的特性(預(yù)測這個(gè)圖像是否會(huì)有鳥)。幾乎所有的Kaggle競賽都可以被認(rèn)為是機(jī)器學(xué)習(xí)相關(guān)的問題:他們提供一些訓(xùn)練數(shù)據(jù),然后看看競賽者能否對新的例子做出準(zhǔn)確的預(yù)測。
數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)有很多的重疊之處。例如,都可以用邏輯回歸來獲取對有關(guān)關(guān)系的見解(越富裕的人越有可能購買我們的產(chǎn)品,所以我們應(yīng)該改變我們的營銷策略)并且可以做出預(yù)測(該用戶有53%的幾率購買我們的產(chǎn)品,所以我們應(yīng)該多向他們推銷)。
像隨機(jī)森林(random forests)這樣的模型,其可解釋性稍差,所以更適合“機(jī)器學(xué)習(xí)”的描述,而深度學(xué)習(xí)等方法則是難以解釋的。如果你的目標(biāo)是獲取真知灼見,而不是做出預(yù)測,那么這可能會(huì)妨礙你。因此,我們可以想象一個(gè)數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的“光譜”,有更多的可解釋模型傾向于數(shù)據(jù)科學(xué)方面,而更多的是機(jī)器學(xué)習(xí)方面的“黑匣子”模型。
大多數(shù)的從業(yè)者能夠非常自在的在兩個(gè)領(lǐng)域之間來回切換。我在工作中就同時(shí)使用了機(jī)器學(xué)習(xí)和數(shù)據(jù)學(xué)習(xí):我可以在Stack Overflow流量數(shù)據(jù)上安裝一個(gè)模型,以確定哪些用戶可能正在尋找工作(機(jī)器學(xué)習(xí)),然后構(gòu)建總結(jié)和可視化來檢驗(yàn)?zāi)P偷墓ぷ髟?數(shù)據(jù)科學(xué))。這是發(fā)現(xiàn)模型缺陷的一個(gè)重要方法,也是解決算法偏差的重要方法。這是數(shù)據(jù)科學(xué)家常常負(fù)責(zé)開發(fā)產(chǎn)品的機(jī)器學(xué)習(xí)組件的原因之一。
人工智能生成行為
人工智能是迄今為止這三種標(biāo)識中最古老也是最廣為人知的,因此定義它最具有挑戰(zhàn)性。這個(gè)術(shù)語已經(jīng)被炒作泛濫,這要?dú)w功于研究人員,記者以及尋求金錢或者關(guān)注的創(chuàng)業(yè)公司。
·當(dāng)你籌備資金時(shí),這是人工智能
·當(dāng)你招聘時(shí),就是ML
·當(dāng)你正在執(zhí)行時(shí),這就是線性回歸
·當(dāng)你調(diào)試時(shí),就是printf()
讓我沮喪的是這引起了強(qiáng)烈的反彈,因?yàn)檫@意味著一些應(yīng)該被稱為人工智能的工作卻沒有得到相應(yīng)的描述。一些研究人員甚至還抱怨人工智能的影響:“人工智能是我們目前還做不到的”。那么我們可以用AI來描述什么工作呢?
“人工智能”定義中的一個(gè)共同點(diǎn)是自主代理人執(zhí)行或推薦操作,一些我認(rèn)為應(yīng)該描述為AI的系統(tǒng)包括:
·游戲規(guī)則(深藍(lán),AlphaGo)
·機(jī)器人與控制理論(運(yùn)動(dòng)規(guī)劃,行走兩足機(jī)器人)
·優(yōu)化(谷歌地圖選擇路線)
·自然語言處理(bots2)
·強(qiáng)化學(xué)習(xí)
同樣,我們可以看到它與其他領(lǐng)域有很多重疊之處。而深度學(xué)習(xí)橫跨了ML和AI兩個(gè)領(lǐng)域,這非常有趣。典型的用例是對數(shù)據(jù)進(jìn)行訓(xùn)練,然后生成預(yù)測,但在AlphaGo這樣的博弈算法中卻取得了巨大的成功。(這與早期的游戲系統(tǒng)不同,比如深藍(lán),它更專注于探索和優(yōu)化未來的解決方案空間)。
但也有區(qū)別。如果我分析一些銷售數(shù)據(jù)并發(fā)現(xiàn)某個(gè)特定行業(yè)的客戶比其他行業(yè)的客戶更新的更多,那么輸出的是一些數(shù)字和圖形,而不是指定操作。
請不要將那些訓(xùn)練算法的人描述為“利用了人工智能的力量”。
- Dave Gershgorn (@davegershgorn) 2017年9月18日。
人工智能和機(jī)器學(xué)習(xí)之間的區(qū)別更加微妙,歷史上的ML經(jīng)常被認(rèn)為是人工智能的一個(gè)分支(特別是計(jì)算機(jī)視覺,其實(shí)它是一個(gè)典型的人工智能問題)。但我認(rèn)為,ML領(lǐng)域很大程度上是由人工智能“中斷”的,部分原因是上面描述的反彈:大多數(shù)從事預(yù)測問題的人不喜歡把自己描述為人工智能研究員。(它能通過統(tǒng)計(jì)數(shù)據(jù)幫助許多ML實(shí)現(xiàn)重大突破,而這些數(shù)據(jù)在人工智能的其他領(lǐng)域卻沒有那么大的影響力)。這意味著如果你可以用“Y預(yù)測X”來描述一個(gè)問題,那么我建議你避免使用AI這個(gè)詞。
案例研究:如何一起使用這三者?
假設(shè)我們正在制造一輛自動(dòng)駕駛汽車,并且正在研究如何在停車標(biāo)記處自動(dòng)停車的具體問題。那么我們將需要使用這三個(gè)領(lǐng)域的技能。
機(jī)器學(xué)習(xí):汽車必須能夠通過攝像頭識別停車標(biāo)志。我們構(gòu)建了數(shù)據(jù)集,其中包含數(shù)以百萬計(jì)的街邊對象的照片,并訓(xùn)練一種算法來預(yù)測哪些有停止標(biāo)志。
人工智能:一旦我們的汽車能夠識別停車標(biāo)志了,就需要決定什么時(shí)候執(zhí)行剎車動(dòng)作。太早太晚都非常危險(xiǎn),而且我們需要它能應(yīng)對不同的路況(例如,它要能意識到在濕滑路面上剎車不會(huì)快速減速),這是一個(gè)控制理論的問題。
數(shù)據(jù)科學(xué):在街頭測試中,我們發(fā)現(xiàn)車輛性能不夠好,因?yàn)榭倳?huì)略過一些停車標(biāo)志。通過對街頭測試數(shù)據(jù)的分析,我們得出了結(jié)論:在日出之前和日落之后,更容易錯(cuò)過停車標(biāo)志。這讓我們意識到,我們大部分的訓(xùn)練數(shù)據(jù)只包含白天的影像,所以我們構(gòu)造了一個(gè)包括了夜間圖像的更好的數(shù)據(jù)集,然后重新回到機(jī)器學(xué)習(xí)步驟進(jìn)行研究測試。
我們常說的“機(jī)器人”指的是解釋自然語言,然后以實(shí)物回應(yīng)的系統(tǒng)。這可以從文本挖掘中區(qū)分出來,其目標(biāo)是提取見解(數(shù)據(jù)科學(xué))或文本分類,其目標(biāo)是對文檔進(jìn)行分類(機(jī)器學(xué)習(xí))。
評論