新聞中心

EEPW首頁 > 智能計(jì)算 > 設(shè)計(jì)應(yīng)用 > 【E問E答】什么是數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)和AI?它們有啥區(qū)別?

【E問E答】什么是數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)和AI?它們有啥區(qū)別?

作者: 時(shí)間:2018-01-23 來源:網(wǎng)絡(luò) 收藏

  當(dāng)我進(jìn)行以數(shù)據(jù)科學(xué)家進(jìn)行自我介紹時(shí),經(jīng)常會(huì)被問道:“數(shù)據(jù)科學(xué)和有什么區(qū)別?”或者“這是不是意味著你在研究人工智能?”所以我將通過本文進(jìn)行回答。

本文引用地址:http://m.butianyuan.cn/article/201801/374798.htm

  這些領(lǐng)域確實(shí)有很多重疊的地方,但它們并不是一個(gè)領(lǐng)域:即使很難用語言表達(dá),這些領(lǐng)域的大多數(shù)專家也都能直觀的理解特定的工作是如何被分類為數(shù)據(jù)科學(xué)、或人工智能的。

  所以在這篇文章中,我提出了關(guān)于這三個(gè)領(lǐng)域差異的簡化定義:

  ·數(shù)據(jù)科學(xué)產(chǎn)生洞察力。

  ·做出預(yù)測。

  ·人工智能生成行為。

  顯然,這不是一個(gè)充分條件:不是所有符合該定義的東西都是該領(lǐng)域的一部分。(算命先生做出預(yù)言,但我們不會(huì)說他們在做機(jī)器學(xué)習(xí)!)這也不是一個(gè)確定某人角色或者職位頭銜的好方法(我是數(shù)據(jù)科學(xué)家嗎?)。

  但是我認(rèn)為這個(gè)定義對區(qū)分這三種工作是非常有效方法,并且可以避免你談?wù)撍臅r(shí)候聽起來很傻。

  數(shù)據(jù)科學(xué)生成洞察力

  數(shù)據(jù)科學(xué)與其他兩個(gè)領(lǐng)域非常不同,因?yàn)樗哪繕?biāo)同時(shí)也是人類的一個(gè)目標(biāo):獲得洞察力和理解能力。Jeff Leek對數(shù)據(jù)科學(xué)能夠達(dá)到的洞察類型有一個(gè)很好的定義,包括描述性(“平均客戶端更新的幾率為70%”)探索性(不同的銷售人員有不同的更新率)和因果關(guān)系。

  同樣,并不是所有產(chǎn)生洞察力的都有資格成為數(shù)據(jù)科學(xué),數(shù)據(jù)科學(xué)的經(jīng)典定義是它涉及了統(tǒng)計(jì)學(xué),軟件工程和領(lǐng)域?qū)I(yè)知識的組合。但是我們可以利用這個(gè)定義來區(qū)分它和ML、。它們最主要的區(qū)別在于,在數(shù)據(jù)科學(xué)循環(huán)過程中總需要人參與:由人理解洞察結(jié)果,了解大體輪廓,或者從結(jié)論中獲益。所以像“下棋算法使用數(shù)據(jù)科學(xué)來選擇下一步”或者“谷歌地圖使用數(shù)據(jù)科學(xué)來推薦駕駛方向”這些說法都是毫無意義的。

  因此,數(shù)據(jù)科學(xué)的定義強(qiáng)調(diào):

  ·統(tǒng)計(jì)推斷

  ·數(shù)據(jù)可視化

  ·實(shí)驗(yàn)設(shè)計(jì)

  ·領(lǐng)域知識

  ·通訊

  數(shù)據(jù)科學(xué)家可以使用一些非常簡單的工具:他們可以獲得百分比,并根據(jù)SQL查詢結(jié)果繪制線形圖。也可以使用非常復(fù)雜的方法:他們能夠與分散的數(shù)據(jù)倉庫合作,分析數(shù)以萬億計(jì)的記錄,從而開發(fā)最前沿的統(tǒng)計(jì)技術(shù),建立交互式可視化。但是不管他們使用什么,目的都是為了更好地理解他們的數(shù)據(jù)。

  機(jī)器學(xué)習(xí)做出預(yù)測

  我認(rèn)為機(jī)器學(xué)習(xí)屬于預(yù)測領(lǐng)域:“給出具有特定特征的實(shí)例X,推測Y”。這些預(yù)測可能是關(guān)于未來的(預(yù)測這個(gè)病人是否會(huì)進(jìn)入敗血癥),也可能是關(guān)于預(yù)測對計(jì)算機(jī)來說不那么明顯的特性(預(yù)測這個(gè)圖像是否會(huì)有鳥)。幾乎所有的Kaggle競賽都可以被認(rèn)為是機(jī)器學(xué)習(xí)相關(guān)的問題:他們提供一些訓(xùn)練數(shù)據(jù),然后看看競賽者能否對新的例子做出準(zhǔn)確的預(yù)測。

  數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)有很多的重疊之處。例如,都可以用邏輯回歸來獲取對有關(guān)關(guān)系的見解(越富裕的人越有可能購買我們的產(chǎn)品,所以我們應(yīng)該改變我們的營銷策略)并且可以做出預(yù)測(該用戶有53%的幾率購買我們的產(chǎn)品,所以我們應(yīng)該多向他們推銷)。

  像隨機(jī)森林(random forests)這樣的模型,其可解釋性稍差,所以更適合“機(jī)器學(xué)習(xí)”的描述,而深度學(xué)習(xí)等方法則是難以解釋的。如果你的目標(biāo)是獲取真知灼見,而不是做出預(yù)測,那么這可能會(huì)妨礙你。因此,我們可以想象一個(gè)數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的“光譜”,有更多的可解釋模型傾向于數(shù)據(jù)科學(xué)方面,而更多的是機(jī)器學(xué)習(xí)方面的“黑匣子”模型。

    

  大多數(shù)的從業(yè)者能夠非常自在的在兩個(gè)領(lǐng)域之間來回切換。我在工作中就同時(shí)使用了機(jī)器學(xué)習(xí)和數(shù)據(jù)學(xué)習(xí):我可以在Stack Overflow流量數(shù)據(jù)上安裝一個(gè)模型,以確定哪些用戶可能正在尋找工作(機(jī)器學(xué)習(xí)),然后構(gòu)建總結(jié)和可視化來檢驗(yàn)?zāi)P偷墓ぷ髟?數(shù)據(jù)科學(xué))。這是發(fā)現(xiàn)模型缺陷的一個(gè)重要方法,也是解決算法偏差的重要方法。這是數(shù)據(jù)科學(xué)家常常負(fù)責(zé)開發(fā)產(chǎn)品的機(jī)器學(xué)習(xí)組件的原因之一。

  人工智能生成行為

  人工智能是迄今為止這三種標(biāo)識中最古老也是最廣為人知的,因此定義它最具有挑戰(zhàn)性。這個(gè)術(shù)語已經(jīng)被炒作泛濫,這要?dú)w功于研究人員,記者以及尋求金錢或者關(guān)注的創(chuàng)業(yè)公司。

  ·當(dāng)你籌備資金時(shí),這是人工智能

  ·當(dāng)你招聘時(shí),就是ML

  ·當(dāng)你正在執(zhí)行時(shí),這就是線性回歸

  ·當(dāng)你調(diào)試時(shí),就是printf()

  讓我沮喪的是這引起了強(qiáng)烈的反彈,因?yàn)檫@意味著一些應(yīng)該被稱為人工智能的工作卻沒有得到相應(yīng)的描述。一些研究人員甚至還抱怨人工智能的影響:“人工智能是我們目前還做不到的”。那么我們可以用來描述什么工作呢?

  “人工智能”定義中的一個(gè)共同點(diǎn)是自主代理人執(zhí)行或推薦操作,一些我認(rèn)為應(yīng)該描述為的系統(tǒng)包括:

  ·游戲規(guī)則(深藍(lán),AlphaGo)

  ·機(jī)器人與控制理論(運(yùn)動(dòng)規(guī)劃,行走兩足機(jī)器人)

  ·優(yōu)化(谷歌地圖選擇路線)

  ·自然語言處理(bots2)

  ·強(qiáng)化學(xué)習(xí)

  同樣,我們可以看到它與其他領(lǐng)域有很多重疊之處。而深度學(xué)習(xí)橫跨了ML和AI兩個(gè)領(lǐng)域,這非常有趣。典型的用例是對數(shù)據(jù)進(jìn)行訓(xùn)練,然后生成預(yù)測,但在AlphaGo這樣的博弈算法中卻取得了巨大的成功。(這與早期的游戲系統(tǒng)不同,比如深藍(lán),它更專注于探索和優(yōu)化未來的解決方案空間)。

  但也有區(qū)別。如果我分析一些銷售數(shù)據(jù)并發(fā)現(xiàn)某個(gè)特定行業(yè)的客戶比其他行業(yè)的客戶更新的更多,那么輸出的是一些數(shù)字和圖形,而不是指定操作。

  請不要將那些訓(xùn)練算法的人描述為“利用了人工智能的力量”。

  - Dave Gershgorn (@davegershgorn) 2017年9月18日。

  人工智能和機(jī)器學(xué)習(xí)之間的區(qū)別更加微妙,歷史上的ML經(jīng)常被認(rèn)為是人工智能的一個(gè)分支(特別是計(jì)算機(jī)視覺,其實(shí)它是一個(gè)典型的人工智能問題)。但我認(rèn)為,ML領(lǐng)域很大程度上是由人工智能“中斷”的,部分原因是上面描述的反彈:大多數(shù)從事預(yù)測問題的人不喜歡把自己描述為人工智能研究員。(它能通過統(tǒng)計(jì)數(shù)據(jù)幫助許多ML實(shí)現(xiàn)重大突破,而這些數(shù)據(jù)在人工智能的其他領(lǐng)域卻沒有那么大的影響力)。這意味著如果你可以用“Y預(yù)測X”來描述一個(gè)問題,那么我建議你避免使用AI這個(gè)詞。

  案例研究:如何一起使用這三者?

  假設(shè)我們正在制造一輛自動(dòng)駕駛汽車,并且正在研究如何在停車標(biāo)記處自動(dòng)停車的具體問題。那么我們將需要使用這三個(gè)領(lǐng)域的技能。

  機(jī)器學(xué)習(xí):汽車必須能夠通過攝像頭識別停車標(biāo)志。我們構(gòu)建了數(shù)據(jù)集,其中包含數(shù)以百萬計(jì)的街邊對象的照片,并訓(xùn)練一種算法來預(yù)測哪些有停止標(biāo)志。

  人工智能:一旦我們的汽車能夠識別停車標(biāo)志了,就需要決定什么時(shí)候執(zhí)行剎車動(dòng)作。太早太晚都非常危險(xiǎn),而且我們需要它能應(yīng)對不同的路況(例如,它要能意識到在濕滑路面上剎車不會(huì)快速減速),這是一個(gè)控制理論的問題。

  數(shù)據(jù)科學(xué):在街頭測試中,我們發(fā)現(xiàn)車輛性能不夠好,因?yàn)榭倳?huì)略過一些停車標(biāo)志。通過對街頭測試數(shù)據(jù)的分析,我們得出了結(jié)論:在日出之前和日落之后,更容易錯(cuò)過停車標(biāo)志。這讓我們意識到,我們大部分的訓(xùn)練數(shù)據(jù)只包含白天的影像,所以我們構(gòu)造了一個(gè)包括了夜間圖像的更好的數(shù)據(jù)集,然后重新回到機(jī)器學(xué)習(xí)步驟進(jìn)行研究測試。

  我們常說的“機(jī)器人”指的是解釋自然語言,然后以實(shí)物回應(yīng)的系統(tǒng)。這可以從文本挖掘中區(qū)分出來,其目標(biāo)是提取見解(數(shù)據(jù)科學(xué))或文本分類,其目標(biāo)是對文檔進(jìn)行分類(機(jī)器學(xué)習(xí))。

 



關(guān)鍵詞: 機(jī)器學(xué)習(xí) AI

評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉