你可能對(duì)人工智能有什么誤解：人力勞動(dòng)只是轉(zhuǎn)移了

作者：時(shí)間：2018-07-17 來(lái)源：鎂客網(wǎng)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

編者按：最需要AI去做的事情，AI反而無(wú)能無(wú)力，而我們?yōu)榱四茏孉I取代勞動(dòng)密集型的工作，得先為AI服務(wù)，付出密集、辛勤的勞動(dòng)，這讓數(shù)據(jù)標(biāo)注工作看上去有點(diǎn)賽博朋克、反烏托邦的“魔幻”感覺(jué)。

　　一雙眼睛的局部細(xì)節(jié)圖出現(xiàn)在電腦屏幕上，小慧對(duì)著放大的眼睛，一步步地做好標(biāo)記點(diǎn)。

本文引用地址：http://m.butianyuan.cn/article/201807/383363.htm

　　一眼望過(guò)去，一排排的電腦屏幕上，都是類似的畫面。也許是因?yàn)榇昂煹恼诠庑Ч?，略顯昏暗的辦公環(huán)境加上電腦屏幕上被放大的各種物體細(xì)節(jié)，頗為驚悚。

　　在某人工智能研究院看到這一幕，不覺(jué)驚嘆即使是頭部的AI創(chuàng)業(yè)公司，最關(guān)鍵的一環(huán)依然是從數(shù)據(jù)標(biāo)注員開始的。

　　而這是一群被稱作第一批被AI累死的人。

　　AI的老師：畫框的這些人

　　伴隨著AI興起的最關(guān)鍵的技術(shù)莫過(guò)于深度學(xué)習(xí)，作為深度學(xué)習(xí)的基礎(chǔ)，神經(jīng)網(wǎng)絡(luò)是一種以輸入為導(dǎo)向的算法，其結(jié)果的準(zhǔn)確性取決于接近“無(wú)窮”量級(jí)的數(shù)據(jù)。

　　所以摒除那些復(fù)雜的中間環(huán)節(jié)，深度學(xué)習(xí)最關(guān)鍵的就是需要大量的數(shù)據(jù)訓(xùn)練，這也是為什么在互聯(lián)網(wǎng)大數(shù)據(jù)的時(shí)代，AI可以崛起。而在數(shù)據(jù)訓(xùn)練之前，又必須先對(duì)大量的數(shù)據(jù)進(jìn)行標(biāo)注，作為機(jī)器學(xué)習(xí)的先導(dǎo)經(jīng)驗(yàn)。

　　因此，催生了大量數(shù)據(jù)標(biāo)注員的產(chǎn)生。

　　簡(jiǎn)單的說(shuō)，數(shù)據(jù)標(biāo)注員類似于AI的老師，舉個(gè)形象的例子，我們要教機(jī)器認(rèn)識(shí)一個(gè)蘋果，你直接給它一張?zhí)O果的圖片，它是完全不理解的。我們得先有蘋果的圖片，然后在上面標(biāo)注著“蘋果”兩個(gè)字，機(jī)器通過(guò)學(xué)習(xí)了大量的圖片中的特征，這時(shí)候再給它任意一張?zhí)O果的圖片，它就能認(rèn)出來(lái)了。

　　據(jù)了解，目前標(biāo)注員的工作內(nèi)容常見的有拉框標(biāo)點(diǎn)、打標(biāo)簽、分割、批注等等。其中分類就是最常見的打標(biāo)簽，比如標(biāo)注畫面上動(dòng)物毛發(fā)顏色、動(dòng)物耳朵等等;框選是將畫面中相對(duì)應(yīng)的對(duì)象標(biāo)框標(biāo)注;還有一種是描點(diǎn)標(biāo)注，一般用于更細(xì)致的人臉標(biāo)注：需要在眉毛、眼睛、鼻子、嘴巴等關(guān)鍵點(diǎn)做二十多個(gè)標(biāo)記點(diǎn)。

　　從他們的基本工作內(nèi)容就可以看出來(lái)，數(shù)據(jù)標(biāo)注是個(gè)非?？菰锒挚简?yàn)人耐力的工作，并且相比較AI所代表的高科技，標(biāo)注看起來(lái)毫無(wú)技術(shù)含量。

　　一條產(chǎn)業(yè)鏈的開始

　　但巧婦難為無(wú)米之炊，AI算法的訓(xùn)練離不開這些大量的數(shù)據(jù)標(biāo)注，與之相伴生的數(shù)據(jù)標(biāo)注外包業(yè)務(wù)也成了熱門的產(chǎn)業(yè)。

　　在IT桔子的大數(shù)據(jù)標(biāo)注公司專輯中，一共收納了6家，其中，有5家都在2017年到2018年這個(gè)時(shí)間周期內(nèi)獲得千萬(wàn)的融資：

　　2017年7月，BasicFinder完成1000萬(wàn)人民幣Pre-A輪融資;

　　2017年11月，龍貓數(shù)據(jù)獲得A輪3370萬(wàn)人民幣融資;

　　2018年1月，星塵數(shù)據(jù)獲得1000萬(wàn)人民幣Pre-A輪融資;

　　2018年3月，愛(ài)數(shù)智慧獲得A輪融資;

　　2018年5月，周同科技完成2000萬(wàn)人民幣A輪融資。

　　同時(shí)，他們業(yè)務(wù)方向也有一定細(xì)分區(qū)別，有的以處理圖像見長(zhǎng)，有的數(shù)據(jù)標(biāo)注公司更擅長(zhǎng)做一些視頻標(biāo)注。而這些公司的服務(wù)企業(yè)有百度、小米、京東、今日頭條這樣的互聯(lián)網(wǎng)公司，也有出門問(wèn)問(wèn)、云從、深鑒等AI公司。

　　另外，像京東、百度、騰訊、阿里其實(shí)都有自己的標(biāo)注平臺(tái)和工具。

　　而在國(guó)外方面，亞馬遜有推出眾包數(shù)據(jù)平臺(tái)Amazon Mechanical Turk，初創(chuàng)公司方面則有CrowdFlower、Mighty AI等。

　　這些已經(jīng)算是這個(gè)領(lǐng)域的佼佼者了，在他們的下面，還有成百上千的小的數(shù)據(jù)標(biāo)注公司。

　　據(jù)悉，數(shù)據(jù)標(biāo)注行業(yè)實(shí)行這樣一套分工流程：上游的科技巨頭把任務(wù)交給中游的數(shù)據(jù)標(biāo)注公司，再由中游眾包給下游的小公司、小作坊，有的小作坊還會(huì)進(jìn)一步眾包給“散兵游勇”，比如學(xué)生或家庭主婦。

　　這條產(chǎn)業(yè)鏈上，分包現(xiàn)象越嚴(yán)重，最終落到最底層的數(shù)據(jù)服務(wù)公司的價(jià)格就越低，一層層的“數(shù)據(jù)黃?！眽嚎s了利潤(rùn)空間，所以一些任務(wù)經(jīng)過(guò)數(shù)手轉(zhuǎn)包，酬勞已低得驚人。

　　目前的數(shù)據(jù)標(biāo)注工作主要是集中在河北、河南、山東、山西等勞動(dòng)力密集的地區(qū)，這樣的選址也因?yàn)槟軌蛞愿拥土膭趧?dòng)力成本去完成大量的數(shù)據(jù)標(biāo)注工作。

　　在很多數(shù)據(jù)標(biāo)注的報(bào)道中，出現(xiàn)頻率最高的都是那些畢業(yè)于職業(yè)技術(shù)學(xué)校的學(xué)生，他們?cè)谌木€城市，只需要會(huì)操作電腦，就能做數(shù)據(jù)標(biāo)注的工作。然而枯燥而又乏味的重復(fù)性工作，導(dǎo)致數(shù)據(jù)標(biāo)注人員的流動(dòng)性非常之大。此前，在澎湃新聞的一篇視頻采訪中，某數(shù)據(jù)標(biāo)注公司創(chuàng)始人表示他們有500名左右的在職人員，但是全職的只有11、12個(gè)。

　　在一些大的數(shù)據(jù)服務(wù)公司，他們宣稱平臺(tái)用戶(數(shù)據(jù)標(biāo)注人員)超過(guò)20萬(wàn)人，其中很多都是兼職人員。

　　不過(guò)，快速的人口流動(dòng)也依然阻擋不了低門檻數(shù)據(jù)標(biāo)注生意的紅火。

　　有多少智能，就有多少人工

　　即使現(xiàn)在有一些數(shù)據(jù)服務(wù)平臺(tái)開發(fā)了AI工具來(lái)輔助人工標(biāo)注，但依然需要數(shù)據(jù)標(biāo)注員去檢查和修正其中的錯(cuò)誤。在一些專業(yè)數(shù)據(jù)標(biāo)注公司，機(jī)器占30%，而人工標(biāo)注占比達(dá)到70%左右。

　　梳理數(shù)據(jù)標(biāo)注員的工作邏輯，就像一個(gè)悖論，AI能否進(jìn)化的更為智能某種程度上取決于這些標(biāo)注工作的人，而這個(gè)工作卻是最不智能、最沒(méi)有技術(shù)含量的。

　　記得在一篇采訪中，管理標(biāo)注員的負(fù)責(zé)人用特斯拉(Tesla)的自動(dòng)駕駛事故給員工“打雞血”，他提到2016年，一輛自動(dòng)駕駛模式下的特斯拉發(fā)生車禍?zhǔn)鹿?。事后特斯拉公司發(fā)表聲明稱：白色卡車在藍(lán)天背景下識(shí)別不出來(lái)，特斯拉因此沒(méi)有啟動(dòng)剎車。

　　“我一直跟他們說(shuō)：‘你們打磨的每一個(gè)數(shù)據(jù)都會(huì)為人工智能做出巨大貢獻(xiàn)，將來(lái)的無(wú)人駕駛車能夠識(shí)別出藍(lán)天下的白色卡車，就是因?yàn)槟惝?dāng)年把它標(biāo)出來(lái)了。’”

　　這種看似無(wú)意義的低效率工作應(yīng)該由AI去做才符合我們對(duì)技術(shù)的認(rèn)知，因?yàn)槲覀儼l(fā)展人工智能的初衷，就是為了解放生產(chǎn)力、提高生產(chǎn)效率。

　　最需要AI去做的事情，AI反而無(wú)能無(wú)力，而我們?yōu)榱四茏孉I取代勞動(dòng)密集型的工作，得先為AI服務(wù)，付出密集、辛勤的勞動(dòng)，這讓數(shù)據(jù)標(biāo)注工作看上去有點(diǎn)賽博朋克、反烏托邦的“魔幻”感覺(jué)。

　　然而更令人覺(jué)得沮喪的是，人工去訓(xùn)練AI依然存在很多問(wèn)題。

　　此前，清華大學(xué)人工智能學(xué)院院長(zhǎng)張鈸院士就提到純數(shù)據(jù)驅(qū)動(dòng)的系統(tǒng)也存在很大問(wèn)題——魯棒性很差，易受到很大的干擾。即便訓(xùn)練出的系統(tǒng)模型準(zhǔn)確率高達(dá)99%，但在實(shí)際應(yīng)用中，仍然會(huì)犯很多“弱智”的錯(cuò)誤。

　　這就陷入了死循環(huán)，人不可能像AI一樣，在工作中嚴(yán)格按照數(shù)據(jù)程序毫無(wú)瑕疵地完成工作，紕漏或者技術(shù)本身的問(wèn)題，會(huì)導(dǎo)致人工智能的不準(zhǔn)確性。最終，就在這個(gè)無(wú)限循環(huán)中不停地優(yōu)化。

　　而且考慮到數(shù)據(jù)的隱私和公司的商業(yè)利益，同類型的數(shù)據(jù)是無(wú)法相互打通的，就像一位數(shù)據(jù)標(biāo)注資深從業(yè)者所說(shuō)， “以自動(dòng)駕駛領(lǐng)域的數(shù)據(jù)標(biāo)注為例，我用A公司的數(shù)據(jù)模型放到 B公司的設(shè)備上跑不通，甚至攝像頭換了一個(gè)角度、位置或分辨率，都跑不通?！?/p>

　　“有多少智能，就有多少人工。”這似乎是AI進(jìn)化必須經(jīng)歷的過(guò)程。

　　結(jié)語(yǔ)：

　　當(dāng)然，最完美的情況應(yīng)該是：AI能夠自己消化大量的數(shù)據(jù)自學(xué)成才。目前無(wú)需標(biāo)注數(shù)據(jù)的無(wú)監(jiān)督學(xué)習(xí)已經(jīng)從實(shí)驗(yàn)室走向應(yīng)用，而類似的遷移學(xué)習(xí)算法也能減少一定的數(shù)據(jù)標(biāo)注工作量。

　　Facebook人工智能研究部門負(fù)責(zé)人Yann LeCun曾經(jīng)說(shuō)過(guò)，AI的核心在于預(yù)測(cè)，AI的下一個(gè)變革是無(wú)監(jiān)督學(xué)習(xí)、常識(shí)學(xué)習(xí)。研究人員正努力讓 AI 不依賴人類訓(xùn)練，自己去觀察世界是如何運(yùn)轉(zhuǎn)的，并學(xué)會(huì)預(yù)測(cè)。

　　所以理想環(huán)境下，可能我們探討的悖論過(guò)幾年或者十幾年就能完美解決了，這批為AI服務(wù)最終會(huì)被AI取代的人，也“功成身退”了。

新聞中心

你可能對(duì)人工智能有什么誤解：人力勞動(dòng)只是轉(zhuǎn)移了

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)