你可能對(duì)人工智能有什么誤解:人力勞動(dòng)只是轉(zhuǎn)移了
一雙眼睛的局部細(xì)節(jié)圖出現(xiàn)在電腦屏幕上,小慧對(duì)著放大的眼睛,一步步地做好標(biāo)記點(diǎn)。
本文引用地址:http://m.butianyuan.cn/article/201807/383363.htm一眼望過(guò)去,一排排的電腦屏幕上,都是類似的畫面。也許是因?yàn)榇昂煹恼诠庑Ч?,略顯昏暗的辦公環(huán)境加上電腦屏幕上被放大的各種物體細(xì)節(jié),頗為驚悚。
在某人工智能研究院看到這一幕,不覺(jué)驚嘆即使是頭部的AI創(chuàng)業(yè)公司,最關(guān)鍵的一環(huán)依然是從數(shù)據(jù)標(biāo)注員開始的。
而這是一群被稱作第一批被AI累死的人。
AI的老師:畫框的這些人
伴隨著AI興起的最關(guān)鍵的技術(shù)莫過(guò)于深度學(xué)習(xí),作為深度學(xué)習(xí)的基礎(chǔ),神經(jīng)網(wǎng)絡(luò)是一種以輸入為導(dǎo)向的算法,其結(jié)果的準(zhǔn)確性取決于接近“無(wú)窮”量級(jí)的數(shù)據(jù)。
所以摒除那些復(fù)雜的中間環(huán)節(jié),深度學(xué)習(xí)最關(guān)鍵的就是需要大量的數(shù)據(jù)訓(xùn)練,這也是為什么在互聯(lián)網(wǎng)大數(shù)據(jù)的時(shí)代,AI可以崛起。而在數(shù)據(jù)訓(xùn)練之前,又必須先對(duì)大量的數(shù)據(jù)進(jìn)行標(biāo)注,作為機(jī)器學(xué)習(xí)的先導(dǎo)經(jīng)驗(yàn)。
因此,催生了大量數(shù)據(jù)標(biāo)注員的產(chǎn)生。
簡(jiǎn)單的說(shuō),數(shù)據(jù)標(biāo)注員類似于AI的老師,舉個(gè)形象的例子,我們要教機(jī)器認(rèn)識(shí)一個(gè)蘋果,你直接給它一張?zhí)O果的圖片,它是完全不理解的。我們得先有蘋果的圖片,然后在上面標(biāo)注著“蘋果”兩個(gè)字,機(jī)器通過(guò)學(xué)習(xí)了大量的圖片中的特征,這時(shí)候再給它任意一張?zhí)O果的圖片,它就能認(rèn)出來(lái)了。
據(jù)了解,目前標(biāo)注員的工作內(nèi)容常見的有拉框標(biāo)點(diǎn)、打標(biāo)簽、分割、批注等等。其中分類就是最常見的打標(biāo)簽,比如標(biāo)注畫面上動(dòng)物毛發(fā)顏色、動(dòng)物耳朵等等;框選是將畫面中相對(duì)應(yīng)的對(duì)象標(biāo)框標(biāo)注;還有一種是描點(diǎn)標(biāo)注,一般用于更細(xì)致的人臉標(biāo)注:需要在眉毛、眼睛、鼻子、嘴巴等關(guān)鍵點(diǎn)做二十多個(gè)標(biāo)記點(diǎn)。
從他們的基本工作內(nèi)容就可以看出來(lái),數(shù)據(jù)標(biāo)注是個(gè)非??菰锒挚简?yàn)人耐力的工作,并且相比較AI所代表的高科技,標(biāo)注看起來(lái)毫無(wú)技術(shù)含量。
一條產(chǎn)業(yè)鏈的開始
但巧婦難為無(wú)米之炊,AI算法的訓(xùn)練離不開這些大量的數(shù)據(jù)標(biāo)注,與之相伴生的數(shù)據(jù)標(biāo)注外包業(yè)務(wù)也成了熱門的產(chǎn)業(yè)。
在IT桔子的大數(shù)據(jù)標(biāo)注公司專輯中,一共收納了6家,其中,有5家都在2017年到2018年這個(gè)時(shí)間周期內(nèi)獲得千萬(wàn)的融資:
2017年7月,BasicFinder完成1000萬(wàn)人民幣Pre-A輪融資;
2017年11月,龍貓數(shù)據(jù)獲得A輪3370萬(wàn)人民幣融資;
2018年1月,星塵數(shù)據(jù)獲得1000萬(wàn)人民幣Pre-A輪融資;
2018年3月,愛(ài)數(shù)智慧獲得A輪融資;
2018年5月,周同科技完成2000萬(wàn)人民幣A輪融資。
同時(shí),他們業(yè)務(wù)方向也有一定細(xì)分區(qū)別,有的以處理圖像見長(zhǎng),有的數(shù)據(jù)標(biāo)注公司更擅長(zhǎng)做一些視頻標(biāo)注。而這些公司的服務(wù)企業(yè)有百度、小米、京東、今日頭條這樣的互聯(lián)網(wǎng)公司,也有出門問(wèn)問(wèn)、云從、深鑒等AI公司。
另外,像京東、百度、騰訊、阿里其實(shí)都有自己的標(biāo)注平臺(tái)和工具。
而在國(guó)外方面,亞馬遜有推出眾包數(shù)據(jù)平臺(tái)Amazon Mechanical Turk,初創(chuàng)公司方面則有CrowdFlower、Mighty AI等。
這些已經(jīng)算是這個(gè)領(lǐng)域的佼佼者了,在他們的下面,還有成百上千的小的數(shù)據(jù)標(biāo)注公司。
據(jù)悉,數(shù)據(jù)標(biāo)注行業(yè)實(shí)行這樣一套分工流程:上游的科技巨頭把任務(wù)交給中游的數(shù)據(jù)標(biāo)注公司,再由中游眾包給下游的小公司、小作坊,有的小作坊還會(huì)進(jìn)一步眾包給“散兵游勇”,比如學(xué)生或家庭主婦。
這條產(chǎn)業(yè)鏈上,分包現(xiàn)象越嚴(yán)重,最終落到最底層的數(shù)據(jù)服務(wù)公司的價(jià)格就越低,一層層的“數(shù)據(jù)黃?!眽嚎s了利潤(rùn)空間,所以一些任務(wù)經(jīng)過(guò)數(shù)手轉(zhuǎn)包,酬勞已低得驚人。
目前的數(shù)據(jù)標(biāo)注工作主要是集中在河北、河南、山東、山西等勞動(dòng)力密集的地區(qū),這樣的選址也因?yàn)槟軌蛞愿拥土膭趧?dòng)力成本去完成大量的數(shù)據(jù)標(biāo)注工作。
在很多數(shù)據(jù)標(biāo)注的報(bào)道中,出現(xiàn)頻率最高的都是那些畢業(yè)于職業(yè)技術(shù)學(xué)校的學(xué)生,他們?cè)谌木€城市,只需要會(huì)操作電腦,就能做數(shù)據(jù)標(biāo)注的工作。然而枯燥而又乏味的重復(fù)性工作,導(dǎo)致數(shù)據(jù)標(biāo)注人員的流動(dòng)性非常之大。此前,在澎湃新聞的一篇視頻采訪中,某數(shù)據(jù)標(biāo)注公司創(chuàng)始人表示他們有500名左右的在職人員,但是全職的只有11、12個(gè)。
在一些大的數(shù)據(jù)服務(wù)公司,他們宣稱平臺(tái)用戶(數(shù)據(jù)標(biāo)注人員)超過(guò)20萬(wàn)人,其中很多都是兼職人員。
不過(guò),快速的人口流動(dòng)也依然阻擋不了低門檻數(shù)據(jù)標(biāo)注生意的紅火。
有多少智能,就有多少人工
即使現(xiàn)在有一些數(shù)據(jù)服務(wù)平臺(tái)開發(fā)了AI工具來(lái)輔助人工標(biāo)注,但依然需要數(shù)據(jù)標(biāo)注員去檢查和修正其中的錯(cuò)誤。在一些專業(yè)數(shù)據(jù)標(biāo)注公司,機(jī)器占30%,而人工標(biāo)注占比達(dá)到70%左右。
梳理數(shù)據(jù)標(biāo)注員的工作邏輯,就像一個(gè)悖論,AI能否進(jìn)化的更為智能某種程度上取決于這些標(biāo)注工作的人,而這個(gè)工作卻是最不智能、最沒(méi)有技術(shù)含量的。
記得在一篇采訪中,管理標(biāo)注員的負(fù)責(zé)人用特斯拉(Tesla)的自動(dòng)駕駛事故給員工“打雞血”,他提到2016年,一輛自動(dòng)駕駛模式下的特斯拉發(fā)生車禍?zhǔn)鹿?。事后特斯拉公司發(fā)表聲明稱:白色卡車在藍(lán)天背景下識(shí)別不出來(lái),特斯拉因此沒(méi)有啟動(dòng)剎車。
“我一直跟他們說(shuō):‘你們打磨的每一個(gè)數(shù)據(jù)都會(huì)為人工智能做出巨大貢獻(xiàn),將來(lái)的無(wú)人駕駛車能夠識(shí)別出藍(lán)天下的白色卡車,就是因?yàn)槟惝?dāng)年把它標(biāo)出來(lái)了。’”
這種看似無(wú)意義的低效率工作應(yīng)該由AI去做才符合我們對(duì)技術(shù)的認(rèn)知,因?yàn)槲覀儼l(fā)展人工智能的初衷,就是為了解放生產(chǎn)力、提高生產(chǎn)效率。
最需要AI去做的事情,AI反而無(wú)能無(wú)力,而我們?yōu)榱四茏孉I取代勞動(dòng)密集型的工作,得先為AI服務(wù),付出密集、辛勤的勞動(dòng),這讓數(shù)據(jù)標(biāo)注工作看上去有點(diǎn)賽博朋克、反烏托邦的“魔幻”感覺(jué)。
然而更令人覺(jué)得沮喪的是,人工去訓(xùn)練AI依然存在很多問(wèn)題。
此前,清華大學(xué)人工智能學(xué)院院長(zhǎng)張鈸院士就提到純數(shù)據(jù)驅(qū)動(dòng)的系統(tǒng)也存在很大問(wèn)題——魯棒性很差,易受到很大的干擾。即便訓(xùn)練出的系統(tǒng)模型準(zhǔn)確率高達(dá)99%,但在實(shí)際應(yīng)用中,仍然會(huì)犯很多“弱智”的錯(cuò)誤。
這就陷入了死循環(huán),人不可能像AI一樣,在工作中嚴(yán)格按照數(shù)據(jù)程序毫無(wú)瑕疵地完成工作,紕漏或者技術(shù)本身的問(wèn)題,會(huì)導(dǎo)致人工智能的不準(zhǔn)確性。最終,就在這個(gè)無(wú)限循環(huán)中不停地優(yōu)化。
而且考慮到數(shù)據(jù)的隱私和公司的商業(yè)利益,同類型的數(shù)據(jù)是無(wú)法相互打通的,就像一位數(shù)據(jù)標(biāo)注資深從業(yè)者所說(shuō), “以自動(dòng)駕駛領(lǐng)域的數(shù)據(jù)標(biāo)注為例,我用A公司的數(shù)據(jù)模型放到 B公司的設(shè)備上跑不通,甚至攝像頭換了一個(gè)角度、位置或分辨率,都跑不通?!?/p>
“有多少智能,就有多少人工。”這似乎是AI進(jìn)化必須經(jīng)歷的過(guò)程。
結(jié)語(yǔ):
當(dāng)然,最完美的情況應(yīng)該是:AI能夠自己消化大量的數(shù)據(jù)自學(xué)成才。目前無(wú)需標(biāo)注數(shù)據(jù)的無(wú)監(jiān)督學(xué)習(xí)已經(jīng)從實(shí)驗(yàn)室走向應(yīng)用,而類似的遷移學(xué)習(xí)算法也能減少一定的數(shù)據(jù)標(biāo)注工作量。
Facebook人工智能研究部門負(fù)責(zé)人Yann LeCun曾經(jīng)說(shuō)過(guò),AI的核心在于預(yù)測(cè),AI的下一個(gè)變革是無(wú)監(jiān)督學(xué)習(xí)、常識(shí)學(xué)習(xí)。研究人員正努力讓 AI 不依賴人類訓(xùn)練,自己去觀察世界是如何運(yùn)轉(zhuǎn)的,并學(xué)會(huì)預(yù)測(cè)。
所以理想環(huán)境下,可能我們探討的悖論過(guò)幾年或者十幾年就能完美解決了,這批為AI服務(wù)最終會(huì)被AI取代的人,也“功成身退”了。
評(píng)論