人工智能與計(jì)算機(jī)視覺
前不久,vivo宣布成立AI全球研究院,將會(huì)加大對人工智能多個(gè)領(lǐng)域包括知識(shí)圖譜、自然語言以及機(jī)器視覺等加大投入,深入研究開發(fā)創(chuàng)新性技術(shù)。
本文引用地址:http://m.butianyuan.cn/article/201807/389708.htm過去幾年,全球的互聯(lián)網(wǎng)公司包括谷歌、微軟、Facebook以及中國的百度、阿里巴巴都在加強(qiáng)人工智能領(lǐng)域的投資,設(shè)立自己的人工智能研究院。vivo是第一家設(shè)立專攻人工智能方向研究院的中國手機(jī)公司。此舉是vivo內(nèi)部已經(jīng)確立的一份3-5年的中長期發(fā)展的戰(zhàn)略規(guī)劃,未來對人工智能的發(fā)展研究是必然趨勢,vivo公司創(chuàng)始人兼CEO沈煒曾表示“人工智能和5G的結(jié)合將會(huì)是5G時(shí)代手機(jī)發(fā)展的趨勢”。
今年我們看到vivo在產(chǎn)品上不少創(chuàng)新,比如AI拍照、商用屏下指紋技術(shù)等等,這些都是基于生物特征(biometrics)的鑒別技術(shù),除此之外還有對人臉、虹膜、指紋、聲音等特征上的識(shí)別,這些大多涉及到視覺信息,正是體現(xiàn)了計(jì)算機(jī)視覺的應(yīng)用性,那什么是計(jì)算機(jī)視覺呢?
計(jì)算機(jī)視覺技術(shù)的概念
正像其它學(xué)科一樣,一個(gè)大量人員研究了多年的學(xué)科,卻很難給出一個(gè)嚴(yán)格的定義,模式識(shí)別如此,目前火熱的人工智能如此,計(jì)算機(jī)視覺亦如此。與計(jì)算機(jī)視覺密切相關(guān)的概念有視覺感知(visual perception),視覺認(rèn)知(visual cognition),圖像和視頻理解( image and video understanding)。這些概念有一些共性之處,也有本質(zhì)不同。
從廣義上說,計(jì)算機(jī)視覺就是“賦予機(jī)器自然視覺能力”的學(xué)科。自然視覺能力,就是指生物視覺系統(tǒng)體現(xiàn)的視覺能力。一則生物自然視覺無法嚴(yán)格定義,在加上這種廣義視覺定義又“包羅萬象”,同時(shí)也不太符合40多年來計(jì)算機(jī)視覺的研究狀況,所以這種“廣義計(jì)算機(jī)視覺定義”,雖無可挑剔,但也缺乏實(shí)質(zhì)性內(nèi)容,不過是一種“循環(huán)式游戲定義”而已。
實(shí)際上,計(jì)算機(jī)視覺本質(zhì)上就是研究視覺感知問題。視覺感知,根據(jù)維科百基(Wikipedia)的定義, 是指對“環(huán)境表達(dá)和理解中,對視覺信息的組織、識(shí)別和解釋的過程”。根據(jù)這種定義,計(jì)算機(jī)視覺的目標(biāo)是對環(huán)境的表達(dá)和理解,核心問題是研究如何對輸入的圖像信息進(jìn)行組織,對物體和場景進(jìn)行識(shí)別,進(jìn)而對圖像內(nèi)容給予解釋。
計(jì)算機(jī)視覺(Computer Vision, CV)是一門研究如何讓計(jì)算機(jī)達(dá)到人類那樣“看”的學(xué)科。更準(zhǔn)確點(diǎn)說,它是利用攝像機(jī)和電腦代替人眼使得計(jì)算機(jī)擁有類似于人類的那種對目標(biāo)進(jìn)行分割、分類、識(shí)別、跟蹤、判別決策的功能。
計(jì)算機(jī)視覺是使用計(jì)算機(jī)及相關(guān)設(shè)備對生物視覺的一種模擬,是人工智能領(lǐng)域的一個(gè)重要部分,它的研究目標(biāo)是使計(jì)算機(jī)具有通過二維圖像認(rèn)知三維環(huán)境信息的能力。計(jì)算機(jī)視覺是以圖象處理技術(shù)、信號(hào)處理技術(shù)、概率統(tǒng)計(jì)分析、計(jì)算幾何、神經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)理論和計(jì)算機(jī)信息處理技術(shù)等為基礎(chǔ),通過計(jì)算機(jī)分析與處理視覺信息。
通常來說,計(jì)算機(jī)視覺定義應(yīng)當(dāng)包含以下三個(gè)方面:
1、對圖像中的客觀對象構(gòu)建明確而有意義的描述;
2、從一個(gè)或多個(gè)數(shù)字圖像中計(jì)算三維世界的特性;
3、基于感知圖像做出對客觀對象和場景有用的決策。
作為一個(gè)新興學(xué)科,計(jì)算機(jī)視覺是通過對相關(guān)的理論和技術(shù)進(jìn)行研究,從而試圖建立從圖像或多維數(shù)據(jù)中獲取“信息”的人工智能系統(tǒng)。計(jì)算機(jī)視覺是一門綜合性的學(xué)科,其中包括計(jì)算機(jī)科學(xué)和工程、信號(hào)處理、物理學(xué)、應(yīng)用數(shù)學(xué)和統(tǒng)計(jì)學(xué),神經(jīng)生理學(xué)和認(rèn)知科學(xué)等,同時(shí)與圖像處理,模式識(shí)別,投影幾何,統(tǒng)計(jì)推斷,統(tǒng)計(jì)學(xué)習(xí)等學(xué)科密切相關(guān),近年來,與計(jì)算機(jī)圖形學(xué),三維表現(xiàn)等學(xué)科也發(fā)生了很強(qiáng)的聯(lián)系。
人工智能與計(jì)算機(jī)視覺
計(jì)算機(jī)視覺與人工智能有密切聯(lián)系,但也有本質(zhì)的不同。人工智能的目的是讓計(jì)算機(jī)去看、去聽和去讀。圖像、語音和文字的理解,這三大部分基本構(gòu)成了我們現(xiàn)在的人工智能。而在人工智能的這些領(lǐng)域中,視覺又是核心。大家知道,視覺占人類所有感官輸入的80%,也是最困難的一部分感知。如果說人工智能是一場革命,那么它將發(fā)軔于計(jì)算機(jī)視覺,而非別的領(lǐng)域。
人工智能更強(qiáng)調(diào)推理和決策,但至少計(jì)算機(jī)視覺目前還主要停留在圖像信息表達(dá)和物體識(shí)別階段?!拔矬w識(shí)別和場景理解”也涉及從圖像特征的推理與決策,但與人工智能的推理和決策有本質(zhì)區(qū)別。
計(jì)算機(jī)視覺和人工智能的關(guān)系:
第一, 它是一個(gè)人工智能需要解決的很重要的問題。
第二, 它是目前人工智能的很強(qiáng)的驅(qū)動(dòng)力。因?yàn)樗泻芏鄳?yīng)用,很多技術(shù)是從計(jì)算機(jī)視覺誕生出來以后,再反運(yùn)用到AI領(lǐng)域中去。
第三, 計(jì)算機(jī)視覺擁有大量的量子AI的應(yīng)用基礎(chǔ)。
計(jì)算機(jī)視覺技術(shù)的原理
計(jì)算機(jī)視覺就是用各種成象系統(tǒng)代替視覺器官作為輸入敏感手段,由計(jì)算機(jī)來代替大腦完成處理和解釋。計(jì)算機(jī)視覺的最終研究目標(biāo)就是使計(jì)算機(jī)能象人那樣通過視覺觀察和理解世界,具有自主適應(yīng)環(huán)境的能力。在實(shí)現(xiàn)最終目標(biāo)以前,人們努力的中期目標(biāo)是建立一種視覺系統(tǒng),這個(gè)系統(tǒng)能依據(jù)視覺敏感和反饋的某種程度的智能完成一定的任務(wù)。例如,計(jì)算機(jī)視覺的一個(gè)重要應(yīng)用領(lǐng)域就是自主車輛的視覺導(dǎo)航,還沒有條件實(shí)現(xiàn)象人那樣能識(shí)別和理解任何環(huán)境,完成自主導(dǎo)航的系統(tǒng)。因此,人們努力的研究目標(biāo)是實(shí)現(xiàn)在高速公路上具有道路跟蹤能力,可避免與前方車輛碰撞的視覺輔助駕駛系統(tǒng)。
這里要指出的一點(diǎn)是在計(jì)算機(jī)視覺系統(tǒng)中計(jì)算機(jī)起代替人腦的作用,但并不意味著計(jì)算機(jī)必須按人類視覺的方法完成視覺信息的處理。計(jì)算機(jī)視覺可以而且應(yīng)該根據(jù)計(jì)算機(jī)系統(tǒng)的特點(diǎn)來進(jìn)行視覺信息的處理。但是,人類視覺系統(tǒng)是迄今為止,人們所知道的功能最強(qiáng)大和完善的視覺系統(tǒng),對人類視覺處理機(jī)制的研究將給計(jì)算機(jī)視覺的研究提供啟發(fā)和指導(dǎo)。因此,用計(jì)算機(jī)信息處理的方法研究人類視覺的機(jī)理,建立人類視覺的計(jì)算理論,也是一個(gè)非常重要和信人感興趣的研究領(lǐng)域。
這一領(lǐng)域的深入研究是從20世紀(jì)50年代開始的,走的是三個(gè)方向——即復(fù)制人眼;復(fù)制視覺皮層;以及復(fù)制大腦剩余部分。
復(fù)制人眼——讓計(jì)算機(jī)“去看”
目前做出最多成效的領(lǐng)域就是在“復(fù)制人眼”這一領(lǐng)域。在過去的幾十年,科學(xué)家已經(jīng)打造了傳感器和圖像處理器,這些與人類的眼睛相匹配,甚至某種程度上已經(jīng)超越。通過強(qiáng)大、光學(xué)上更加完善的鏡頭,以及納米級別制造的半導(dǎo)體像素,現(xiàn)代攝像機(jī)的精確性和敏銳度達(dá)到了一個(gè)驚人的地步。它們同樣可以拍下每秒數(shù)千張的圖像,并十分精準(zhǔn)地測量距離。
但是問題在于,雖然我們已經(jīng)能夠?qū)崿F(xiàn)輸出端極高的保真度,但是在很多方面來說,這些設(shè)備并不比19世紀(jì)的針孔攝像機(jī)更為出色:它們充其量記錄的只是相應(yīng)方向上光子的分布,而即便是最優(yōu)秀的攝像頭傳感器也無法去“識(shí)別”一個(gè)球,遑論將它抓住。
換而言之,在沒有軟件的基礎(chǔ)上,硬件是相當(dāng)受限制的。因此這一領(lǐng)域的軟件才是要投入解決的更加棘手的問題。不過現(xiàn)在攝像頭的先進(jìn)技術(shù),的確為這軟件提供了豐富、靈活的平臺(tái)就是了。
復(fù)制視覺皮層——讓計(jì)算機(jī)“去描述”
要知道,人的大腦從根本上就是通過意識(shí)來進(jìn)行“看”的動(dòng)作的。比起其他的任務(wù),在大腦中相當(dāng)?shù)牟糠侄际菍iT用來“看”的,而這一專長是由細(xì)胞本身來完成的——數(shù)十億的細(xì)胞通力合作,從嘈雜、不規(guī)則的視網(wǎng)膜信號(hào)中提取模式。
如果在特定角度的一條沿線上出現(xiàn)了差異,或是在某個(gè)方向上出現(xiàn)了快速運(yùn)動(dòng),那么神經(jīng)元組就會(huì)興奮起來。較高級的網(wǎng)絡(luò)會(huì)將這些模式歸納進(jìn)元模式(meta-pattern)中:它是一個(gè)朝上運(yùn)動(dòng)的圓環(huán)。同時(shí),另一個(gè)網(wǎng)絡(luò)也相應(yīng)而成:這次是帶紅線的白色圓環(huán)。而還有一個(gè)模式則會(huì)在大小上增長。從這些粗糙但是補(bǔ)充性的描述中,開始生成具體的圖像。
使用人腦視覺區(qū)域相似的技術(shù),定位物體的邊緣和其他特色,從而形成的“方向梯度直方圖”
由于這些網(wǎng)絡(luò)一度被認(rèn)為是“深不可測的復(fù)雜”,因此 在計(jì)算機(jī)視覺研究的早期,采用的是別的方式:即“自上而下的推理”模式——比如一本書看起來是“這樣”,那么就要注意與“這個(gè)”類似的模式。而一輛車看起來是“這樣”,動(dòng)起來又是“這樣”。
在某些受控的情況下,確實(shí)能夠?qū)ι贁?shù)幾個(gè)物體完成這一過程,但如果要描述身邊的每個(gè)物體,包括所有的角度、光照變化、運(yùn)動(dòng)和其他上百個(gè)要素,即便是咿呀學(xué)語的嬰兒級別的識(shí)別,也需要難以想象的龐大數(shù)據(jù)。
而如果不用“自上而下”,改用“自下而上”的辦法,即去模擬大腦中的過程,則看上去前景更加美好:計(jì)算機(jī)可以在多張圖中,對一張圖片進(jìn)行一系列的轉(zhuǎn)換,從而找到物體的邊緣,發(fā)現(xiàn)圖片上的物體、角度和運(yùn)動(dòng)。就像人類的大腦一樣,通過給計(jì)算機(jī)觀看各種圖形,計(jì)算機(jī)會(huì)使用大量的計(jì)算和統(tǒng)計(jì),試著把“看到的”形狀與之前訓(xùn)練中識(shí)別的相匹配。
科學(xué)家正在研究的,是讓智能手機(jī)和其他的設(shè)備能夠理解、并迅速識(shí)別出處在攝像頭視場里的物體。如上圖,街景中的物體都被打上了用于描述物體的文本標(biāo)簽,而完成這一過程的處理器要比傳統(tǒng)手機(jī)處理器快上120倍。
隨著近幾年并行計(jì)算領(lǐng)域的進(jìn)步,相關(guān)的屏障逐漸被移除。目前出現(xiàn)了關(guān)于模仿類似大腦機(jī)能研究和應(yīng)用的爆發(fā)性增長。模式識(shí)別的過程正在獲得數(shù)量級的加速,我們每天都在取得更多的進(jìn)步。
復(fù)制大腦剩余部分——讓計(jì)算機(jī)“去理解”
當(dāng)然,光是“識(shí)別”“描述”是不夠的。一臺(tái)系統(tǒng)能夠識(shí)別蘋果,包括在任何情況、任何角度、任何運(yùn)動(dòng)狀態(tài),甚至是否被咬等等等等。但它仍然無法識(shí)別一個(gè)橘子。并且它甚至都不能告訴人們:啥是蘋果?是否可以吃?尺寸如何?或者具體的用途。
前面說過,沒有軟件,硬件的發(fā)揮非常受限。但現(xiàn)在的問題是,即便是有了優(yōu)秀的軟硬件,沒有出色的操作系統(tǒng),也“然并卵”。
對于人們來說,大腦的剩余部分由這些組成,包括長短期記憶、其他感官的輸入、注意力和認(rèn)知力、從世界中萬億級別的交互中收獲的十億計(jì)知識(shí),這些知識(shí)將通過我們很難理解的方式,被寫入互聯(lián)的神經(jīng)。而要復(fù)制它,比起我們遇到過的任何事情都要更加復(fù)雜。
計(jì)算機(jī)視覺的應(yīng)用領(lǐng)域
計(jì)算機(jī)視覺的應(yīng)用領(lǐng)域主要包括對照片、視頻資料如航空照片、衛(wèi)星照片、視頻片段等的解釋、精確制導(dǎo)、移動(dòng)機(jī)器人視覺導(dǎo)航、醫(yī)學(xué)輔助診斷、工業(yè)機(jī)器人的手眼系統(tǒng)、地圖繪制、物體三維形狀分析與識(shí)別及智能人機(jī)接口等。
早期進(jìn)行數(shù)字圖像處理的目的之一就是要通過采用數(shù)字技術(shù)提高照片的質(zhì)量,輔助進(jìn)行航空照片和衛(wèi)星照片的讀取判別與分類。由于需要判讀的照片數(shù)量很多,于是希望有自動(dòng)的視覺系統(tǒng)進(jìn)行判讀解釋,在這樣的背景下,產(chǎn)生了許多航空照片和衛(wèi)星照片判讀系統(tǒng)與方法。自動(dòng)判讀的進(jìn)一步應(yīng)用就是直接確定目標(biāo)的性質(zhì),進(jìn)行實(shí)時(shí)的自動(dòng)分類,并與制導(dǎo)系統(tǒng)相結(jié)合。目前常用的制導(dǎo)方式包括激光制導(dǎo)、電視制導(dǎo)和圖像制導(dǎo),在導(dǎo)彈系統(tǒng)中常常將慣性制導(dǎo)與圖像制導(dǎo)結(jié)合,利用圖像進(jìn)行精確的末制導(dǎo)。
工業(yè)機(jī)器人的手眼系統(tǒng)是計(jì)算機(jī)視覺應(yīng)用最為成功的領(lǐng)域之一,由于工業(yè)現(xiàn)場的諸多因素,如光照條件、成像方向均是可控的,因此使得問題大為簡化,有利于構(gòu)成實(shí)際的系統(tǒng)。與工業(yè)機(jī)器人不同,對于移動(dòng)機(jī)器人而言,由于它具有行為能力,于是就必須解決行為規(guī)劃問題,即是對環(huán)境的了解。隨著移動(dòng)式機(jī)器人的發(fā)展,越來越多地要求提供視覺能力,包括道路跟蹤、回避障礙、特定目標(biāo)識(shí)別等。目前移動(dòng)機(jī)器人視覺系統(tǒng)研究仍處于實(shí)驗(yàn)階段,大多采用遙控和遠(yuǎn)視方法。
在醫(yī)學(xué)上采用的圖像處理技術(shù)大致包括壓縮、存儲(chǔ)、傳輸和自動(dòng)/輔助分類判讀,此外還可用于醫(yī)生的輔助訓(xùn)練手段。與計(jì)算機(jī)視覺相關(guān)的工作包括分類、判讀和快速三維結(jié)構(gòu)的重建等方面。長期以來,地圖繪制是一件耗費(fèi)人力、物力和時(shí)間的工作。以往的做法是人工測量,現(xiàn)在更多的是利用航測加上立體視覺中恢復(fù)三維形狀的方法繪制地圖,大大提高了地圖繪制的效率。同時(shí),通用物體三維形狀分析與識(shí)別一直是計(jì)算機(jī)視覺的重要研究目標(biāo),并在景物的特征提取、表示、知識(shí)的存儲(chǔ)、檢索以及匹配識(shí)別等方面都取得了一定的進(jìn)展,構(gòu)成了一些用于三維景物分析的系統(tǒng)。
近年來,基于生物特征(biometrics)的鑒別技術(shù)得到了廣泛重視,主要集中在對人臉、虹膜、指紋、聲音等特征上,這其中大多都與視覺信息有關(guān)。與生物特征識(shí)別密切相關(guān)的另一個(gè)重要應(yīng)用是用于構(gòu)成智能人機(jī)接口?,F(xiàn)在計(jì)算機(jī)與人的交流還是機(jī)械式的,計(jì)算機(jī)無法識(shí)別用戶的真實(shí)身份,除鍵盤、鼠標(biāo)外,其他輸入手段還不成熟。利用計(jì)算機(jī)視覺技術(shù)可以使計(jì)算機(jī)檢測到用戶是否存在、鑒別用戶身份、識(shí)別用戶的體勢(如點(diǎn)頭、搖頭)。此外,這種人機(jī)交互方式還可推廣到一切需要人機(jī)交互的場合,如入口安全控制、過境人員的驗(yàn)放等。
評論