人工智能開啟視覺處理新篇章:如何更好的理解這個(gè)世界
人工智能的第三次浪潮正席卷全球,而在這次計(jì)算機(jī)視覺功不可沒(méi)。視覺處理的終極目標(biāo)在于使得計(jì)算機(jī)能像人一樣觀察感知世界,核心任務(wù)就是對(duì)圖像進(jìn)行理解,場(chǎng)景分類、目標(biāo)識(shí)別/圖像分類、目標(biāo)定位、目標(biāo)檢測(cè)、語(yǔ)義分割、三維重建、目標(biāo)跟蹤都是其研究?jī)?nèi)容。
本文引用地址:http://m.butianyuan.cn/article/202007/415836.htm視覺與人工智能的融合
縱觀信息產(chǎn)業(yè)發(fā)展歷程,從個(gè)人電腦時(shí)代到移動(dòng)互聯(lián)網(wǎng)時(shí)代,承載高性能計(jì)算的芯片決定新型計(jì)算平臺(tái)的基礎(chǔ)架構(gòu)和發(fā)展生態(tài),并掌握著產(chǎn)業(yè)鏈最核心的話語(yǔ)權(quán)。傳統(tǒng)硬件架構(gòu)難以滿足人工智能時(shí)代深度學(xué)習(xí)的要求,新的算法需要新的硬件來(lái)支撐。同時(shí),芯片的結(jié)構(gòu)將越來(lái)越像“大腦”,類腦芯片、智能芯片等將是人工智能的發(fā)展方向。
視覺芯片集成高速圖像傳感器和大規(guī)模并行圖像處理電路,能夠模仿人類視覺系統(tǒng)視覺信息并行處理機(jī)制,解決現(xiàn)有視覺圖像系統(tǒng)中數(shù)據(jù)串行傳輸和串行處理的速度限制瓶頸問(wèn)題。人工智能(AI)視覺芯片與攝像頭的關(guān)系是:芯片做的是大腦,攝像頭做的是眼睛。
人眼的成像是非常聚焦的,只看到關(guān)注的東西。而當(dāng)AI算法解決了“要看什么”的問(wèn)題后,前端成像就有了目標(biāo),可以把所有的資源都調(diào)配到關(guān)注的對(duì)象上,做到“指哪打哪”,也就是取出噪音的處理過(guò)程,可以更高效智能地處理視覺信息。這種根據(jù)AI的需求來(lái)成像,能解決很多以前解決不了的問(wèn)題。
現(xiàn)在,人工智能視覺處理已從數(shù)據(jù)中心迅速發(fā)展到邊緣,最新的專用集成電路(ASIC)和片上系統(tǒng)(SoC)IP正在圍繞一個(gè)主題發(fā)展,即從視覺信息的預(yù)處理,到傳統(tǒng)的計(jì)算機(jī)視覺算法,然后再用神經(jīng)網(wǎng)絡(luò)進(jìn)行邊緣推理,產(chǎn)生對(duì)象檢測(cè)、識(shí)別以及適當(dāng)?shù)膭?dòng)作,是包括計(jì)算機(jī)視覺深度學(xué)習(xí)在內(nèi)的多種機(jī)器學(xué)習(xí)的總稱。
這些網(wǎng)絡(luò)的設(shè)計(jì)旨在使用數(shù)字等效物和感知器來(lái)模擬人腦的神經(jīng)元和突觸,它們通常需要經(jīng)過(guò)訓(xùn)練,才能識(shí)別視覺等數(shù)據(jù)中的模式,然后當(dāng)遇到新的數(shù)據(jù)時(shí),就可以從中推斷出數(shù)據(jù)可能的含義。
在過(guò)去十年,由于可負(fù)擔(dān)計(jì)算能力的增加,以及卷積神經(jīng)網(wǎng)絡(luò)(CNN)及其所用傳感器的發(fā)展,視覺處理一直在以指數(shù)級(jí)的速率進(jìn)步。具體而言,若能根據(jù)傳感器、數(shù)據(jù)集和SLAM(同時(shí)定位與映射)算法輸入去“了解”世界并對(duì)其“開發(fā)出”表征模型,那么系統(tǒng)就可以開始掌握周圍環(huán)境及其在空間中的位置,并做出預(yù)測(cè)和采取行動(dòng)。
在對(duì)人工智能而非提高像素的需求推動(dòng)下,特別是在由計(jì)算機(jī)視覺和數(shù)據(jù)驅(qū)動(dòng)的決策制定方面,GPU(圖形處理單元)領(lǐng)域已出現(xiàn)一場(chǎng)革命:神經(jīng)網(wǎng)絡(luò)的到來(lái)已使視覺處理成為現(xiàn)代世界的關(guān)鍵因素。因此,機(jī)器人處理操作、智能監(jiān)控?cái)z像頭以及汽車高級(jí)駕駛輔助系統(tǒng)(ADAS)等相關(guān)行業(yè)都發(fā)生了變化 —— 隨著這類技術(shù)的全面涌現(xiàn),未來(lái)還將出現(xiàn)更多新的應(yīng)用。
人工智能視覺處理都能做什么?
一片小小的人工智能視覺芯片能做什么?無(wú)人駕駛汽車主動(dòng)識(shí)別并避讓行人、攝像頭實(shí)時(shí)甄別在逃犯,這些影視作品中的情節(jié),或許不久將可通過(guò)基于嵌入式人工智能視覺芯片的“解決方案”成為現(xiàn)實(shí)。人工智能芯片被視為未來(lái)人工智能時(shí)代的戰(zhàn)略制高點(diǎn)。在視覺感知領(lǐng)域,人工智能視覺芯片正逐步應(yīng)用于智能手機(jī)、安防監(jiān)控、自動(dòng)駕駛、醫(yī)療成像和智能制造等領(lǐng)域。
· 自動(dòng)駕駛:自動(dòng)駕駛汽車上裝有多個(gè)攝像頭,用來(lái)實(shí)現(xiàn)計(jì)算機(jī)視覺、對(duì)象識(shí)別、車道警告和駕駛員監(jiān)控,以及其他傳感器(例如,熱成像、RADAR和LiDAR)而實(shí)現(xiàn)傳感器融合。人工智能和路徑規(guī)劃可以識(shí)別和預(yù)測(cè)是否有小孩會(huì)走到公路上,從而讓車輛預(yù)測(cè)和減速,以便采取規(guī)避行動(dòng)。在更簡(jiǎn)單的層面上,自動(dòng)代客泊車可以使駕駛員省去尋找停車位的負(fù)擔(dān)。
· 醫(yī)療成像:其中最突出的應(yīng)用領(lǐng)域是醫(yī)療計(jì)算機(jī)視覺和醫(yī)學(xué)圖像處理,這個(gè)區(qū)域的特征的信息從圖像數(shù)據(jù)中提取用于使患者的醫(yī)療診斷的目的。可以從圖像數(shù)據(jù)中提取的一個(gè)例子是檢測(cè)的腫瘤,動(dòng)脈粥樣硬化或其他惡性變化,它也可以是器官的尺寸,血流量等。
· 智能制造:信息被提取為支撐的制造工序的目的,例如,質(zhì)量控制其中的信息或最終產(chǎn)品被以找到缺陷自動(dòng)檢測(cè)。同時(shí)也被大量用于農(nóng)業(yè)的過(guò)程,從散裝材料,這個(gè)過(guò)程被稱為去除不想要的東西,食物的光學(xué)分揀。
· 軍事應(yīng)用:最明顯的例子是探測(cè)敵方士兵或車輛和導(dǎo)彈制導(dǎo)。更先進(jìn)的系統(tǒng)為導(dǎo)彈制導(dǎo)發(fā)送導(dǎo)彈的區(qū)域,而不是一個(gè)特定的目標(biāo),并且當(dāng)導(dǎo)彈到達(dá)基于本地獲取的圖像數(shù)據(jù)的區(qū)域的目標(biāo)做出選擇?,F(xiàn)代軍事概念,如“戰(zhàn)場(chǎng)感知”,意味著各種傳感器,包括圖像傳感器,提供了豐富的有關(guān)作戰(zhàn)的場(chǎng)景,可用于支持戰(zhàn)略決策的信息。在這種情況下,數(shù)據(jù)的自動(dòng)處理,用于減少?gòu)?fù)雜性和融合來(lái)自多個(gè)傳感器的信息,以提高可靠性。
視覺處理行業(yè)的產(chǎn)業(yè)鏈?zhǔn)怯缮嫌位A(chǔ)層、中游技術(shù)層以及下游應(yīng)用層組成的。
· 上游基礎(chǔ)層基礎(chǔ)層:主要包括CPU、GPU等芯片硬件,深度神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等算法,以及由真實(shí)數(shù)據(jù)和模擬數(shù)據(jù)共同構(gòu)成的數(shù)據(jù)集。核心芯片被Intel、Nvidia等傳統(tǒng)芯片廠商把控,新型芯片廠商尚未崛起,規(guī)模應(yīng)用有待時(shí)日;開源平臺(tái)以谷歌的Tensorflow、Facebook的Caffe等為主,其它企業(yè)的深度學(xué)習(xí)框架多為二次開發(fā)。
· 中游技術(shù)層:主要包括視頻識(shí)別、圖片識(shí)別、模式匹配等嵌入式視覺軟件,以及一站式解決方案。算法,初創(chuàng)企業(yè)占優(yōu);云計(jì)算,幾乎被AWS、Google Cloud、Azure、阿里云等壟斷。
· 下游應(yīng)用層:為計(jì)算機(jī)視覺的落地場(chǎng)景,包括智慧安防、智慧金融、手機(jī)應(yīng)用、無(wú)人駕駛等商業(yè)領(lǐng)域。垂直行業(yè)龍頭占據(jù)場(chǎng)景,技術(shù)層初創(chuàng)企業(yè)向上滲透。
由此,可以將國(guó)內(nèi)計(jì)算機(jī)視覺的玩家分為三類:
1. 海康威視、大華股份、宇視科技等安防廠商:安防影像分析的市場(chǎng)需求驅(qū)動(dòng)此類企業(yè)的技術(shù)研發(fā),近年來(lái)安防行業(yè)頭部廠商紛紛推出自家智能化產(chǎn)品和解決方案。作為人工智能范疇中最關(guān)鍵的子領(lǐng)域之一(人類從外界獲取的信息中有80%~85%是依靠視覺實(shí)現(xiàn)的),計(jì)算機(jī)視覺技術(shù)的愿景是利用攝像機(jī)等視覺傳感裝置來(lái)代替人眼對(duì)物體進(jìn)行識(shí)別、跟蹤和測(cè)量,再由計(jì)算機(jī)處理這些視覺信息,從而達(dá)到像人眼一樣對(duì)事物進(jìn)行感知和認(rèn)知,直接對(duì)應(yīng)安防監(jiān)控系統(tǒng)“看得懂”的需求。
2. 互聯(lián)網(wǎng)巨頭公司:近年來(lái)基于深度學(xué)習(xí)的智能語(yǔ)音、計(jì)算機(jī)視覺、自然語(yǔ)言處理等技術(shù)開始向各個(gè)應(yīng)用領(lǐng)域滲透,全球人工智能產(chǎn)業(yè)規(guī)模快速增長(zhǎng)。為搶占人工智能高地,谷歌、微軟、阿里巴巴、百度、騰訊、IBM、Facebook 等國(guó)際知名企業(yè)均持續(xù)增加在人工智能領(lǐng)域的資本投入。美國(guó)、中國(guó)、英國(guó)、德國(guó)、日本等國(guó)家也分別出臺(tái)人工智能相關(guān)支持政策及國(guó)家戰(zhàn)略規(guī)劃,為整個(gè)產(chǎn)業(yè)的發(fā)展創(chuàng)造良好的政策環(huán)境。
3. 創(chuàng)業(yè)公司:包括商湯科技、依圖科技和曠視科技等企業(yè),普遍以細(xì)分領(lǐng)域?yàn)榘l(fā)力點(diǎn),布局思路各異。在商湯、曠視、依圖等頭部企業(yè)看,各家戰(zhàn)略思路差異明顯。商湯致力于構(gòu)造平臺(tái),專注底層基礎(chǔ)應(yīng)用,力圖在完善平臺(tái)后于其他領(lǐng)域快速落地。曠視則在致力于在安防、金融、零售、汽車、教育等廣泛領(lǐng)域提供軟硬件一體化的解決方案。依圖則表現(xiàn)出對(duì)安防、醫(yī)療兩大領(lǐng)域的專注深耕,依托產(chǎn)品化、工程化能力深入落地。
AI視覺未來(lái)的發(fā)展
視覺人工智能行業(yè)的發(fā)展,離不開技術(shù)的驅(qū)動(dòng):一方面諸如GPU、FPGA、ASIC等一系列AI芯片的出現(xiàn)極大提升了芯片計(jì)算能力,突破了傳統(tǒng)CPU的算力瓶頸;另一方面以深學(xué)習(xí)為代表的AI算法的崛起,使得AI視覺的識(shí)別能力有了很大的提高。硬件算力的提升以及軟件算法的進(jìn)步都對(duì)視覺人工智能的發(fā)展起到了重要的推動(dòng)作用。
AI視覺行業(yè)的快速發(fā)展一方面得益于現(xiàn)階段算力的大幅提升及算法的大幅改善(國(guó)內(nèi)算法甚至已經(jīng)達(dá)到國(guó)際水平),另一方面則受益于下游應(yīng)用市場(chǎng)的廣闊空間。機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等算法能力的不斷增強(qiáng)促進(jìn)了視覺人工智能行業(yè)的高速發(fā)展。
視覺處理的工作流程包含四個(gè)模塊:檢測(cè)、分類、跟蹤與語(yǔ)義分割。具體為成像設(shè)備首先捕獲圖像,然后對(duì)每個(gè)圖像進(jìn)行預(yù)處理,提取特征后輸入到分類模型中。人工智能視覺是采用圖像處理、模式識(shí)別、人工智能技術(shù)相結(jié)合的手段,著重于一幅或多幅圖像的計(jì)算機(jī)分析。
圖像可以由單個(gè)或者多個(gè)傳感器獲取,也可以是單個(gè)傳感器在不同時(shí)刻獲取的圖像序列。在消費(fèi)級(jí)領(lǐng)域,隨著數(shù)據(jù)量上漲、運(yùn)算力提升和深度學(xué)習(xí)算法的發(fā)展,計(jì)算機(jī)視覺技術(shù)越來(lái)越多地被應(yīng)用在各類消費(fèi)級(jí)應(yīng)用場(chǎng)景中,典型的如人臉識(shí)別服務(wù),具體包括人臉檢測(cè)、人臉關(guān)鍵特征點(diǎn)、人臉對(duì)比、人臉?biāo)阉?、人臉屬性、人臉聚類、人力活體檢測(cè)等。
AI視覺處理就是用各種成像系統(tǒng)代替視覺器官作為輸入敏感手段,由計(jì)算機(jī)來(lái)代替大腦完成處理和解釋。這里要指出的一點(diǎn)是在計(jì)算機(jī)視覺系統(tǒng)中計(jì)算機(jī)起代替人腦的作用,但并不意味著計(jì)算機(jī)必須按人類視覺的方法完成視覺信息的處理,計(jì)算機(jī)視覺可以而且應(yīng)該根據(jù)計(jì)算機(jī)系統(tǒng)的特點(diǎn)來(lái)進(jìn)行視覺信息的處理。但是,人類視覺系統(tǒng)是迄今為止,人們所知道的功能最強(qiáng)大和完善的視覺系統(tǒng)。
當(dāng)前人工智能理論和技術(shù)日益成熟,應(yīng)用范圍不斷擴(kuò)大,產(chǎn)業(yè)正在逐步形成、不斷豐富,相應(yīng)的商業(yè)模式也在持續(xù)演進(jìn)和多元化。據(jù)IDC統(tǒng)計(jì),2018年我國(guó)人工智能市場(chǎng)規(guī)模為161.9億元,預(yù)計(jì)到2022年市場(chǎng)規(guī)模將接近700億元,年復(fù)合增長(zhǎng)率超過(guò)50%。據(jù)中國(guó)人工智能學(xué)會(huì)和羅蘭貝格咨詢公司預(yù)測(cè),2025年市場(chǎng)規(guī)模將達(dá)到3萬(wàn)億美元。
以深度學(xué)習(xí)為代表的人工智能算法的出現(xiàn)極大推動(dòng)了視覺人工智能行業(yè)的發(fā)展。計(jì)算機(jī)視覺是人工智能行業(yè)的最大組成部分,與其他細(xì)分的比較來(lái)看,計(jì)算機(jī)視覺技術(shù)應(yīng)用的市場(chǎng)規(guī)模也遠(yuǎn)遠(yuǎn)大于其他細(xì)分。
那么,視覺系統(tǒng)芯片如果在未來(lái)實(shí)現(xiàn)產(chǎn)業(yè)化,其市場(chǎng)空間有多大?據(jù)推算,2018年,圖像傳感器的市場(chǎng)規(guī)模在150億美元左右,雖然其中120億美元發(fā)生在智能手機(jī)領(lǐng)域,但未來(lái)發(fā)展比較快的4個(gè)領(lǐng)域是安防、國(guó)防、汽車、醫(yī)療,到2021年將會(huì)迎來(lái)40億美元的市場(chǎng)空間,年增長(zhǎng)率約10%—20%。
視覺處理器的需求增長(zhǎng)會(huì)更快,目前該市場(chǎng)的整體規(guī)模(包括硬件、軟件、服務(wù))在170億美元至180億美元,單從硬件來(lái)看也占到約30億美元。如果視覺系統(tǒng)芯片可以覆蓋70億美元的市場(chǎng)規(guī)模,企業(yè)在這中間拿到1%的話,其盈利空間就已經(jīng)很大了。
近年來(lái),國(guó)內(nèi)外一批新型人工智能企業(yè),依托人工智能領(lǐng)域技術(shù)和算法優(yōu)勢(shì)向芯片行業(yè)滲透,加強(qiáng)人工智能芯片基礎(chǔ)層研發(fā)。從市場(chǎng)格局來(lái)看,已經(jīng)發(fā)展成為一個(gè)相對(duì)獨(dú)立又相互依存的產(chǎn)業(yè)生態(tài)。在前端,索尼是圖像傳感器市場(chǎng)、生產(chǎn)和技術(shù)的領(lǐng)導(dǎo)者,緊隨其后的三星和豪威科技也保持著不錯(cuò)的競(jìng)爭(zhēng)力;在后端,Mobileye和英偉達(dá)(NVIDIA)是提供視覺處理芯片的主要廠商,在國(guó)內(nèi)該領(lǐng)域的公司有地平線等。
然而,截至目前,尚未有企業(yè)實(shí)現(xiàn)“圖像傳感器+視覺處理器”集成式芯片的大規(guī)模量產(chǎn)。不管是現(xiàn)在的創(chuàng)業(yè)企業(yè),還是已經(jīng)在市場(chǎng)上占有一定份額的大企業(yè),不是做圖像傳感器,就是做后端的視覺處理器,這將給初創(chuàng)企業(yè)帶來(lái)機(jī)會(huì)。
評(píng)論