新聞中心

EEPW首頁 > 編輯觀點 > 什么是圖像識別?圖像識別是如何實現(xiàn)的?

什么是圖像識別?圖像識別是如何實現(xiàn)的?

作者:陳玲麗 時間:2020-08-24 來源:電子產(chǎn)品世界 收藏

當我們看到一個東西,大腦會迅速判斷是不是見過這個東西或者類似的東西。這個過程有點兒像搜索,我們把看到的東西和記憶中相同或相類的東西進行匹配,從而識別它。機器的也是類似的,通過分類并提取重要特征而排除多余的信息來識別圖像。

本文引用地址:http://m.butianyuan.cn/article/202008/417486.htm

歸根結(jié)底,機器的和人類的原理相近,過程也大同小異。只是技術(shù)的進步讓機器不但能像人類一樣認花認草認物認人,還開始擁有超越人類的識別能力。

圖像識別概述

圖像識別是人工智能的一個重要領(lǐng)域,是指利用計算機對圖像進行處理、分析和理解,以識別各種不同模式的目標和對像的技術(shù),并對質(zhì)量不佳的圖像進行一系列的增強與重建技術(shù)手段,從而有效改善圖像質(zhì)量。

今天所指的圖像識別并不僅僅是用人類的肉眼,而是借助計算機技術(shù)進行識別。雖然人類的識別能力很強大,但是對于高速發(fā)展的社會,人類自身識別能力已經(jīng)滿足不了我們的需求,于是就產(chǎn)生了基于計算機的圖像識別技術(shù)。

這就像人類研究生物細胞,完全靠肉眼觀察細胞是不現(xiàn)實的,這樣自然就產(chǎn)生了顯微鏡等用于精確觀測的儀器。通常一個領(lǐng)域有固有技術(shù)無法解決的需求時,就會產(chǎn)生相應(yīng)的新技術(shù)。圖像識別技術(shù)也是如此,此技術(shù)的產(chǎn)生就是為了讓計算機代替人類去處理大量的物理信息,解決人類無法識別或者識別率特別低的信息。

一般工業(yè)使用中,采用工業(yè)相機拍攝圖片,然后再利用軟件根據(jù)圖片灰階差做進一步識別處理。隨著計算機及信息技術(shù)的迅速發(fā)展,圖像識別技術(shù)的應(yīng)用逐漸擴大到諸多領(lǐng)域,尤其是在面部及指紋識別、衛(wèi)星云圖識別及臨床醫(yī)療診斷等多個領(lǐng)域日益發(fā)揮著重要作用。

通常圖像識別技術(shù)主要是指采用計算機按照既定目標對捕獲的系統(tǒng)前端圖片進行處理,在日常生活中圖像識別技術(shù)的應(yīng)用也十分普遍,比如車牌捕捉、商品條碼識別及手寫識別等。隨著該技術(shù)的逐漸發(fā)展并不斷完善,未來將具有更加廣泛的應(yīng)用領(lǐng)域。

640.gif

圖像識別以開放API(Application Programming Interface,應(yīng)用程序編程接口)的方式提供給用戶,用戶通過實時訪問和調(diào)用API獲取推理結(jié)果,幫助用戶自動采集關(guān)鍵數(shù)據(jù),打造智能化業(yè)務(wù)系統(tǒng),提升業(yè)務(wù)效率。

圖像識別原理

圖像識別的發(fā)展經(jīng)歷了三個階段:文字識別、數(shù)字圖像處理與識別、物體識別。

· 文字識別的研究是從 1950年開始的,一般是識別字母、數(shù)字和符號,從印刷文字識別到手寫文字識別,應(yīng)用非常廣泛。

· 數(shù)字圖像處理和識別的研究開始于1965年。數(shù)字圖像與模擬圖像相比具有存儲,傳輸方便可壓縮、傳輸過程中不易失真、處理方便等巨大優(yōu)勢,這些都為圖像識別技術(shù)的發(fā)展提供了強大的動力。

· 物體的識別主要指的是對三維世界的客體及環(huán)境的感知和認識,屬于高級的計算機視覺范疇。它是以數(shù)字圖像處理與識別為基礎(chǔ)的結(jié)合人工智能、系統(tǒng)學(xué)等學(xué)科的研究方向,其研究成果被廣泛應(yīng)用在各種工業(yè)及探測機器人上。

圖像識別原理主要是需處理具有一定復(fù)雜性的信息,處理技術(shù)并不是隨意出現(xiàn)在計算機中,結(jié)合計算機程序?qū)ο嚓P(guān)內(nèi)容模擬并予以實現(xiàn)。圖像識別的過程歸納起來主要包括4個步驟:

640.jpg

· 獲取信息:主要是指將聲音和光等信息通過傳感器向電信號轉(zhuǎn)換,也就是對識別對象的基本信息進行獲取,并將其向計算機可識別的信息轉(zhuǎn)換。

· 信息預(yù)處理:主要是指采用去噪、變換及平滑等操作對圖像進行處理,基于此使圖像的重要特點提高。

· 抽取及選擇特征:主要是指在模式識別中,抽取及選擇圖像特征,概括而言就是識別圖像具有種類多樣的特點,如采用一定方式分離,就要識別圖像的特征,獲取特征也被稱為特征抽?。辉谔卣鞒槿≈兴玫降奶卣饕苍S對此次識別并不都是有用的,這個時候就要提取有用的特征,這就是特征的選擇。特征抽取和選擇在圖像識別過程中是非常關(guān)鍵的技術(shù)之一,所以對這一步的理解是圖像識別的重點。

· 設(shè)計分類器及分類決策:其中設(shè)計分類器就是根據(jù)訓(xùn)練對識別規(guī)則進行制定,基于此識別規(guī)則能夠得到特征的主要種類,進而使圖像識別的不斷提高辨識率,此后再通過識別特殊特征,最終實現(xiàn)對圖像的評價和確認。

在計算機進行的圖像識別中,計算機首先就能夠完成圖像分類并選出重要信息、排除冗余信息,根據(jù)這一分類計算機就能夠結(jié)合自身記憶存儲結(jié)合相關(guān)要求進行圖像的識別,這一過程本身與人腦識別圖像并不存在著本質(zhì)差別。對于圖像識別技術(shù)來說,其本身提取出的圖像特征直接關(guān)系著圖像識別能否取得較為滿意的結(jié)果。

值得注意的是,由于計算機歸根結(jié)底不同于人類的大腦,所以計算機提取出的圖像特征存在著不穩(wěn)定性,這種不穩(wěn)定性往往會因為計算機提取圖像特征的明顯與普通影響圖像識別的效率與準確性,由此可見圖像特征對于AI中圖像識別技術(shù)的重要意義。

圖像識別技術(shù)

計算機的圖像識別技術(shù)就是模擬人類的圖像識別過程,在圖像識別的過程中進行模式識別是必不可少的。簡單地說,計算機的模式識別就是對數(shù)據(jù)進行分類,它是一門與數(shù)學(xué)緊密結(jié)合的科學(xué),其中所用的思想大部分是概率與統(tǒng)計。模式識別主要分為三種:統(tǒng)計模式識別、句法模式識別、模糊模式識別。

對于當下AI+時代的圖像識別技術(shù)來說,神經(jīng)網(wǎng)絡(luò)的圖像識別與非線性降維的圖像識別是最為常見的兩種圖像識別技術(shù)。

640.jpg

基于神經(jīng)網(wǎng)絡(luò)的圖像識別:

神經(jīng)網(wǎng)絡(luò)圖像識別技術(shù)是一種比較新型的圖像識別技術(shù),是在傳統(tǒng)的圖像識別方法和基礎(chǔ)上融合神經(jīng)網(wǎng)絡(luò)算法的一種圖像識別方法。這里的神經(jīng)網(wǎng)絡(luò)是指人工神經(jīng)網(wǎng)絡(luò),也就是說這種神經(jīng)網(wǎng)絡(luò)并不是動物本身所具有的真正的神經(jīng)網(wǎng)絡(luò),而是人類模仿動物神經(jīng)網(wǎng)絡(luò)后人工生成的。在神經(jīng)網(wǎng)絡(luò)圖像識別技術(shù)中,遺傳算法與BP網(wǎng)絡(luò)相融合的神經(jīng)網(wǎng)絡(luò)圖像識別模型是非常經(jīng)典的,在很多領(lǐng)域都有它的應(yīng)用。

在圖像識別系統(tǒng)中利用神經(jīng)網(wǎng)絡(luò)系統(tǒng),一般會先提取圖像的特征,再利用圖像所具有的特征映射到神經(jīng)網(wǎng)絡(luò)進行圖像識別分類。以汽車拍照自動識別技術(shù)為例,當汽車通過的時候,汽車自身具有的檢測設(shè)備會有所感應(yīng)。此時檢測設(shè)備就會啟用圖像采集裝置來獲取汽車正反面的圖像。獲取了圖像后必須將圖像上傳到計算機進行保存以便識別。最后車牌定位模塊就會提取車牌信息,對車牌上的字符進行識別并顯示最終的結(jié)果。在對車牌上的字符進行識別的過程中就用到了基于模板匹配算法和基于人工神經(jīng)網(wǎng)絡(luò)算法。

基于非線性降維的圖像識別:

計算機的圖像識別技術(shù)是一個異常高維的識別技術(shù)。不管圖像本身的分辨率如何,其產(chǎn)生的數(shù)據(jù)經(jīng)常是多維性的,這給計算機的識別帶來了非常大的困難。想讓計算機具有高效地識別能力,最直接有效的方法就是降維。降維分為線性降維和非線性降維。例如主成分分析(PCA)和線性奇異分析(LDA)等就是常見的線性降維方法,它們的特點是簡單、易于理解。但是通過線性降維處理的是整體的數(shù)據(jù)集合,所求的是整個數(shù)據(jù)集合的最優(yōu)低維投影。

經(jīng)過驗證,這種線性的降維策略計算復(fù)雜度高而且占用相對較多的時間和空間,因此就產(chǎn)生了基于非線性降維的圖像識別技術(shù),它是一種極其有效的非線性特征提取方法。此技術(shù)可以發(fā)現(xiàn)圖像的非線性結(jié)構(gòu)而且可以在不破壞其本征結(jié)構(gòu)的基礎(chǔ)上對其進行降維,使計算機的圖像識別在盡量低的維度上進行,這樣就提高了識別速率。例如人臉圖像識別系統(tǒng)所需的維數(shù)通常很高,其復(fù)雜度之高對計算機來說無疑是巨大的“災(zāi)難”。由于在高維度空間中人臉圖像的不均勻分布,使得人類可以通過非線性降維技術(shù)來得到分布緊湊的人臉圖像,從而提高人臉識別技術(shù)的高效性。

在AI領(lǐng)域之中,圖像識別技術(shù)占據(jù)著極為重要的地位,而隨著計算機技術(shù)與信息技術(shù)的不斷發(fā)展,AI中的圖像識別技術(shù)的應(yīng)用范圍不斷擴展:IBM的Watson醫(yī)療診斷、各種指紋識別、及常用的支付寶的面部識別以及百度地圖中全景衛(wèi)星云圖識別等都屬于這一應(yīng)用的典型,AI這一技術(shù)已經(jīng)應(yīng)用于日常生活之中,圖像識別技術(shù)將來定會有著較為廣泛的運用。

圖像識別的應(yīng)用

移動互聯(lián)網(wǎng)、智能手機以及社交網(wǎng)絡(luò)的發(fā)展帶來了海量圖片信息,不受地域和語言限制的圖片逐漸取代了繁瑣而微妙的文字,成為了傳詞達意的主要媒介。但伴隨著圖片成為互聯(lián)網(wǎng)中的主要信息載體,難題隨之出現(xiàn)。

當信息由文字記載時,我們可以通過關(guān)鍵詞搜索輕易找到所需內(nèi)容并進行任意編輯,而當信息是由圖片記載時,我們卻無法對圖片中的內(nèi)容進行檢索,從而影響了我們從圖片中找到關(guān)鍵內(nèi)容的效率。圖片給我們帶來了快捷的信息記錄和分享方式,卻降低了我們的信息檢索效率。在這個環(huán)境下,計算機的圖像識別技術(shù)就顯得尤為重要。

圖像識別初級應(yīng)用:主要是娛樂化、工具化,在這個階段用戶主要是借助圖像識別技術(shù)來滿足某些娛樂化需求。例如,百度魔圖的“大咖配”功能可以幫助用戶找到與其長相最匹配的明星,百度的圖片搜索可以找到相似的圖片;Facebook研發(fā)了根據(jù)相片進行人臉匹配的DeepFace;雅虎收購的圖像識別公司IQ Engine開發(fā)的Glow可以通過圖像識別自動生成照片的標簽以幫助用戶管理手機上的照片;國內(nèi)專注于圖像識別的創(chuàng)業(yè)公司曠視科技成立了VisionHacker游戲工作室,借助圖形識別技術(shù)研發(fā)移動端的體感游戲。

這個階段還有一個非常重要的細分領(lǐng)域 —— OCR(Optical Character Recognition,光學(xué)字符識別),是指光學(xué)設(shè)備檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機文字的過程,就是計算機對文字的閱讀。

借助OCR技術(shù)將這些文字和信息提取出來。在這方面,國內(nèi)產(chǎn)品包括百度的涂書筆記和百度翻譯等;而谷歌借助經(jīng)過DistBelief 訓(xùn)練的大型分布式神經(jīng)網(wǎng)絡(luò),對于Google 街景圖庫的上千萬門牌號的識別率超過90%,每天可識別百萬門牌號。

圖像識別初級應(yīng)用僅作為我們的輔助工具存在,為我們自身的人類視覺提供了強有力的輔助和增強,帶給了我們一種全新的與外部世界進行交互的方式。這些應(yīng)用雖然看起來很普通,但當圖像識別技術(shù)滲透到我們行為習(xí)慣的方方面面時,我們就相當于把一部分視力外包給了機器,就像我們已經(jīng)把部分記憶外包給了搜索引擎一樣。

這將極大改善我們與外部世界的交互方式,此前我們利用科技工具探尋外部世界的流程是這樣:人眼捕捉目標信息、大腦將信息進行分析、轉(zhuǎn)化成機器可以理解的關(guān)鍵詞、與機器交互獲得結(jié)果。而當圖像識別技術(shù)賦予了機器“眼睛”之后,這個過程就可以簡化為:人眼借助機器捕捉目標信息、機器和互聯(lián)網(wǎng)直接對信息進行分析并返回結(jié)果。圖像識別使攝像頭成為解密信息的鑰匙,我們僅需把攝像頭對準某一未知事物,就能得到預(yù)想的答案,攝像頭成為連接人和世界信息的重要入口之一。

640.png

圖像識別的高級應(yīng)用:成為擁有視覺的機器,當機器真正具有了視覺之后,它們完全有可能代替我們?nèi)ネ瓿蛇@些行動。目前的圖像識別應(yīng)用就像是盲人的導(dǎo)盲犬,在盲人行動時為其指引方向;而未來的圖像識別技術(shù)將會同其他人工智能技術(shù)融合在一起成為盲人的全職管家,不需要盲人進行任何行動,而是由這個管家?guī)椭渫瓿伤惺虑椤?/p>

舉個例子,如果圖像識別是一個工具,就如同我們在駕駛汽車時佩戴谷歌眼鏡,它將外部信息進行分析后傳遞給我們,我們再依據(jù)這些信息做出行駛決策;而如果將圖像識別利用在機器視覺和人工智能上,這就如同谷歌的無人駕駛汽車,機器不僅可以對外部信息進行獲取和分析,還全權(quán)負責(zé)所有的行駛活動,讓我們得到完全解放。

圖像識別并非一個新領(lǐng)域,但放眼全局,它仍處于早期階段。就像任何一個典型的成長中少年一樣,在適應(yīng)現(xiàn)實世界時也存在問題。圖像識別是計算機視覺時代到來的早期征兆,無論它將如何應(yīng)用或?qū)?yīng)用于哪些行業(yè),圖像識別技術(shù)永遠不可能孤立發(fā)展。只有通過訪問更多圖片,實時數(shù)據(jù),花費更多的時間和精力才能使其更加強大;只有認識到這一點,并充分利用這些聯(lián)系的企業(yè)才可能在未來取得成功。

作為一門科技含量較高的新興技術(shù),AI的圖像識別技術(shù)已經(jīng)與用戶的生活緊密結(jié)合在一起,許多科技巨頭也開始了在圖像識別和人工智能領(lǐng)域的布局:

Facebook簽下的人工智能專家Yann LeCun最重大的成就就是在圖像識別領(lǐng)域,其提出的LeNet為代表的卷積神經(jīng)網(wǎng)絡(luò),在應(yīng)用到各種不同的圖像識別任務(wù)時都取得了不錯效果,被認為是通用圖像識別系統(tǒng)的代表之一;Google 借助模擬神經(jīng)網(wǎng)絡(luò)“DistBelief”通過對數(shù)百萬份 YouTube 視頻的學(xué)習(xí)自行掌握了貓的關(guān)鍵特征,這是機器在沒有人幫助的情況下自己讀懂了貓的概念。值得一提的是,負責(zé)這個項目的Andrew NG已經(jīng)轉(zhuǎn)投百度領(lǐng)導(dǎo)百度研究院,其一個重要的研究方向就是人工智能和圖像識別。這也能看出國內(nèi)科技公司對圖像識別技術(shù)以及人工智能技術(shù)的重視程度。

為什么有數(shù)十億美元投入到這項技術(shù)?原因是圖像識別潛力巨大。圖像識別是一個非常抽象的領(lǐng)域。但是,當應(yīng)用于具體情境時,其改變企業(yè)的潛力是無可辯駁的。圖像識別技術(shù),連接著機器和這個一無所知的世界,幫助它越發(fā)了解這個世界,并最終代替我們完成更多的任務(wù)。



關(guān)鍵詞: 圖像識別

評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉