手機廠商叫停像素之戰(zhàn) 攝像頭后千億生意待淘金
上海地鐵的平面廣告,一年四季都在變換,手機廣告一直是主角之一。2017年的手機廣告,逆光、夜景拍照成為訴求的焦點,像素的高低之爭慢慢隱退。
本文引用地址:http://m.butianyuan.cn/article/201712/372719.htm手機配上攝像頭后,在最近十幾年的時間里,攝像頭的像素從30萬到100萬、200萬、500萬到1000萬,直至有超過2000萬像素的攝像手機的出現(xiàn);攝影功能日漸強悍的手機首先讓傻瓜相機銷聲匿跡,而家用數(shù)碼相機的市場也被日漸蠶食,岌岌可危。
像素越高,手機功能越強大,但是在手機像素越過2000萬門檻之后,各大手機廠商比拼像素量級的游戲玩不下去了。
在美國工作多年的資深視頻處理專家單記章告訴第一財經(jīng)記者,單個像素的尺寸從2004年的5.6微米,越做越小,現(xiàn)在已經(jīng)達到1微米的極限,在手機有限的物理空間里,靠擴充像素提高圖像質(zhì)量基本上走到了盡頭。
攝像頭新舊事
攝像頭的運用最早是在電腦上。現(xiàn)任黑芝麻智能科技有限公司(下稱“黑芝麻”)CEO的單記章經(jīng)歷了攝像頭從電腦運用到手機的完整周期。
“當年,我們的產(chǎn)品上市了,從賣得不錯到無人問津,不過短短幾個月的時間。”回憶起17年前在硅谷的工作經(jīng)歷,單記章很是感慨。
彼時,單記章所在的Omnivision(豪威科技)正在嘗試將攝像頭放入電腦中,以供消費者拍照并分享。
電腦攝像頭市場卻沒有預期的火熱。單記章告訴第一財經(jīng)記者,PC端攝像頭遭到冷落,主要是因為當時的網(wǎng)速太慢,照片無法傳出去、無法分享。“所以我們考慮轉(zhuǎn)戰(zhàn)移動端。雖然速度也不快,但至少(手機)是能傳出去的?!?/p>
2000年9月,日本手機制造商夏普發(fā)布了世界上第一款帶有攝像頭的手機J—SH04。而Omnivision正是這款手機的供應商之一,雖然那時的攝像頭僅有11萬像素而已。
此后,市場逐漸被打開。單記章對比了當時的出貨數(shù)據(jù),“之前的市場上,我們的出貨量只有1k+1k;后來就變成了一天3kk,一年相當于十億顆。”(編者注:1k為一千,1k+1k是兩千,1kk是一百萬)據(jù)介紹,Omnivision曾在全球圖像傳感器市場占有高達40%的份額。
市場研究機構IDC最新預計,2017年,全球智能手機的出貨量將達到15億部,到2021年,預計將增長至17億部。
每一部智能手機基本上都有幾個攝像頭,僅僅手機對攝像頭數(shù)據(jù)處理的需求,就是一個無比龐大的市場,單記章選擇離開Omnivision,而當年的中學同學劉衛(wèi)紅離開一家世界500強企業(yè),選擇與他一起創(chuàng)業(yè),圖像市場的巨大前景是至關重要的一個考慮因素。
攝像頭背后的圖像傳感器與應用處理市場,并不僅僅是局限于手機領域。隨著人工智能產(chǎn)業(yè)的發(fā)展,從圖像的獲取、傳導到計算、理解、反饋,再到應用層面的倉儲物流、智能駕駛,圍繞在攝像頭身前身后的生意模式正逐漸走來。
所謂的圖像感知,是人工智能的一個重要細分領域,是計算機對圖像進行處理、分析和理解,來感知并識別不同的目標。
第一財經(jīng)記者梳理發(fā)現(xiàn),在前端捕捉深度信息,后端處理并理解復雜數(shù)據(jù),最后反饋從而進行決策,成為圖像感知產(chǎn)業(yè)活動中的一個循環(huán)。
正是在這樣一個循環(huán)流程中,誕生了大量初創(chuàng)企業(yè),它們以自己掌握的硬件或算法為核心,提供軟件或軟硬一體化的產(chǎn)品,以期撬動產(chǎn)業(yè)金礦。
平安證券發(fā)布的《人工智能圖像識別專題報告》顯示,截至2016年初,在所有AI領域的企業(yè)中,聚焦于圖像感知的公司數(shù)量總計有185家,僅次于最火的機器學習。而其截至2016年初的累計融資總額更是超過了11億美元。
和單記章一樣,敏銳的企業(yè)家們小心翼翼地打量著這個龐大的市場,試圖從各個垂直領域切入,尋找著更進一步的可能。
從捕捉到理解
刷臉支付、機場自助通關、物流自動分揀、無人駕駛等都是圖像感知技術快速普及的一個縮影。在這樣場景的背后,是越加成熟的技術和越發(fā)準確的識別率。
據(jù)第一財經(jīng)記者了解,在ImageNet比賽的圖像識別中,對象分類項目的準確率已經(jīng)從2010年的72%提升到了2016年的97%。那么,如此之高的準確率是如何實現(xiàn)的呢?
無論是深度攝像頭、AI芯片,還是基礎算法、神經(jīng)網(wǎng)絡,在圖像感知產(chǎn)業(yè)鏈上,一切都是為了兩個目的而服務的:更好地在前端捕捉深度信息,以及更準確地在后端處理并理解數(shù)據(jù)。
“如果前面獲取的圖像壞了,或者糊了,那后方如何針對圖像進行分析呢?”單記章問道。
的確,在圖像捕捉的過程中極容易受到外界的干擾與影響,較上述物流領域更為復雜的情況比比皆是,比如自動駕駛:需要應對山洞內(nèi)外的不同光信號強度、車身抖動甚至極端的霧霾及雨雪天氣?!巴砩虾馨?,雨飛來飛去、雨刷刮來刮去,這個時候怎么看清楚;大太陽照在攝像頭上,人眼都看不見,這個時候又如何判斷。這些都是圖像捕捉中的難點。”單記章表示。
此時,就需要加強數(shù)據(jù)的預處理,其目的就是加強有用的信息,改善圖像質(zhì)量,便于對圖像進行后期的處理分析。單記章透露,懸掛的攝像頭容易來回晃動,他們曾做過一個防抖的優(yōu)化方案,不僅增強了畫質(zhì),還提高了設備的使用壽命。
另一方面,相比前者捕捉圖像需要應對各種突發(fā)因素,后者的處理分析看似更加簡單。但往往這種情況下的計算更為復雜。
單記章告訴記者,刷臉技術用人工智能、神經(jīng)網(wǎng)絡來做,識別率都能達到99%以上,很難出錯。但是很多技術無法抵御蓄意的攻擊,比如讓機器判斷是真人、照片還是視頻或者模型。這時候,如何實現(xiàn)生物特征的判斷非常重要。
比如,當開車遇到前方有物體時,在判斷該物體的車道、速度、方向等因素之外,還需要判斷這是個路樁,還是輛車,或者是個人?!皬碗s環(huán)境下,需要對場景進行理解,是人是車結(jié)果一定是不一樣的。”單記章稱。
超越硬件
“如何應對不斷上漲的計算量是圖像處理中最難的部分之一?!眻D漾科技副總經(jīng)理徐韜向記者透露,960P的深度攝像頭如果想要更進一步做成1080P的話,換一個基礎攝像頭其實并不難,但精度的提高將導致計算量的大幅上漲,把握如此之高的計算量才是難點。
事實上,在圖像感知領域,硬件的難以突破由來已久,即便是在整個人工智能的發(fā)展歷程中,硬件的計算能力不足始終是制約其發(fā)展的瓶頸之一??煽少Y本合伙人李笙凱在接受第一財經(jīng)記者采訪時表示,雖然深度學習和GPU的利用對視覺硬件的處理計算能力有很大的提高,但怎么進一步提高到可用的程度,市場上還始終沒有明確的解決方案。
單記章對此表示認同,他認為這是一個系統(tǒng)工程,一方面要提高硬件的計算能力,提高算法的適應能力,同時也需要有創(chuàng)新的整體解決方案。他以不同時間開車為例,“在傍晚時太陽平射過來,攝像頭需要減少光強和炫光,而晚上又需要盡可能接受最多的光,還要解決對面大燈的照射問題,這里就需要結(jié)合光學、攝像頭和圖像處理技術,在此基礎上采用機器學習的方法,才能從系統(tǒng)的角度更有效地解決端的計算能力不足的問題”。
另一方面,單記章認為,現(xiàn)階段的很多硬件在物理上已經(jīng)達到極限,難以升級,比如圖像傳感器?!坝捎谳d體本身的大小限制,攝像頭需要做得很小,這就導致傳感器的感光點也越做越小。有人研發(fā)還在做0.9微米,但這個性能已經(jīng)很差了??窟@些東西提高也會有一定的空間,但是真的非常難。”
“圖像感知技術正處于發(fā)展階段,還有很長的路要走,比如軟件算法也還需要5~10年甚至20年的積累突破?!崩铙蟿P對記者表示。他認為,行業(yè)的技術壁壘和應用壁壘一直都存在,市場的完全爆發(fā)還需要兩到三年的時間。
不過,也正是因為存在這樣巨大的發(fā)展空間,潛力才得以凸顯,可能才得以孕育。這些在行業(yè)中耕耘多年的從業(yè)者,他們擁有最專業(yè)的眼光和最敏銳的嗅覺,有心證明他們的堅持并非一場豪賭。
是不是豪賭無從得知,但正如李笙凱對當下的判斷:優(yōu)化已有的技術,以滿足市場的剛性需求,是這個行業(yè)最困難的痛點,亦是最敞亮的通道。
評論