Fast YOLO:用于實(shí)時(shí)嵌入式目標(biāo)檢測(cè)(附論文下載)
目標(biāo)檢測(cè)被認(rèn)為是計(jì)算機(jī)視覺領(lǐng)域中最具挑戰(zhàn)性的問題之一,因?yàn)樗婕皥?chǎng)景中對(duì)象分類和對(duì)象定位的組合。今天分享這個(gè)框架有點(diǎn)陳舊,但精髓!
一、前言
目標(biāo)檢測(cè)被認(rèn)為是計(jì)算機(jī)視覺領(lǐng)域中最具挑戰(zhàn)性的問題之一,因?yàn)樗婕皥?chǎng)景中對(duì)象分類和對(duì)象定位的組合。最近,與其他方法相比,深度神經(jīng)網(wǎng)絡(luò) (DNN) 已被證明可以實(shí)現(xiàn)卓越的目標(biāo)檢測(cè)性能,其中YOLOv2是基于DNN的最先進(jìn)技術(shù)之一。
目標(biāo)檢測(cè)方法在速度和準(zhǔn)確性方面。盡管YOLOv2可以在強(qiáng)大的GPU上實(shí)現(xiàn)實(shí)時(shí)性能,但在計(jì)算能力和內(nèi)存有限的嵌入式計(jì)算設(shè)備上利用這種方法進(jìn)行視頻中的實(shí)時(shí)目標(biāo)檢測(cè)仍然非常具有挑戰(zhàn)性。
二、概要
在今天分享中,有研究者提出了一個(gè)名為Fast YOLO的新框架,這是一個(gè)快速的You Only Look Once框架,它可以加速YOLOv2以便能夠以實(shí)時(shí)方式在嵌入式設(shè)備上執(zhí)行視頻中的目標(biāo)檢測(cè)。
首先,利用進(jìn)化深度智能框架來進(jìn)化YOLOv2網(wǎng)絡(luò)架構(gòu),并產(chǎn)生一個(gè)優(yōu)化的架構(gòu)(這里稱為O-YOLOv2),其參數(shù)減少了2.8倍,IOU下降了約2%。為了在保持性能的同時(shí)進(jìn)一步降低嵌入式設(shè)備的功耗,在提出的Fast YOLO框架中引入了一種運(yùn)動(dòng)自適應(yīng)推理方法,以降低基于時(shí)間運(yùn)動(dòng)特性的O-YOLOv2深度推理的頻率。實(shí)驗(yàn)結(jié)果表明,與原始YOLOv2相比,所提出的Fast YOLO框架可以將深度推理的數(shù)量平均減少38.13%,視頻中目標(biāo)檢測(cè)的平均加速約為3.3倍,導(dǎo)致Fast YOLO運(yùn)行在Nvidia Jetson TX1嵌入式系統(tǒng)上平均約為18FPS。
三、新框架
提出的Fast YOLO框架分為兩個(gè)主要部分:i)優(yōu)化的YOLOv2架構(gòu),以及ii運(yùn)動(dòng)自適應(yīng)推理(見上圖)。對(duì)于每個(gè)視頻幀,由帶有參考幀的視頻幀組成的圖像堆棧被傳遞到1×1卷積層。卷積層的結(jié)果是一個(gè)運(yùn)動(dòng)概率圖,然后將其送入運(yùn)動(dòng)自適應(yīng)推理模塊以確定是否需要深度推理來計(jì)算更新的類概率圖。正如介紹中提到的,主要目標(biāo)是引入一個(gè)視頻中的目標(biāo)檢測(cè)框架,該框架可以在嵌入式設(shè)備上更快地執(zhí)行,同時(shí)減少資源使用,從而顯著降低功耗。通過利用這種運(yùn)動(dòng)自適應(yīng)推理方法,深度推理的頻率大大降低,并且僅在必要時(shí)執(zhí)行。
深度神經(jīng)網(wǎng)絡(luò)的主要挑戰(zhàn)之一,尤其是在將它們用于嵌入式場(chǎng)景時(shí),是網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)。設(shè)計(jì)過程通常由人類專家執(zhí)行,他探索大量網(wǎng)絡(luò)配置,以在建模精度和參數(shù)數(shù)量方面為特定任務(wù)找到最佳架構(gòu)。尋找優(yōu)化的網(wǎng)絡(luò)架構(gòu)目前通常作為超參數(shù)優(yōu)化問題來解決,但這種解決問題的方法非常耗時(shí),而且大多數(shù)方法對(duì)于大型網(wǎng)絡(luò)架構(gòu)來說要么在計(jì)算上難以處理,要么導(dǎo)致次優(yōu)解決方案不夠嵌入式使用。
例如,超參數(shù)優(yōu)化的一種常用方法是網(wǎng)格搜索,其中檢查大量不同的網(wǎng)絡(luò)配置,然后選擇最佳配置作為最終的網(wǎng)絡(luò)架構(gòu)。然而,為視頻中的目標(biāo)檢測(cè)而設(shè)計(jì)的深度神經(jīng)網(wǎng)絡(luò)(如YOLOv2)具有大量參數(shù),因此在計(jì)算上難以搜索整個(gè)參數(shù)空間以找到最佳解決方案。
因此,研究者沒有利用超參數(shù)優(yōu)化方法來獲得基于YOLOv2的最佳網(wǎng)絡(luò)架構(gòu),而是利用專為提高網(wǎng)絡(luò)效率而設(shè)計(jì)的網(wǎng)絡(luò)優(yōu)化策略。特別是,研究者利用進(jìn)化深度智能框架來優(yōu)化網(wǎng)絡(luò)架構(gòu),以合成滿足嵌入式設(shè)備內(nèi)存和計(jì)算能力限制的深度神經(jīng)網(wǎng)絡(luò)。
為了進(jìn)一步降低處理器單元的功耗,用于視頻中的嵌入式目標(biāo)檢測(cè),研究者利用了這樣一個(gè)事實(shí),即并非所有捕獲的視頻幀都包含唯一信息,因此不需要對(duì)所有幀進(jìn)行深度推理。因此,研究者引入了一種運(yùn)動(dòng)自適應(yīng)推理方法來確定特定視頻幀是否需要深度推理。通過在必要時(shí)使用前面介紹的O-YOLOv2網(wǎng)絡(luò)進(jìn)行深度推理,這種運(yùn)動(dòng)自適應(yīng)推理技術(shù)可以幫助框架減少對(duì)計(jì)算資源的需求,從而顯著降低功耗系統(tǒng)以及處理速度的提高。
四、實(shí)驗(yàn)
原始YOLOv2網(wǎng)絡(luò)架構(gòu)與優(yōu)化后的YOLOv2之間的架構(gòu)和性能比較
提出的Fast YOLO、O-YOLOv2和原始YOLOv2在Nvidia Jetson TX1嵌入式系統(tǒng)上運(yùn)行的平均運(yùn)行時(shí)性能和深度推理頻率。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。