無(wú)需人臉檢測(cè)和關(guān)鍵點(diǎn)定位,F(xiàn)acebook等提出實(shí)時(shí)3D人臉姿態(tài)估計(jì)新方法
來(lái)自 Facebook AI 和美國(guó)圣母大學(xué)的研究者提出了一種 6 自由度的實(shí)時(shí) 3D 人臉姿態(tài)估計(jì)技術(shù),可以不依賴人臉檢測(cè)和人臉關(guān)鍵點(diǎn)定位獨(dú)立運(yùn)行。
人臉檢測(cè)是給照片中的每個(gè)人臉指定一個(gè)邊界框,人臉關(guān)鍵點(diǎn)檢測(cè)則需要定位特殊的人臉特征,如眼睛中心、鼻尖等?;诙叩膬刹阶叻椒ㄊ呛芏嗳四樛评砣蝿?wù)的關(guān)鍵所在,如 3D 重建。
這種方法的處理過(guò)程通??梢员硎鰹椋菏紫葓?zhí)行人臉檢測(cè),然后在每個(gè)檢測(cè)到的人臉邊界框中執(zhí)行關(guān)鍵點(diǎn)檢測(cè)。接下來(lái),將檢測(cè)到的關(guān)鍵點(diǎn)與參考 2D 圖像或 3D 模型上對(duì)應(yīng)的理想位置進(jìn)行匹配,然后使用標(biāo)準(zhǔn)方法求解對(duì)齊變換。因此,「人臉對(duì)齊」和「關(guān)鍵點(diǎn)檢測(cè)」這兩個(gè)術(shù)語(yǔ)有時(shí)可以互換使用。
這種方法應(yīng)用起來(lái)非常成功,但計(jì)算成本很高,尤其是那些 SOTA 模型。而且,關(guān)鍵點(diǎn)檢測(cè)器通常針對(duì)由特定人臉檢測(cè)器生成的邊界框特性進(jìn)行優(yōu)化,因此一旦人臉檢測(cè)器更新,關(guān)鍵點(diǎn)檢測(cè)器就需要重新進(jìn)行優(yōu)化。最后,在下圖 1 所示的密集人臉圖像場(chǎng)景中,準(zhǔn)確定位標(biāo)準(zhǔn)的 68 個(gè)人臉關(guān)鍵點(diǎn)會(huì)變得非常困難,進(jìn)而加大了估計(jì)其姿態(tài)和人臉對(duì)齊的難度。
為了解決這些問(wèn)題,來(lái)自 Facebook AI 和圣母大學(xué)的研究者提出了以下重要觀察結(jié)果:
首先,估計(jì)人臉的 6 自由度(6DoF)剛性變換比人臉關(guān)鍵點(diǎn)檢測(cè)要簡(jiǎn)單。6DoF 指的是在人體在 3D 空間里的活動(dòng)情況,在 3 自由度(上下俯仰、左右搖擺和滾動(dòng))的基礎(chǔ)上增加了前 / 后、上 / 下、左 / 右三種移動(dòng)方式。這一觀察結(jié)果啟發(fā)了很多研究者,促使他們提出「跳過(guò)關(guān)鍵點(diǎn)檢測(cè),直接進(jìn)行姿態(tài)估計(jì)」的想法,但這些方法還是要為檢測(cè)到的人臉估計(jì)姿態(tài)。相比之下,F(xiàn)acebook AI 和圣母大學(xué)的研究者的目標(biāo)是在不假設(shè)人臉已經(jīng)被檢測(cè)到的情況下估計(jì)姿態(tài)。
其次,6DoF 姿態(tài)標(biāo)簽捕獲的不僅僅是邊界框位置信息。與一些研究者提出的 3DoF 姿態(tài)估計(jì)不同,6DoF 姿態(tài)可以轉(zhuǎn)換為一個(gè) 3D-to-2D 的投影矩陣。假設(shè)有一個(gè)已知的內(nèi)在相機(jī),姿態(tài)可以使 3D 人臉與它在照片中的位置一致。因此,姿態(tài)已經(jīng)捕捉了照片中人臉的位置。然而,雖然增加了兩個(gè)額外的標(biāo)量(6D 姿態(tài) vs. 每個(gè)框的四個(gè)值),6DoF 姿態(tài)還可以提供人臉的 3D 位置和方向信息。最近,有些研究用上了這一觀察結(jié)果,通過(guò)提出邊界框和人臉關(guān)鍵點(diǎn)的多任務(wù)學(xué)習(xí)來(lái)提高檢測(cè)準(zhǔn)確率。而本文的研究者則將兩者結(jié)合在單個(gè)目標(biāo)中——直接 regress 6DoF 人臉姿態(tài)。
他們提出了一個(gè)易于訓(xùn)練的新型實(shí)時(shí) 6DoF 3D 人臉姿態(tài)估計(jì)解決方案,可以跳過(guò)人臉檢測(cè)步驟,即使在非常擁擠的圖片中也不例外(如圖 1)。該方法在一個(gè)基于 Faster R-CNN 的框架中 regress 6DoF 姿態(tài)。
這項(xiàng)研究的創(chuàng)新之處在于,它真正擺脫了人臉對(duì)齊和關(guān)鍵點(diǎn)檢測(cè)。「我們觀察到,估計(jì)人臉的 6DoF 剛性變換比人臉目標(biāo)點(diǎn)檢測(cè)要簡(jiǎn)單。此外,6DoF 提供的信息要比人臉邊界框標(biāo)簽豐富,」研究者解釋道。
新方法的 pipeline 可以描述為:給定一張包含多張人臉的圖像,首先估計(jì)每張人臉的 6DoF 姿態(tài)。由于 6DoF 人臉姿態(tài)可以轉(zhuǎn)換為一個(gè)外在相機(jī)矩陣,進(jìn)而將 3D 人臉映射到 2D 圖像平面,因此預(yù)測(cè)得到的 3D 人臉姿態(tài)也可用于獲取準(zhǔn)確的 2D 人臉邊界框。因此,人臉檢測(cè)將成為這個(gè)過(guò)程的副產(chǎn)品,計(jì)算開銷達(dá)到最小。
利用 6DoF 姿態(tài)估計(jì)替代人臉邊界框檢測(cè)之后,輸入圖像中所有的 3D 人臉形狀都可以得到對(duì)齊。而且,由于該姿態(tài)將具有已知幾何形狀的 3D 形狀與圖像中的面部區(qū)域?qū)R,因此我們可以根據(jù)大小和形狀調(diào)整生成的面部邊界框,匹配特定的研究需求。
研究者使用小而快的 ResNet-18 骨干網(wǎng)絡(luò)構(gòu)建 img2pose 模型,并在 WIDER FACE 訓(xùn)練集上進(jìn)行訓(xùn)練(該數(shù)據(jù)集包含弱監(jiān)督標(biāo)簽和人工標(biāo)注的真值姿態(tài)標(biāo)簽)。他們?cè)趦蓚€(gè)領(lǐng)先的基準(zhǔn)數(shù)據(jù)集( AFLW2000-3D 和 BIWI )上測(cè)試了 img2pose 的實(shí)時(shí)推斷能力,發(fā)現(xiàn)該模型在實(shí)時(shí)運(yùn)行時(shí)性能超越當(dāng)前最優(yōu)的人臉姿態(tài)估計(jì)器,還在關(guān)鍵點(diǎn)檢測(cè)方面超越了具備類似復(fù)雜度的模型,盡管新模型并沒(méi)有在邊界框標(biāo)簽上進(jìn)行優(yōu)化。
以下是論文中的一些實(shí)驗(yàn)結(jié)果:
論文鏈接:https://arxiv.org/pdf/2012.07791.pdf
項(xiàng)目鏈接:https://github.com/vitoralbiero/img2pos
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。