無需人臉檢測和關(guān)鍵點定位,F(xiàn)acebook等提出實時3D人臉姿態(tài)估計新方法
來自 Facebook AI 和美國圣母大學(xué)的研究者提出了一種 6 自由度的實時 3D 人臉姿態(tài)估計技術(shù),可以不依賴人臉檢測和人臉關(guān)鍵點定位獨立運行。
人臉檢測是給照片中的每個人臉指定一個邊界框,人臉關(guān)鍵點檢測則需要定位特殊的人臉特征,如眼睛中心、鼻尖等?;诙叩膬刹阶叻椒ㄊ呛芏嗳四樛评砣蝿?wù)的關(guān)鍵所在,如 3D 重建。
這種方法的處理過程通??梢员硎鰹椋菏紫葓?zhí)行人臉檢測,然后在每個檢測到的人臉邊界框中執(zhí)行關(guān)鍵點檢測。接下來,將檢測到的關(guān)鍵點與參考 2D 圖像或 3D 模型上對應(yīng)的理想位置進行匹配,然后使用標(biāo)準(zhǔn)方法求解對齊變換。因此,「人臉對齊」和「關(guān)鍵點檢測」這兩個術(shù)語有時可以互換使用。
這種方法應(yīng)用起來非常成功,但計算成本很高,尤其是那些 SOTA 模型。而且,關(guān)鍵點檢測器通常針對由特定人臉檢測器生成的邊界框特性進行優(yōu)化,因此一旦人臉檢測器更新,關(guān)鍵點檢測器就需要重新進行優(yōu)化。最后,在下圖 1 所示的密集人臉圖像場景中,準(zhǔn)確定位標(biāo)準(zhǔn)的 68 個人臉關(guān)鍵點會變得非常困難,進而加大了估計其姿態(tài)和人臉對齊的難度。
為了解決這些問題,來自 Facebook AI 和圣母大學(xué)的研究者提出了以下重要觀察結(jié)果:
首先,估計人臉的 6 自由度(6DoF)剛性變換比人臉關(guān)鍵點檢測要簡單。6DoF 指的是在人體在 3D 空間里的活動情況,在 3 自由度(上下俯仰、左右搖擺和滾動)的基礎(chǔ)上增加了前 / 后、上 / 下、左 / 右三種移動方式。這一觀察結(jié)果啟發(fā)了很多研究者,促使他們提出「跳過關(guān)鍵點檢測,直接進行姿態(tài)估計」的想法,但這些方法還是要為檢測到的人臉估計姿態(tài)。相比之下,F(xiàn)acebook AI 和圣母大學(xué)的研究者的目標(biāo)是在不假設(shè)人臉已經(jīng)被檢測到的情況下估計姿態(tài)。
其次,6DoF 姿態(tài)標(biāo)簽捕獲的不僅僅是邊界框位置信息。與一些研究者提出的 3DoF 姿態(tài)估計不同,6DoF 姿態(tài)可以轉(zhuǎn)換為一個 3D-to-2D 的投影矩陣。假設(shè)有一個已知的內(nèi)在相機,姿態(tài)可以使 3D 人臉與它在照片中的位置一致。因此,姿態(tài)已經(jīng)捕捉了照片中人臉的位置。然而,雖然增加了兩個額外的標(biāo)量(6D 姿態(tài) vs. 每個框的四個值),6DoF 姿態(tài)還可以提供人臉的 3D 位置和方向信息。最近,有些研究用上了這一觀察結(jié)果,通過提出邊界框和人臉關(guān)鍵點的多任務(wù)學(xué)習(xí)來提高檢測準(zhǔn)確率。而本文的研究者則將兩者結(jié)合在單個目標(biāo)中——直接 regress 6DoF 人臉姿態(tài)。
他們提出了一個易于訓(xùn)練的新型實時 6DoF 3D 人臉姿態(tài)估計解決方案,可以跳過人臉檢測步驟,即使在非常擁擠的圖片中也不例外(如圖 1)。該方法在一個基于 Faster R-CNN 的框架中 regress 6DoF 姿態(tài)。
這項研究的創(chuàng)新之處在于,它真正擺脫了人臉對齊和關(guān)鍵點檢測。「我們觀察到,估計人臉的 6DoF 剛性變換比人臉目標(biāo)點檢測要簡單。此外,6DoF 提供的信息要比人臉邊界框標(biāo)簽豐富,」研究者解釋道。
新方法的 pipeline 可以描述為:給定一張包含多張人臉的圖像,首先估計每張人臉的 6DoF 姿態(tài)。由于 6DoF 人臉姿態(tài)可以轉(zhuǎn)換為一個外在相機矩陣,進而將 3D 人臉映射到 2D 圖像平面,因此預(yù)測得到的 3D 人臉姿態(tài)也可用于獲取準(zhǔn)確的 2D 人臉邊界框。因此,人臉檢測將成為這個過程的副產(chǎn)品,計算開銷達到最小。
利用 6DoF 姿態(tài)估計替代人臉邊界框檢測之后,輸入圖像中所有的 3D 人臉形狀都可以得到對齊。而且,由于該姿態(tài)將具有已知幾何形狀的 3D 形狀與圖像中的面部區(qū)域?qū)R,因此我們可以根據(jù)大小和形狀調(diào)整生成的面部邊界框,匹配特定的研究需求。
研究者使用小而快的 ResNet-18 骨干網(wǎng)絡(luò)構(gòu)建 img2pose 模型,并在 WIDER FACE 訓(xùn)練集上進行訓(xùn)練(該數(shù)據(jù)集包含弱監(jiān)督標(biāo)簽和人工標(biāo)注的真值姿態(tài)標(biāo)簽)。他們在兩個領(lǐng)先的基準(zhǔn)數(shù)據(jù)集( AFLW2000-3D 和 BIWI )上測試了 img2pose 的實時推斷能力,發(fā)現(xiàn)該模型在實時運行時性能超越當(dāng)前最優(yōu)的人臉姿態(tài)估計器,還在關(guān)鍵點檢測方面超越了具備類似復(fù)雜度的模型,盡管新模型并沒有在邊界框標(biāo)簽上進行優(yōu)化。
以下是論文中的一些實驗結(jié)果:
論文鏈接:https://arxiv.org/pdf/2012.07791.pdf
項目鏈接:https://github.com/vitoralbiero/img2pos
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。