如何一鍵變身“奧運(yùn)冠軍”？騰訊QQ影像中心告訴你

—— 奧運(yùn),3D

作者：時間：2021-08-09 來源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

在剛剛落幕的東京奧運(yùn)會上，中國體育代表團(tuán)取得了38枚金牌、32枚銀牌、18枚銅牌的優(yōu)異成績。這屆奧運(yùn)會期間，除了全民熱議運(yùn)動健兒的精彩表現(xiàn)之外，還有一項(xiàng)神奇的變身特效活動——「我的奧運(yùn)奪冠時刻」也在全網(wǎng)發(fā)酵，引得網(wǎng)民爭相試玩和轉(zhuǎn)發(fā)。

本文引用地址：http://m.butianyuan.cn/article/202108/427467.htm

　　在手機(jī)QQ的相機(jī)功能中，或者天天P圖app中，只需上傳一張自己的半身照或是全身照，就可以一秒get奧運(yùn)健兒的同款奪冠時刻，讓眾多網(wǎng)友大呼“神奇”，“玩得停不下來”。

　　在這個變身特效視頻的背后，是QQ影像中心研發(fā)的人體姿態(tài)遷移技術(shù)。人體姿態(tài)遷移技術(shù)簡單來說，就是給到機(jī)器一副含有人物的圖片和一個目標(biāo)姿態(tài)，之后經(jīng)過計(jì)算將人物轉(zhuǎn)換為目標(biāo)姿態(tài)的狀態(tài)。

　　區(qū)別于人臉特效功能，圍繞人體的GAN生成落地難度較大。在人體動作遷移實(shí)現(xiàn)過程中，動作跨度大、像素搬移多、紋理復(fù)雜、動作自由度高和自遮擋頻繁等干擾因素導(dǎo)致生成指定姿態(tài)的人體一直比較困難。目前，主流的人體人體姿態(tài)遷移方案有2D warp、3D warp和不依賴warp的解決方案，這三種方式各有利弊，且并未真正落地于實(shí)際商業(yè)生產(chǎn)應(yīng)用。

　　三大技術(shù)突破，解鎖人體姿態(tài)遷移動效新體驗(yàn)

　　針對現(xiàn)有方案的不足，并考慮在實(shí)際應(yīng)用中，多圖或視頻輸入的姿態(tài)遷移方法會使得用戶使用門檻很高，帶來不太好的用戶體驗(yàn)。QQ影像中心團(tuán)隊(duì)采用基于單圖的3D人體重建結(jié)合GAN生成的技術(shù)路線。

　　首先，比起主流方式所需要的視頻+在線微調(diào)(finetune)模式，QQ影像中心的技術(shù)只需要單張用戶圖就可以完成姿態(tài)遷移，并且不需要在線進(jìn)行模型微調(diào)。如此，便能成功將用戶的交互難度大大降低。

　　針對難度極大的3D人體重建，雖然市面上有開源的3D mesh數(shù)據(jù)庫，比如加州伯克利分校的開源端到端框架HMR，但是效果并不理想。所以QQ影像中心團(tuán)隊(duì)為此專門研發(fā)了一套人體3D重建算法，讓整個效果更為流暢連貫。輸入單張用戶圖片，就能得到精確地人體形狀和紋理，繼而將動態(tài)變化的每一幀都轉(zhuǎn)化到參考幀上，再經(jīng)過計(jì)算制作成特效。

　　其次，是生成清晰度高，紋理還原度好，支持更高分辨率輸出(1024x1024)。比起原先2D warp、3D warp在逼真程度和清晰度上的短板，QQ影像中心算法能夠保證其生成質(zhì)量。其中利用人體分割和背景填充技術(shù)，完成目標(biāo)視頻的背景修補(bǔ)。

　　而針對3D warp圖紋理信息粗糙的現(xiàn)象，則利用GAN網(wǎng)絡(luò)來細(xì)化(refine)用戶warp圖。具體做法是將用戶信息與warp圖信息在GAN網(wǎng)絡(luò)中融合，生成自然的目標(biāo)姿態(tài)用戶圖。在這一步中GAN網(wǎng)絡(luò)又分為兩個子網(wǎng)絡(luò)，分別是重建網(wǎng)絡(luò)與姿態(tài)生成網(wǎng)絡(luò)。將用戶圖重建，之后生成網(wǎng)絡(luò)輸入粗粒度warp圖，之后接受重建網(wǎng)絡(luò)的特征圖并進(jìn)行特征融合，以保證細(xì)節(jié)信息的準(zhǔn)確性，之后特征圖將進(jìn)入解碼器，融合前景和特征圖，最后得到輸出圖。

　　最后，針對基于3D的技術(shù)方案容易遇到動作僵硬的問題，QQ影像中心通過平滑策略、2D點(diǎn)輔助優(yōu)化等策略，既保證了素材的動作準(zhǔn)確性，也使動作更加連貫自然。

　　其實(shí)，這次「我的奧運(yùn)奪冠時刻」變身特效的爆款出圈并非首例。此前，手機(jī) QQ相機(jī)功能中內(nèi)嵌的熱門AI玩法——漫畫臉，迪士尼童話臉等，同樣出自QQ影像中心團(tuán)隊(duì)。

　　從人臉特效到人體動作遷移，QQ影像中心持續(xù)探索前沿 AI 和 CV 算法，致力于將前沿的 AI 能力、3D 渲染技術(shù)以及先進(jìn)的玩法賦能產(chǎn)品。團(tuán)隊(duì)在語義分割、目標(biāo)檢測、分類識別、GAN生成對抗等方面的深厚技術(shù)積累，在AI生成領(lǐng)域已進(jìn)行了很多相關(guān)算法的研發(fā)和落地工作。

　　值得期待的是，未來QQ影像中心也會帶來更多特效玩法落地，給用戶帶來更多有趣的科技體驗(yàn)。

　　關(guān)于騰訊QQ影像中心

　　騰訊QQ影像中心(原騰訊光影研究室)是騰訊旗下專注于研究前沿影像處理技術(shù)的團(tuán)隊(duì)，在單目深度估計(jì)技術(shù)、語義分割、目標(biāo)檢測、分類識別、GAN生成對抗等方面均有深厚的技術(shù)積累。團(tuán)隊(duì)一直致力于探索泛娛樂綜合解決方案，將前沿的AI能力、先進(jìn)的玩法引擎和3D渲染技術(shù)賦能產(chǎn)品，讓視覺創(chuàng)意更多樣，音視頻編輯更智能，社交溝通更趣味。