數(shù)字人包含哪些生成式AI技術(shù)?上交最新「基于神經(jīng)網(wǎng)絡(luò)的生成式三維數(shù)字人研究綜述:表示、渲染與學(xué)習(xí)」
隨著人工智能技術(shù)的高速發(fā)展, 計算機視覺與圖形學(xué)等相關(guān)學(xué)科的交叉融合掀起了一場數(shù)字人生成技術(shù)的新革命, 人類進(jìn)入 “元宇宙” 等數(shù)字空間的夢想正逐漸變?yōu)楝F(xiàn)實。面對大規(guī)模三維數(shù)字人的生產(chǎn)需求, 基于傳統(tǒng)圖形學(xué)的建模過程繁瑣, 周期冗長, 阻礙了虛擬數(shù)字人的普及和應(yīng)用, 而利用生成式人工智能技術(shù)產(chǎn)生高擬真, 規(guī)模化的虛擬數(shù)字人正逐漸成為研究熱點。為了深入了解三維數(shù)字人技術(shù)的研究現(xiàn)狀與挑戰(zhàn), 本文從生成式模型的視角對數(shù)字人技術(shù)進(jìn)行了系統(tǒng)性梳理, 并總結(jié)了其中的三個關(guān)鍵步驟:表示, 渲染與學(xué)習(xí)。隨后, 對顯式及隱式的表示方法進(jìn)行總結(jié), 對傳統(tǒng)渲染與神經(jīng)網(wǎng)絡(luò)渲染的成像方式進(jìn)行歸納, 并概括了相應(yīng)的模型學(xué)習(xí)方法。最后, 本文對三維數(shù)字人的典型應(yīng)用進(jìn)行分析, 并對當(dāng)前挑戰(zhàn)與未來發(fā)展方向進(jìn)行總結(jié)和展望。
https://www.sciengine.com/SSI/doi/10.1360/SSI-2022-0319;JSESSIONID=af939365-8f15-4f4d-8515-90c44941e4a6
1. 引言
元宇宙” 的概念起源于 1992 年的科幻小說雪崩, 在這部小說中, 人類可以通過虛擬化身進(jìn)入數(shù)字空間, 并相互交流。30 年之后的今天, 隨著計算機視覺與圖形學(xué)技術(shù)的發(fā)展, “元宇宙” 已經(jīng)走到了 互聯(lián)網(wǎng)數(shù)字經(jīng)濟發(fā)展的最前沿, 不再是小說中遙不可及的夢想. 虛擬數(shù)字人作為 “元宇宙” 的 “原住 民”, 是 “元宇宙” 技術(shù)的核心與基石。為了在 “元宇宙” 中產(chǎn)生沉浸式的體驗, 虛擬數(shù)字人不僅要有逼真的外觀, 也要實現(xiàn)肢體動作和語言表達(dá)的流暢自然. 同時, 由于人類天然擁有社會屬性, 交互能力將是數(shù)字人在 “元宇宙” 中的重要屬性。因此, 大規(guī)模生成高質(zhì)量虛擬數(shù)字人化身, 既是人類進(jìn)入 “元宇宙” 等虛擬世界的基礎(chǔ), 也是人類進(jìn)一步探索更廣闊的數(shù)字空間的迫切需求。
數(shù)字人的概念起源于醫(yī)學(xué)領(lǐng)域, 可追溯到 1989 年美國國家醫(yī)學(xué)圖書館的 “可視人體” 計劃 1) , 旨在實現(xiàn)人體的解剖結(jié)構(gòu)的三維顯示。本文所討論的數(shù)字人技術(shù)則更為寬泛, 指代運用數(shù)字技術(shù)創(chuàng)造的, 擁有數(shù)字化表現(xiàn)形式的虛擬人物。數(shù)字人可以以二維或者三維形式呈現(xiàn)。早期的虛擬數(shù)字人形象以平面動漫偶像為主, 并不涉及三維建模等復(fù)雜流程, 因此形象的立體感與真實度受到限制。隨著計算機圖形學(xué)技術(shù)的發(fā)展, 三維建模與渲染技術(shù)快速進(jìn)步, 引領(lǐng)了數(shù)字人的研究趨勢。一些頂尖的 科研機構(gòu)和商業(yè)團(tuán)隊已經(jīng)能夠生產(chǎn)高擬真的虛擬數(shù)字人, 并成功應(yīng)用于虛擬偶像生成 2) , 影視角色制作 3) , 真人化身重建 4)中, 如圖 1所示。但是, 基于傳統(tǒng)圖形學(xué)的三維數(shù)字人的建模過程包括形象 采集, 模型制作, 紋理貼圖, 動作采集與驅(qū)動等復(fù)雜流程, 依賴于專業(yè)的感知設(shè)備和精細(xì)的人力工作, 周期冗長且只能定制化生產(chǎn), 無法滿足大規(guī)模數(shù)字人的生產(chǎn)需求, 這些限制阻礙了數(shù)字人的普及和應(yīng)用。近年來, 隨著人工智能和神經(jīng)網(wǎng)絡(luò)的發(fā)展, 生成式人工智能在圖像生成, 語言交互等方面取得了巨大進(jìn)展 [2,3] 。生成式數(shù)字人指使用生成式人工智能技術(shù)創(chuàng)造數(shù)字人的方法, 主要是以數(shù)據(jù)驅(qū)動的方式學(xué)習(xí)真實的數(shù)據(jù)分布, 對數(shù)據(jù)分布進(jìn)行采樣以生成新的樣本表示, 并對數(shù)據(jù)表示進(jìn)行渲染從而呈現(xiàn)出高度真實的三維數(shù)字人。生成式人工智能技術(shù)極大簡化了三維數(shù)字人建模流程, 提升了模型的真 實感, 因此展現(xiàn)出了巨大的發(fā)展?jié)摿Α?/span>
本文從生成式模型的視角對三維數(shù)字人技術(shù)進(jìn)行梳理, 首先整體介紹生成式三維數(shù)字人的建模 流程, 分解出其中的三個主要步驟 (第 2 節(jié)). 然后分別介紹數(shù)字人表示方法 (第 3 節(jié)), 數(shù)字人渲染 方法 (第 4 節(jié)), 以及模型的學(xué)習(xí)方式 (第 5 節(jié)). 之后列舉了數(shù)字人的一些典型應(yīng)用 (第 6 節(jié)), 最后 指出現(xiàn)有挑戰(zhàn)并對未來進(jìn)行展望 (第 7 節(jié)). 已有一些綜述論文對數(shù)字人的某類建?;蜾秩痉椒ㄟM(jìn)行 總結(jié), 如 3DMM 模型 [4] , 人臉重建 [5] , 人體重建 [6,7] , 三維渲染 [8,9] 等, 與這些論文不同, 本文旨在從 生成式模型的視角對三維數(shù)字人 (人臉及人體) 技術(shù)進(jìn)行全面回顧, 重點介紹基于神經(jīng)網(wǎng)絡(luò)的數(shù)字人 研究方法, 梳理其技術(shù)發(fā)展趨勢及典型應(yīng)用場景, 讓讀者能夠較為全面地了解數(shù)字人的生成技術(shù)。值得注意的是, 除了人臉與人體之外, 頭發(fā), 手, 服飾, 骨架等模型同樣也屬于數(shù)字人的研究范疇, 但并非本文的主要關(guān)注對象, 相關(guān)內(nèi)容將在 7.1 節(jié)和 7.2 節(jié)予以討論。
2. 生成式三維數(shù)字人建模流程
構(gòu)建一個完整的生成式三維數(shù)字人模型主要包括三個步驟, 分別為模型表示, 渲染與學(xué)習(xí), 如圖 2 所示, 本文后續(xù)章節(jié)使用 “建模” 一詞來特指這一過程. 首先, 需要確定三維數(shù)字人模型的表示 方式, 常見的表示方式可以分為顯式表示和隱式表示兩種形式. 其中, 顯式表示一般直接給出滿足條 件的所有元素的集合, 如點云包含三維空間中點的位置, 而多邊形網(wǎng)格則包含頂點位置及其連接關(guān)系 等信息. 由于傳統(tǒng)的渲染管線已經(jīng)能夠成熟地對數(shù)字人的顯式表示 (尤其是基于多邊形網(wǎng)格的表示) 進(jìn)行高效處理, 因此, 在游戲, 影視制作等工業(yè)應(yīng)用中, 主要使用顯式表示模型. 然而, 顯式表示的精 細(xì)程度會受到模型分辨率的限制, 為了產(chǎn)生高擬真的數(shù)字人, 需要大量元素來逼近模型的細(xì)節(jié), 從而 造成模型復(fù)雜度的上升. 而與此對應(yīng)的隱式表示僅需給出對于三維空間的某種約束, 如符號距離函 數(shù), 水平集等. 隨著深度學(xué)習(xí)的發(fā)展, 越來越多的方法使用神經(jīng)網(wǎng)絡(luò)來逼近隱式函數(shù), 如深度符號距 離函數(shù) [10] , 神經(jīng)輻射場 [11] 等, 并由此恢復(fù)出數(shù)字人的精細(xì)幾何與紋理. 隱式表示作為一種更加靈活 的表示方式, 使得數(shù)字人模型能夠突破空間分辨率的限制, 因此, 隱式表示正逐漸成為數(shù)字人研究的 熱點.
第二個重要步驟是渲染, 表示從三維數(shù)字人模型到二維圖像的映射過程, 該步驟直接決定了數(shù) 字人呈現(xiàn)的視覺效果。在真實世界中, 光線在物體表面發(fā)生反射進(jìn)入人眼, 形成肉眼觀察到的圖像。由于真實世界的復(fù)雜性, 難以對每一條光線進(jìn)行精確追蹤, 因此, 圖形學(xué)中的渲染過程一般是對物 理世界成像原理的模擬和簡化. 以人臉為例, 一種經(jīng)典的處理方式是將人臉分解為本色圖 (albedo) 和反射圖. 其中本色圖代表皮膚表面的顏色材質(zhì), 反射圖代表光線在人臉表面反射之后造成的效 果, 由人臉表面法向方向與光照共同決定, 這種簡化被稱為朗伯反射模型 (Lambertian Reflectance Model)[12,13] 。后續(xù)一些方法在此基礎(chǔ)上加入了粗糙度 (roughness) 與高光 (specular) 分量, 提升了渲染結(jié)果的質(zhì)量。圖形學(xué)中渲染過程的簡化雖然降低了計算復(fù)雜度, 但是同時也造成了渲染質(zhì)量的下降, 使其難以生成高擬真的數(shù)字人形象. 而與此對應(yīng)的神經(jīng)網(wǎng)絡(luò)渲染技術(shù)將數(shù)據(jù)驅(qū)動的神經(jīng)網(wǎng)絡(luò)與物理規(guī)律約束的渲染管線相結(jié)合, 極大的提升了渲染的真實感。近年來, 神經(jīng)網(wǎng)絡(luò)渲染技術(shù)已經(jīng)成功 應(yīng)用到數(shù)字人生成流程中, 使生成高度擬真的三維數(shù)字人成為可能.
最后, 生成式三維數(shù)字人模型需要對數(shù)據(jù)進(jìn)行學(xué)習(xí), 不同的數(shù)據(jù)類型會造成學(xué)習(xí)方式的差異。如使用三維掃描數(shù)據(jù), 對于網(wǎng)格等顯式表示模型, 一般需要先將掃描數(shù)據(jù)與模型進(jìn)行配準(zhǔn), 生成一致的拓?fù)浣Y(jié)構(gòu), 然后進(jìn)行學(xué)習(xí)。而對于隱式表示模型, 則一般可以直接從原始掃描數(shù)據(jù)進(jìn)行學(xué)習(xí)。由于三維掃描依賴專業(yè)的采集設(shè)備, 同時采集成本高昂, 因此難以構(gòu)建大規(guī)模的掃描數(shù)據(jù)集, 覆蓋不同人種, 年齡, 性別, 表情, 姿態(tài)的變化。因此, 從有限小規(guī)模掃描數(shù)據(jù)中學(xué)習(xí)到的數(shù)字人模型難以精確泛化到 現(xiàn)實世界中復(fù)雜多變的真人數(shù)據(jù)。而與此對應(yīng)的二維圖像數(shù)據(jù)采集更為方便, 同時能夠保證數(shù)據(jù)規(guī)模與多樣性。因此, 如何從二維圖像數(shù)據(jù)中學(xué)習(xí)三維數(shù)字人模型也是一個重要研究方向。為了解決二維圖像缺乏三維幾何信息的局限性, 現(xiàn)有方法主要從多視角學(xué)習(xí), 結(jié)合三維幾何先驗, 自監(jiān)督學(xué)習(xí)等方式為二維圖像添加三維幾何或語義約束, 并使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)數(shù)字人的生成模型。
3. 生成式三維數(shù)字人模型表示
數(shù)字人可以視為現(xiàn)實人類在 “元宇宙” 中的投射, 它不僅需要對人類外觀進(jìn)行真實的模擬, 也需要逼近真人的行為動作以及表情神態(tài)。為此, 作為數(shù)字人的基礎(chǔ), 三維數(shù)字人模型利用顯式或隱式表示, 盡可能貼近真人的外觀, 并且建立多種多樣符合人類行為的物理屬性。本章討論三維數(shù)字人模型的表示方法, 首先介紹基于顯式表示的數(shù)字人模型, 包含人臉和人體的表示方法;然后介紹基于隱式 表示的數(shù)字人模型。
3.1 基于顯式表示的數(shù)字人模型
顯式表示是三維物體的一類常見表示方法, 即物體的三維結(jié)構(gòu)被直接給出或通過參數(shù)映射的方式給出, 具體表現(xiàn)形式包括點云, 多邊形網(wǎng)格, 參數(shù)曲面函數(shù)等. 基于顯式表示的數(shù)字人模型通常使 用多邊形網(wǎng)格進(jìn)行表示, 利用大量掃描數(shù)據(jù)通過統(tǒng)計學(xué)或深度學(xué)習(xí)的方法得到先驗?zāi)P? 從而通過低維變量控制復(fù)雜的三維數(shù)字人, 這為高效, 規(guī)?;厣扇S數(shù)字人奠定了基礎(chǔ), 如圖 3 所示。人臉和人體模型是數(shù)字人領(lǐng)域的兩大主流研究方向, 由于人臉和人體具備不同的空間結(jié)構(gòu)以及形變方式, 因此本節(jié)將分別介紹這兩種顯式表示方法。
3.2 基于隱式表示的數(shù)字人模型
顯式表示使用一系列的離散單元來逼近三維物體, 然而, 在真實世界中, 數(shù)據(jù)是 (近似) 連續(xù)的, 為了盡可能地逼近真實數(shù)據(jù), 需要不斷增大顯式模型的分辨率, 這將造成巨大的計算開銷. 而與此對應(yīng)的隱式表示使用一個連續(xù)函數(shù)來表示數(shù)據(jù), 因此隱式表示的復(fù)雜度不再取決于數(shù)據(jù)的空間分辨 率, 這為三維物體提供了一種靈活輕便的表示形式. 然而物體是復(fù)雜多樣的, 通常難以用明確的函數(shù) 對其進(jìn)行準(zhǔn)確的表征, 因而研究者們常采用深度神經(jīng)網(wǎng)絡(luò)來逼近該復(fù)雜函數(shù), 這類表示方法也被稱作 “隱式神經(jīng)表示”。在隱式神經(jīng)表示中, 隱式的連續(xù)函數(shù)通常采用多層感知機 (MLP) 進(jìn)行參數(shù)化逼近, 以空間三維 坐標(biāo) p = (x, y, z) ∈ R 3 作為輸入, 輸出 p 點具有物理意義的屬性 fim(p), 形成了空間中的隱式場:F : p 7?→ fim(p), (4) 其中, fim(p) 通常表示三維空間點的幾何或紋理屬性, 例如 DeepSDF[10] 采用的符號距離函數(shù) (Signed Distance Function, SDF), OccNet [58] 采用的的占據(jù)場 (Occupancy Field) 以及 NeRF [11] 提出的神 經(jīng)輻射場 (體密度值和顏色值的表示) 等. 此后的一些工作將隱式表示引入了生成模型, 逐步建立 了具有可控性的隱式數(shù)字人生成模型. 通過隱式表示作為媒介, 生成式數(shù)字人模型學(xué)習(xí)數(shù)字人特征 的全局或局部分布, 可以分為兩類, 一類是基于生成對抗網(wǎng)絡(luò) [59] (Generative Adversarial Network, GAN) 的方法, 另一類是基于可控形變場的方法, 如圖 4 所示。
3.3 顯式表示和隱式表示對比
基于顯式表示的數(shù)字人模型相對較為直觀, 常通過低維參數(shù)對模型進(jìn)行控制, 這些參數(shù)通常與實 際的物理意義相對應(yīng), 能夠便捷, 高效地生成三維數(shù)字人. 此外, 顯式表示的模型較為成熟, 更容易 與現(xiàn)有的圖形學(xué)渲染管線兼容, 應(yīng)用更加廣泛。但是顯式表示的模型在精細(xì)度方面受分辨率影響, 當(dāng)模型分辨率提高時, 顯式表示的復(fù)雜度也會相應(yīng)大幅度增加, 對內(nèi)存造成極大的負(fù)擔(dān)。相比顯式表示, 隱式表示的數(shù)字人模型最獨特的優(yōu)點是模型不再與空間分辨率耦合。由于隱式表示是連續(xù)函數(shù), 因 而數(shù)字人模型可以以任意空間分辨率進(jìn)行采樣, 即 “無限分辨率”。隱式模型的方法在面對復(fù)雜場景時存在表示不夠精細(xì), 渲染速度慢等缺點, 但對于生成式數(shù)字人的任務(wù)來說, 隱式方法面對的是一個 具有明確拓?fù)浣Y(jié)構(gòu)的幾何體, 因而利用顯式的拓?fù)浣Y(jié)構(gòu)來約束和優(yōu)化隱式表示將有望規(guī)避這些缺點。
4. 生成式三維數(shù)字人渲染
渲染是指將三維模型根據(jù)觀察條件 (方向, 距離等) 進(jìn)行采樣計算并生成二維圖像的過程, 具體計算方法由渲染目標(biāo)三維模型的表示, 存儲形式?jīng)Q定, 因此數(shù)字人渲染可根據(jù)其表示形式采用與之對 應(yīng)的渲染方法。基于第 3 節(jié)的討論, 三維數(shù)字人模型的表示形式主要包括以多邊形網(wǎng)格, 點云, 體素 及參數(shù)化表面函數(shù)等顯式格式存儲記錄的三維數(shù)字人, 和以神經(jīng)輻射場, 隱式表面函數(shù)為代表的隱式表示存儲的三維數(shù)字人。由于二者的表示形式與性質(zhì)的差異, 其渲染方法也有所不同. 傳統(tǒng)圖形學(xué)渲 染方式主要針對顯式記錄的三維模型, 該類三維模型廣泛應(yīng)用于各類商用軟件以及影視游戲內(nèi)容創(chuàng)作中。而神經(jīng)渲染則主要針對隱式表示的數(shù)字人, 根據(jù)給定的渲染參數(shù)通過對深度神經(jīng)網(wǎng)絡(luò)中記錄的三維數(shù)字人模型進(jìn)行采樣計算, 將最終結(jié)果以圖像或視頻形式進(jìn)行呈現(xiàn)。本節(jié)將對這兩類渲染方式進(jìn)行討論。
5. 生成式三維數(shù)字人模型學(xué)習(xí)
本節(jié)討論生成式三維數(shù)字人的模型學(xué)習(xí)方法, 完成生成式三維數(shù)字人的建模流程. 生成式數(shù)字 人模型學(xué)習(xí)包括對第 3 節(jié)表示參數(shù)和第 4 節(jié)渲染參數(shù)的學(xué)習(xí), 這些參數(shù)將定義一個生成式數(shù)字人模 型. 生成式數(shù)字人模型首先從二維或三維數(shù)據(jù)中學(xué)習(xí)三維數(shù)字人的分布規(guī)律, 再通過采樣或渲染等 方式實現(xiàn)數(shù)字人的生成, 數(shù)據(jù)類型與模型表示方式的不同會造成學(xué)習(xí)方法的差異。本節(jié)首先討論數(shù) 據(jù)集的獲取與處理方式, 然后分別介紹生成式三維數(shù)字人顯式表示模型與隱式表示模型的學(xué)習(xí)方法, 如圖 7 所示:
6. 生成式三維數(shù)字人的應(yīng)用
經(jīng)過完整的生成式三維數(shù)字人建模流程之后, 生成模型將學(xué)習(xí)到數(shù)字人的先驗信息, 針對模型進(jìn)行相應(yīng)微調(diào)即可應(yīng)用到下游任務(wù)。在虛擬數(shù)字人的應(yīng)用中, 虛擬數(shù)字人擁有人的形態(tài), 能夠表現(xiàn)人的 行為, 并且能與外界環(huán)境進(jìn)行交互是三項極為重要的特征。因此數(shù)字人的重建, 驅(qū)動以及交互是當(dāng)前 虛擬數(shù)字人的重要研究方向, 本節(jié)主要介紹這三方面的應(yīng)用。
6.1 數(shù)字人重建
數(shù)字人重建是指從圖像或視頻中恢復(fù)人體和人臉的三維幾何形狀以及對應(yīng)的外觀信息, 以實現(xiàn)真人與虛擬數(shù)字人的一對一的數(shù)字化映射。數(shù)字人重建是連通真實世界和數(shù)字世界的橋梁, 也是實現(xiàn)數(shù)字人驅(qū)動與交互的基礎(chǔ). 生成式數(shù)字人模型為重建任務(wù)提供了有效的先驗約束, 不僅有助于生成合理的重建結(jié)果, 也減少了對于訓(xùn)練標(biāo)簽的要求, 降低了重建成本。根據(jù)數(shù)字人的不同表示方法, 本小節(jié)對顯式重建和隱式重建兩類方法進(jìn)行梳理, 如圖 8 所示:
6.2 數(shù)字人驅(qū)動
數(shù)字人的重建任務(wù)連接了真實世界和數(shù)字世界, 實現(xiàn)了真人向數(shù)字人的靜態(tài)遷移, 但是要將數(shù)字人模型落實到電影, 游戲等具體的應(yīng)用場景, 則需要根據(jù)真人的行為驅(qū)動數(shù)字人模型產(chǎn)生相應(yīng)的變化。數(shù)字人的驅(qū)動為數(shù)字世界搭建了從靜態(tài)向動態(tài)跨越的階梯, 也為數(shù)字人模型打開了廣闊的應(yīng)用空間. 根據(jù)表示方法的不同, 本文對顯式和隱式表示模型的驅(qū)動方法進(jìn)行梳理
6.3 數(shù)字人交互
人類天然具備社交屬性, 將數(shù)字人作為一個獨立的個體顯然無法滿足在電影, 游戲以及 “元宇宙” 這類復(fù)雜場景中的應(yīng)用, 因此交互技術(shù)是數(shù)字人研究領(lǐng)域的一個重要問題。本節(jié)從數(shù)字人與環(huán)境的交互以及數(shù)字人之間的交互兩個方向?qū)ο嚓P(guān)工作進(jìn)行梳理.
7. 現(xiàn)有挑戰(zhàn)總結(jié)與未來發(fā)展趨勢展望
7.1 生成式數(shù)字人的基礎(chǔ)理論
7.2 生成式數(shù)字人的細(xì)節(jié)表示
7.3 高效推理與訓(xùn)練
7.4 質(zhì)量評價系統(tǒng)
7.5 工程擴展
7.6 法律與倫理問題
8. 總結(jié)
本文對生成式數(shù)字人這一研究熱點進(jìn)行了較為全面的總結(jié), 介紹了數(shù)字人建模過程中的主要步 驟, 比較了顯式與隱式表示這兩種主流的模型表示方式, 介紹了傳統(tǒng)渲染與神經(jīng)網(wǎng)絡(luò)渲染的具體流 程, 歸納了基于不同數(shù)據(jù)表示形式與渲染方式的學(xué)習(xí)方法。隨后, 細(xì)致地討論了生成式數(shù)字人的三大應(yīng)用, 包括重建, 驅(qū)動與交互. 本文最后對生成式數(shù)字人所面臨的現(xiàn)實挑戰(zhàn)進(jìn)行了討論, 并對未來發(fā) 展趨勢進(jìn)行了展望??梢钥闯? 生成式數(shù)字人的表示形式正從顯式表示向隱式表示的方向發(fā)展, 渲染 方式正從傳統(tǒng)渲染方法過渡到神經(jīng)網(wǎng)絡(luò)渲染, 學(xué)習(xí)方法越來越傾向自監(jiān)督, 對抗學(xué)習(xí)等弱標(biāo)注場景。現(xiàn)有數(shù)字人技術(shù)離實現(xiàn) “元宇宙” 中高度真實, 自然交互的虛擬形象仍存在巨大差距, 本綜述希望能 幫助讀者快速梳理生成式數(shù)字人的技術(shù)路徑與發(fā)展趨勢, 并啟發(fā)后續(xù)的研究。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。