文生圖關(guān)鍵問題探索:個(gè)性化定制和效果評價(jià)(1)
DALL·E的應(yīng)用技術(shù)是Diffusion Model,主要用于生成圖像、音頻、文本等數(shù)據(jù)。它通過模擬數(shù)據(jù)的去噪過程來生成新的數(shù)據(jù)。與生成對抗網(wǎng)絡(luò)(GAN)相比,Diffusion models的生成過程更加穩(wěn)定,生成的數(shù)據(jù)也更加真實(shí)。Diffusion Model的發(fā)展如圖1所示:圖1 AIGC-Text to Image 的發(fā)展特別是從2022年5月Stable Diffusion[3]的開源開始,作為一個(gè)迅速火出圈的AI技術(shù),Stable Diffusion以極快的速度獲得了大量的開源社區(qū)關(guān)注,開始引領(lǐng)AIGC行業(yè)發(fā)展。那么,為什么Stable Diffusion能夠這么快地火出圈?其根本還是在于生成的效果和效率非常高,極大地降低了創(chuàng)作的門檻,降低了創(chuàng)作的成本。這里列了Stable Diffusion的Discord上的幾個(gè)例子(見圖2),這些圖片都可以在Nvidia Tesla A100機(jī)器上通過3-4s的時(shí)間生成出來。圖2 Stable Diffusion在Discord上的案例
雖然Stable Diffusion取得了很大的成功,但其本身存在一些問題會(huì)影響生成效果。主要包括:
- 問題一:模型的機(jī)器評價(jià)與人工評價(jià)之間缺乏一致性。通過機(jī)器評價(jià)指標(biāo),比如FID值等,評價(jià)結(jié)果往往和真實(shí)的生成效果并不一致,因此不能很好地評價(jià)不同模型的效果。而人工評價(jià)標(biāo)準(zhǔn)難以統(tǒng)一并有高昂的成本。
- 問題二:如何在生成過程中實(shí)現(xiàn)更高效的控制。如何提高生成圖像和文本輸入之間的一致性,特別是在使用簡短的提示句來生成圖像時(shí),目前難以有效地控制所生成圖片與文本之間的相關(guān)性程度。
- 問題三:如何進(jìn)行定制個(gè)性化模型。如何定制一個(gè)文生圖模型,是行業(yè)應(yīng)用的關(guān)鍵??焖俚倪M(jìn)行新概念/風(fēng)格/人物的學(xué)習(xí),是文生圖落地到各應(yīng)用場景的第一個(gè)攔路虎。
- 問題四:高質(zhì)量文圖數(shù)據(jù)集的缺乏。數(shù)據(jù)的重要性不言而喻,大量高質(zhì)量的文圖數(shù)據(jù)是文生圖發(fā)展的血液,沒有數(shù)據(jù)再好的算法也發(fā)揮不了作用。
如何評價(jià)文生圖模型的效果是生成類模型面臨的共性問題之一。通常,生成類模型的評價(jià)分為機(jī)器評價(jià)和人工評價(jià)兩種。機(jī)器評價(jià)方法如Bleu等,人工評價(jià)如ChatGPT中的人工評價(jià)等。然而,機(jī)器評價(jià)結(jié)果不完全符合人工評價(jià)結(jié)果,因此高機(jī)器評價(jià)并不一定代表生成效果好。文生圖的模型評價(jià)也面臨同樣的問題,現(xiàn)在用于文生圖模型評價(jià)的機(jī)器評價(jià)指標(biāo)比如FID值等指標(biāo)的評價(jià)結(jié)果跟真實(shí)的圖片生成效果并不是一致,因此機(jī)器評價(jià)的結(jié)果并不能夠很好的評價(jià)不同的文生圖模型效果。但是,由于機(jī)器評價(jià)的便利性和客觀性等原因,還是有很多評價(jià)基準(zhǔn)在采用機(jī)器評價(jià)指標(biāo)。比如ArtBench,一個(gè)提供了很多不同藝術(shù)風(fēng)格標(biāo)注數(shù)據(jù)的數(shù)據(jù)集,也是用FID指標(biāo)等機(jī)器評價(jià)方法來評價(jià)不同模型的效果。從ArtBench的評測結(jié)果中可以看到基于GAN模型生成的圖片可以獲得最高的FID值,說明GAN生成跟訓(xùn)練數(shù)據(jù)同分布圖片的能力還是更強(qiáng)。但同時(shí)這種更強(qiáng)的生成能力也是一種限制,限制了GAN模型的泛化能力,使得GAN只偏向于生成更像訓(xùn)練數(shù)據(jù)中的樣本。在2021年NeurIPS上刊載的OpenAI團(tuán)隊(duì)的文章Diffusion Models Beat GANs on Image Synthesis[4],指出了有引導(dǎo)的Diffusion 模型可以在各種機(jī)器評價(jià)指標(biāo)上比GANs的效果更好。但就像前面提到的一樣,機(jī)器評價(jià)指標(biāo)好就真的會(huì)生成更高質(zhì)量的圖片嗎?由此可以看出,人工評價(jià)可能是更加合適文生圖模型的評價(jià)方式。但是人工評價(jià)沒有統(tǒng)一的標(biāo)準(zhǔn),成本比較高。文章Human Evaluation of Text-to-Image Models on a Multi-Task Benchmark[5]提出了一套人工評價(jià)的標(biāo)準(zhǔn)。讓人從三種prompts的難度以及三種不同的task維度來對比不同的文生圖模型的圖片生成效果(見表1),比如SD和DALL-E 2。難度的定義用論文中的原文表述是:“In that case, the task may be easy: generating 1-3 objects, medium-generating 4-10 objects, and hard-generating more than ten objects.”表1 不同的文生圖模型的人工評測結(jié)果論文也給出了人工評價(jià)的結(jié)果,在數(shù)量(counting)和人臉(faces)兩個(gè)類別的任務(wù)上,DALL·E2占優(yōu)勢,而在形狀(shapes)這個(gè)類型的任務(wù)上,SD占優(yōu)勢。從篇文章給出的結(jié)果來看,現(xiàn)在的文生圖模型中的第一梯隊(duì)水平模型,在數(shù)量和形狀方面,還是明顯弱于人臉的生成任務(wù)的。因此,我們可以從這篇文章中總結(jié)出現(xiàn)在文生圖模型存在的語言理解的問題,特別是數(shù)量和形狀在理解能力上偏弱。文本理解能力可以通過更大更強(qiáng)的語言模型來解決,比如Google提出的Imagen[6]使用了更大的文本模型T5(Text-To-Text Transfer Transformer[7]),并在解碼和超分模型中都引入文本的信息來生成具有更豐富細(xì)節(jié)的圖片。為了評價(jià)文生圖模型的效果,Imagen團(tuán)隊(duì)也同時(shí)提出了一個(gè)文生圖的評價(jià)基準(zhǔn)DrawBench。該基準(zhǔn)主要從兩個(gè)維度來評價(jià)文生圖的效果:image-text alignment和sample fidelity。其實(shí)驗(yàn)指出,用T5作為文本編碼器的Imagen模型在這兩個(gè)維度上都有提升。但是,從上述實(shí)驗(yàn)的結(jié)果可以得出,在Image框架下將文本編碼器從CLIP的文本塔換成T5,會(huì)有一定的alignment提升,但是不是特別明顯。所以更大的語言模型會(huì)帶來一定的alignment的提升,但是提升沒有預(yù)期的高。整體來看,文生圖模型的評價(jià)是AIGC繼續(xù)發(fā)展的基石,急需評價(jià)體系的建立。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。