文生圖關(guān)鍵問題探索：個性化定制和效果評價（2）

發(fā)布人：AI科技大本營時間：2023-05-22 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

可控生成

從上述論文對文生圖的評價結(jié)果可以看出來，達(dá)到可控生成任重而道遠(yuǎn)，其中最關(guān)鍵的一點是alignment，還有很大的提升空間。因此，我們可以得到文生圖的第二個關(guān)鍵問題——可控生成。通過一句prompts輸入來生成圖片時，生成的圖片和文字之間的alignment會比較弱，比如：

同時輸入多個實體不能實現(xiàn)完全生成；
實體之間的關(guān)系不能體現(xiàn)；
顏色和數(shù)量不能體現(xiàn)；
文字顯示不出來。

在現(xiàn)行的一些研究中，研究者也提出引入對文本理解更好的模型來解決可控問題，比如EDiff-I[8]。這篇文章延續(xù)了Imagen的思路，既然T5文本理解對于可控生成有幫助，那就把它集成進(jìn)來，發(fā)揮出1+1>2的效果。但是，從文本模型角度來改進(jìn)可控生成所需資源比較多，首先需要一個更強的文本模型，然后才能訓(xùn)練得到更好的文生圖模型。因此，有一些研究便從可控編輯的角度來解決這個問題，比如一項名為P2P (Prompt-to-Prompt Image Editing with cross attention control[9]) 的研究便期望通過微調(diào)prompt達(dá)到可控生成的目標(biāo)（見圖3）。圖3 通過微調(diào)prompt達(dá)到可控生成的目標(biāo)InstructPix2Pix [10]這篇文章的思路跟P2P思路很像，也是通過圖像編輯來實現(xiàn)可控生成。不一樣的是，這篇文章用GPT-3來做prompt微調(diào)。從圖片編輯這條線上進(jìn)行研究效果的確很驚艷，但是評價偏弱，沒有一個很好的評價標(biāo)準(zhǔn)和體系，還是很難繼續(xù)推進(jìn)。圖像編輯算法Paint by Example提出了另外一種思路：將可控生成的難度降低，提供一個樣本圖片，結(jié)合圖像修復(fù)技術(shù)來達(dá)到局部可控生成。其技術(shù)思路很直觀，同時提供機器評價和人工評價的結(jié)果。總得來說，這個方向的改進(jìn)可能會引發(fā)下一波文生圖應(yīng)用熱潮，但是因為評價方法的缺失，導(dǎo)致進(jìn)展比較難以衡量。個性化模型

本文首先從評測的角度探討了文生圖模型的關(guān)鍵問題：可控生成。接著從應(yīng)用的角度出發(fā)，重點研究如何定制一個文生圖模型，這是落地各行業(yè)應(yīng)用的關(guān)鍵所在。在影視、動漫、漫畫、游戲、媒體、廣告、出版、時尚等行業(yè)使用文生圖模型時，常常會遇到新概念、風(fēng)格、人物缺失的問題。例如，若需要生成某位明星A的中國風(fēng)肖像，但該模型并未見過此明星的肖像，也無法識別中國風(fēng)，這將嚴(yán)重限制文生圖模型的應(yīng)用場景。因此，如何快速新增概念和風(fēng)格，成為當(dāng)前研究的重要方向之一。說到這里，大家第一時間想到的肯定就是DreamBooth[11]、Textual Inversion[12]和美學(xué)梯度[13]。DreamBooth本身是為Imagen設(shè)計的，通過三張圖就能夠快速學(xué)習(xí)到新概念/風(fēng)格/人物，但是現(xiàn)在已經(jīng)遷移到了Stable Diffusion。這個技術(shù)有很多個不同的版本，其核心思想是在小樣本上微調(diào)的同時盡量減少過擬合。Textual Inversion是從文本編碼器的角度來解決新概念引入的問題，其提出新風(fēng)格和概念的引入需要從文本理解開始，新的風(fēng)格和概念如果是OOV（Out Of Vocaburary，未登錄）的詞匯，那我們就在文本編碼器上增加這個詞匯來解決概念引入的問題。其思路是整個模型的所有參數(shù)都不需要調(diào)整，只需要增加一個額外的token以及其對應(yīng)的embedding就可以，即插即用。美學(xué)梯度方法跟之前inpainting的可控生成思路很類似，針對新的風(fēng)格，我們先降低難度，給出一些新風(fēng)格的樣例（這里是embedding），然后讓生成朝著與這個樣例更接近的方向展開。總而言之，這條線上的研究現(xiàn)在也沒有什么評價標(biāo)準(zhǔn)和體系，處于方興未艾的階段，離落地也很近，基本出來效果就可以直接創(chuàng)業(yè)。

高質(zhì)量數(shù)據(jù)集

數(shù)據(jù)的重要性不言而喻，大量高質(zhì)量的文圖數(shù)據(jù)是文生圖發(fā)展的血液，沒有數(shù)據(jù)再好的算法也發(fā)揮不了作用。數(shù)據(jù)集不是開源一堆url提供下載就完了，其中包括了水印識別、NSFW（Not Suitable For Work）圖片識別、文圖匹配過濾等多種預(yù)處理操作，甚至包括說明文字的生成、改寫和優(yōu)化等操作。這個方向國外的LAION團隊做的非常的扎實，國內(nèi)也有一些公司開源了數(shù)據(jù)集。下表2列出，僅供參考。表2：國內(nèi)外開源文圖數(shù)據(jù)集綜上，文圖數(shù)據(jù)現(xiàn)在是英文的數(shù)據(jù)在數(shù)量和質(zhì)量上都比中文和其他語言高了一截，希望未來有十億級別的高質(zhì)量中文數(shù)據(jù)集出現(xiàn)。結(jié)語文生圖模型是當(dāng)前人工智能領(lǐng)域最具潛力和前景的研究方向之一。未來，隨著計算能力的提高和技術(shù)的進(jìn)一步發(fā)展，文生圖模型的應(yīng)用前景將會更加廣泛和深遠(yuǎn)。然而，針對其應(yīng)用過程中存在的一些問題，如模型評價缺乏一致性、控制生成過程效率低下、定制個性化模型困難以及高質(zhì)量文圖數(shù)據(jù)集缺乏等，需要我們進(jìn)一步研究探索解決方案。隨著文生圖模型的不斷發(fā)展和完善，我們可以預(yù)見到未來人機交互方式的改變。在智能化時代的到來中，文生圖模型的應(yīng)用將會極大地改變?nèi)藗兣c計算機交互的方式，讓計算機更加“懂人”，進(jìn)一步提升人機交互的效率和質(zhì)量，也有望成為人工智能走向真正“人性化”的關(guān)鍵一步。總之，文生圖模型作為一項研究熱點，具有極其廣泛的應(yīng)用前景，未來也將在技術(shù)創(chuàng)新和產(chǎn)業(yè)應(yīng)用中扮演越來越重要的角色。參考鏈接[1] Radford, Alec, et al. "Learning transferable visual models from natural language supervision." International conference on machine learning.PMLR, 202[2] Ramesh, Aditya, et al. "Zero-shot text-to-image generation." International Conference on Machine Learning. PMLR, 2021.[3] Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.[4] Dhariwal, Prafulla, and Alexander Nichol. "Diffusion models beat gans on image synthesis." Advances in Neural Information Processing Systems 34 (2021): 8780-8794.[5] Petsiuk, Vitali, et al. "Human Evaluation of Text-to-Image Models on a Multi-Task Benchmark." arXiv preprint arXiv:2211.12112 (2022).[6] Saharia, Chitwan, et al. "Photorealistic text-to-image diffusion models with deep language understanding." Advances in Neural Information Processing Systems 35 (2022): 36479-36494.[7] Raffel, Colin, et al. "Exploring the limits of transfer learning with a unified text-to-text transformer." The Journal of Machine Learning Research 21.1 (2020): 5485-5551.[8] Balaji, Yogesh, et al. "ediffi: Text-to-image diffusion models with an ensemble of expert denoisers." arXiv preprint arXiv:2211.01324 (2022).[9] Hertz, Amir, et al. "Prompt-to-prompt image editing with cross attention control." arXiv preprint arXiv:2208.01626 (2022).[10] Brooks, Tim, Aleksander Holynski, and Alexei A. Efros. "Instructpix2pix: Learning to follow image editing instructions." arXiv preprint arXiv:2211.09800 (2022).[11] Ruiz, Nataniel, et al. "Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation." arXiv preprint arXiv:2208.12242 (2022).[12] Gal, Rinon, et al. "An image is worth one word: Personalizing text-to-image generation using textual inversion." arXiv preprint arXiv:2208.01618 (2022).[13] Gallego, Victor. "Personalizing Text-to-Image Generation via Aesthetic Gradients." arXiv preprint arXiv:2209.12330 (2022).

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

文生圖關(guān)鍵問題探索：個性化定制和效果評價（2）

相關(guān)推薦

技術(shù)專區(qū)