7 Papers | 超越GPT 3.5的小模型;對ChatGPT摸底考試
本周論文包括2D 圖像腦補(bǔ) 3D 人體;亞馬遜發(fā)布超越 GPT 3.5 的小模型等研究。
轉(zhuǎn)自《機(jī)器之心》
目錄
- Structure and Content-Guided Video Synthesis with Diffusion Models
- EVA3D: Compositional 3D Human Generation from 2D Image Collections
- Multimodal Chain-of-Thought Reasoning in Language Models
- Is ChatGPT a General-Purpose Natural Language Processing Task Solver?
- Toolformer: Language Models Can Teach Themselves to Use Tools
- Looped Transformers as Programmable Computers
- AudioLDM: Text-to-Audio Generation with Latent Diffusion Models
論文 1:Structure and Content-Guided Video Synthesis with Diffusion Models
- 作者:Patrick Esser 、 Johnathan Chiu 等
- 論文地址:https://arxiv.org/pdf/2302.03011.pdf
摘要:近日,曾參與創(chuàng)建 Stable Diffusion 的 Runway 公司推出了一個(gè)新的人工智能模型「Gen-1」,該模型通過應(yīng)用文本 prompt 或參考圖像指定的任何風(fēng)格,可將現(xiàn)有視頻轉(zhuǎn)化為新視頻。具體來說,Gen-1 支持幾種編輯模式:1、風(fēng)格化。將任何圖像或 prompt 的風(fēng)格轉(zhuǎn)移到視頻的每一幀。2、故事板。將模型變成完全風(fēng)格化和動(dòng)畫的渲染。3、遮罩。分離視頻中的主題并使用簡單的文本 prompt 對其進(jìn)行修改。4、渲染。通過應(yīng)用輸入圖像或 prompt,將無紋理渲染變成逼真的輸出。5、定制化。通過自定義模型以獲得更高保真度的結(jié)果,釋放 Gen-1 的全部功能。在該公司官方網(wǎng)站上發(fā)布的 demo 中,展示了 Gen-1 如何絲滑地更改視頻風(fēng)格,來看幾個(gè)示例。比如將「街道上的人」變成「粘土木偶」,只需要一行 prompt:
推薦:從文本生成圖像,再到給視頻加特效,下一個(gè) AIGC 爆發(fā)點(diǎn)要出現(xiàn)了嗎?論文 2:EVA3D: Compositional 3D Human Generation from 2D Image Collections
- 作者:Fangzhou Hong 等
- 論文地址:https://arxiv.org/abs/2210.04888
摘要:在 ICLR 2023 上,南洋理工大學(xué) - 商湯科技聯(lián)合研究中心 S-Lab 團(tuán)隊(duì)提出了首個(gè)從二維圖像集合中學(xué)習(xí)高分辨率三維人體生成的方法 EVA3D。得益于 NeRF 提供的可微渲染,近期的三維生成模型已經(jīng)在靜止物體上達(dá)到了很驚艷的效果。但是在人體這種更加復(fù)雜且可形變的類別上,三維生成依舊有很大的挑戰(zhàn)。本文提出了一個(gè)高效的組合的人體 NeRF 表達(dá),實(shí)現(xiàn)了高分辨率(512x256)的三維人體生成,并且沒有使用超分模型。EVA3D 在四個(gè)大型人體數(shù)據(jù)集上均大幅超越了已有方案,代碼已開源。推薦:2D 圖像腦補(bǔ) 3D 人體,衣服隨便搭,還能改動(dòng)作。論文 3:Multimodal Chain-of-Thought Reasoning in Language Models
- 作者:Zhuosheng Zhang 等
- 論文地址:https://arxiv.org/abs/2302.00923
摘要:眾所周知,ChatGPT 是在 GPT-3.5 系列模型的基礎(chǔ)上微調(diào)而來的,我們看到很多研究也在緊隨其后緊追慢趕,但是,與 ChatGPT 相比,他們的新研究效果到底有多好?近日,亞馬遜發(fā)布的一篇論文提出了包含視覺特征的 Multimodal-CoT,該架構(gòu)在參數(shù)量小于 10 億的情況下,在 ScienceQA 基準(zhǔn)測試中,比 GPT-3.5 高出 16 個(gè)百分點(diǎn) (75.17%→91.68%),甚至超過了許多人類。下圖為 Multimodal CoT 兩階段過程:使用文本(問題 + 上下文)和視覺特征來產(chǎn)生邏輯依據(jù)。推薦:超越 GPT 3.5 的小模型來了!論文 4:Is ChatGPT a General-Purpose Natural Language Processing Task Solver?
- 作者:Chengwei Qin 等
- 論文地址:https://arxiv.org/pdf/2302.06476.pdf
摘要:ChatGPT 真的是「通才」嗎?單拎出哪項(xiàng)能力都能完勝其他模型嗎?哪些任務(wù)是 ChatGPT 擅長的,哪些不是?為了系統(tǒng)地探索這些問題,南洋理工大學(xué)博士生 Chengwei Qin、斯坦福大學(xué)計(jì)算機(jī)科學(xué)助理教授楊笛一等人進(jìn)行了大量實(shí)驗(yàn)。該研究主要比較了 ChatGPT 和 GPT-3.5 (textdavinci-003) 在不同任務(wù)下的 zero-shot 學(xué)習(xí)性能。推薦:ChatGPT 真的是「通才」嗎?楊笛一等人給它來了個(gè)摸底考試。論文 5:Toolformer: Language Models Can Teach Themselves to Use Tools
- 作者:Timo Schick 等
- 論文地址:https://arxiv.org/pdf/2302.04761v1.pdf
摘要:在自然語言處理任務(wù)中,大型語言模型在零樣本和少樣本學(xué)習(xí)方面取得了令人印象深刻的結(jié)果。然而,所有模型都存在固有的局限性,往往只能通過進(jìn)一步擴(kuò)展來部分解決。具體來講,模型的局限性包括無法訪問最新信息、會對事實(shí)產(chǎn)生「信息幻覺」、低資源語言理解困難、缺乏進(jìn)行精確計(jì)算的數(shù)學(xué)技能等等。解決這些問題的一種簡單方法就是給模型配備外部工具,如搜索引擎、計(jì)算器或日歷。然而,現(xiàn)有方法通常依賴于大量的人工注釋,或?qū)⒐ぞ叩氖褂孟拗圃谔囟ǖ娜蝿?wù)設(shè)置下,使得語言模型與外部工具的結(jié)合使用難以推廣。為了打破這種瓶頸,近期 Meta AI 提出了一種稱為 Toolformer 的新方法,使得語言模型學(xué)會「使用」各種外部工具。如下為 Toolformer 的典型預(yù)測。推薦:語言模型自己學(xué)會用搜索引擎了?Meta AI 提出 API 調(diào)用自監(jiān)督學(xué)習(xí)方法 Toolformer。論文 6:Looped Transformers as Programmable Computers
- 作者:Angeliki Giannou 等
- 論文地址:https://arxiv.org/pdf/2301.13196.pdf
摘要:在本文中,作者展示了 Transformer 網(wǎng)絡(luò)可以通過使用特定權(quán)重對它們進(jìn)行硬編碼并將它們置于一個(gè)循環(huán)中來模擬復(fù)雜的算法和程序。作者通過對 Attention 進(jìn)行逆向工程來模擬基本計(jì)算塊來做到這一點(diǎn),例如對輸入序列的編輯操作、非線性函數(shù)、函數(shù)調(diào)用、程序計(jì)數(shù)器和條件分支。作者的論文證明了使用單個(gè)循環(huán)或遞歸將 Transformer 的輸出序列連接回其輸入的重要性,從而避免對深度模型的需要。如下為用作實(shí)現(xiàn)小型指令集計(jì)算機(jī)構(gòu)建塊的三個(gè) Transformer 塊的示意圖。推薦:作者展示了 Transformer 網(wǎng)絡(luò)可以通過使用特定權(quán)重對它們進(jìn)行硬編碼并將它們置于一個(gè)循環(huán)中來模擬復(fù)雜的算法和程序。論文 7:AudioLDM: Text-to-Audio Generation with Latent Diffusion Models
- 作者:Haohe Liu 等
- 論文地址:https://arxiv.org/abs/2301.12503
摘要:給出一段文字,人工智能就可以生成音樂,語音,各種音效,甚至是想象的聲音,比如黑洞和激光槍。最近由英國薩里大學(xué)和帝國理工學(xué)院聯(lián)合推出的 AudioLDM,在發(fā)布之后迅速火遍國外,一周內(nèi)在推特上收獲了近 300 次的轉(zhuǎn)發(fā)和 1500 次的點(diǎn)贊。在模型開源第二天,AudioLDM 就沖上了 Hugging Face 熱搜榜第一名,并在一周內(nèi)進(jìn)入了 Hugging Face 最受喜歡的前 40 名應(yīng)用榜單(共約 25000),也迅速出現(xiàn)了很多基于 AudioLDM 的衍生工作。推薦:開源模型、單卡訓(xùn)練,帶你了解爆火的文本指導(dǎo)音頻生成技術(shù) AudioLDM。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。