OpenAI采集了超一百萬(wàn)小時(shí)的YouTube視頻來(lái)訓(xùn)練GPT-4
近日,《華爾街日?qǐng)?bào)》報(bào)道稱(https://www.wsj.com/tech/ai/ai-training-data-synthetic-openai-anthropic-9230f8d8),人工智能公司在收集高質(zhì)量培訓(xùn)數(shù)據(jù)方面遇到了困難?!都~約時(shí)報(bào)》詳細(xì)介紹了一些公司處理這一問(wèn)題的方式。不出所料,它涉及到一些落入人工智能版權(quán)法模糊灰色地帶的事情。
故事從OpenAI開(kāi)始,據(jù)報(bào)道,OpenAI迫切需要訓(xùn)練數(shù)據(jù),開(kāi)發(fā)了Whisper音頻轉(zhuǎn)錄模型來(lái)克服困難,轉(zhuǎn)錄了超過(guò)一百萬(wàn)小時(shí)的YouTube視頻來(lái)訓(xùn)練其最先進(jìn)的大型語(yǔ)言模型GPT-4。據(jù)《紐約時(shí)報(bào)》報(bào)道,該公司知道這在法律上有問(wèn)題,但認(rèn)為這是合理使用的?!短┪钍繄?bào)》寫道,OpenAI總裁Greg Brockman親自參與了收集使用的視頻。
OpenAI發(fā)言人Lindsay Held在一封電子郵件中告訴The Verge,該公司為每個(gè)模型策劃了“獨(dú)特”的數(shù)據(jù)集,以“幫助他們理解世界”,并保持其全球研究競(jìng)爭(zhēng)力。Held補(bǔ)充道,該公司使用“許多來(lái)源,包括公開(kāi)數(shù)據(jù)和非公開(kāi)數(shù)據(jù)的合作伙伴關(guān)系”,并正在考慮生成自己的合成數(shù)據(jù)。
《泰晤士報(bào)》的文章稱,OpenAI在2021年耗盡了有用的數(shù)據(jù)供應(yīng),并在耗盡其他資源后討論了轉(zhuǎn)錄YouTube視頻、播客和有聲讀物的可行性。此外,OpenAI使用了包括來(lái)自Github的計(jì)算機(jī)代碼、國(guó)際象棋走棋數(shù)據(jù)庫(kù)和來(lái)自Quizlet的作業(yè)內(nèi)容。
谷歌發(fā)言人Matt Bryant在一封電子郵件中告訴The Verge,該公司“看到了未經(jīng)證實(shí)的關(guān)于OpenAI活動(dòng)的報(bào)道”,并補(bǔ)充道,“我們的robots.txt文件和服務(wù)條款都禁止未經(jīng)授權(quán)的抓取或下載YouTube內(nèi)容”,這與該公司的使用條款相呼應(yīng)。YouTube首席執(zhí)行官Neal Mohan對(duì)OpenAI使用YouTube訓(xùn)練其Sora視頻生成模型的可能性表示了類似的看法。Bryant說(shuō),“當(dāng)我們有明確的法律或技術(shù)依據(jù)時(shí)”,谷歌會(huì)采取“技術(shù)和法律措施”來(lái)防止這種未經(jīng)授權(quán)的使用。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。