新聞中心

EEPW首頁 > 智能計(jì)算 > 業(yè)界動(dòng)態(tài) > YouTube成AI訓(xùn)練新寵? OpenAI操作手法曝光

YouTube成AI訓(xùn)練新寵? OpenAI操作手法曝光

作者: 時(shí)間:2024-04-08 來源:工商時(shí)報(bào) 收藏

以聊天機(jī)器人ChatGPT一炮而紅的人工智能公司Open,去年發(fā)布功能更強(qiáng)大的GPT-4,成為領(lǐng)域的衡量標(biāo)竿。而這樣快速的進(jìn)步或許靠的正是影片的「幫忙」。據(jù)《紐約時(shí)報(bào)》報(bào)導(dǎo),Open利用AI版權(quán)法的模糊地帶,轉(zhuǎn)錄了超過100萬小時(shí)的影片,用于訓(xùn)練其先進(jìn)大型語言模型GPT-4。

本文引用地址:http://m.butianyuan.cn/article/202404/457277.htm

是網(wǎng)絡(luò)上最大且最豐富的圖像、音頻與文字記錄來源。在AI技術(shù)迅速發(fā)展之際,數(shù)據(jù)對(duì)推動(dòng)AI模型的進(jìn)步至關(guān)重要,各相關(guān)企業(yè)對(duì)訓(xùn)練數(shù)據(jù)的需求更為迫切。YouTube因此成為科技公司鎖定的目標(biāo)。

據(jù)《紐約時(shí)報(bào)》報(bào)導(dǎo),在2021年底就面臨了訓(xùn)練數(shù)據(jù)短缺的難題。為了開發(fā)最新的人工智能系統(tǒng),已耗盡網(wǎng)絡(luò)上所有有信譽(yù)的英語文字庫,然而為了訓(xùn)練其技術(shù)的下一個(gè)版本,顯然還需要更多的數(shù)據(jù)。

為了克服數(shù)據(jù)短缺的難題,的研究人員開發(fā)出一款名為「Whisper」的語音識(shí)別工具,將超過100萬小時(shí)的YouTube影片內(nèi)容轉(zhuǎn)化為文字,用于訓(xùn)練其先進(jìn)的大型語言模型GPT-4。

《紐約時(shí)報(bào)》報(bào)導(dǎo)中指出,其實(shí)OpenAI的部分員工也討論過這個(gè)做法可能違反YouTube 的規(guī)則。可是消息人士表示,盡管了解這樣做在法律層面有問題,但OpenAI 團(tuán)隊(duì)最終仍轉(zhuǎn)錄了超過100萬小時(shí)的YouTube 影片,而這個(gè)團(tuán)隊(duì)中還包括了OpenAI總裁Greg Brockman,他甚至親自幫忙收集這些影片。

可是對(duì)于旗下的YouTube被OpenAI當(dāng)作訓(xùn)練工具,Google并未出面制止,原因似乎與Google自身也同樣藉由YouTube影片內(nèi)容訓(xùn)練其人工智能模型有關(guān)。

YouTube執(zhí)行長(zhǎng)Neal Mohan日前曾在受訪時(shí)表示,他沒有直接證據(jù)能夠證明OpenAI確實(shí)使用了YouTube的影片來訓(xùn)練其文字生成影片AI工具Sora,但同時(shí)也強(qiáng)調(diào),如果OpenAI真的使用了,那就明顯違反了YouTube平臺(tái)的使用條款。

但《紐約時(shí)報(bào)》指出,為了在AI競(jìng)賽中搶先,搜尋推動(dòng)技術(shù)所需的數(shù)字?jǐn)?shù)據(jù)已成為重要課題,而為了取得這些數(shù)據(jù),包括OpenAI、Google與臉書母公司 Meta 在內(nèi)的科技公司紛紛選擇走快捷方式,無視公司政策,甚至還討論如何扭曲法規(guī)限制。



關(guān)鍵詞: YouTube AI OpenAI

評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉