YouTube成AI訓(xùn)練新寵？ OpenAI操作手法曝光

作者：時間：2024-04-08 來源：工商時報

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

以聊天機器人ChatGPT一炮而紅的人工智能公司OpenAI，去年發(fā)布功能更強大的GPT-4，成為AI領(lǐng)域的衡量標竿。而這樣快速的進步或許靠的正是YouTube影片的「幫忙」。據(jù)《紐約時報》報導(dǎo)，OpenAI利用AI版權(quán)法的模糊地帶，轉(zhuǎn)錄了超過100萬小時的YouTube影片，用于訓(xùn)練其先進大型語言模型GPT-4。

本文引用地址：http://m.butianyuan.cn/article/202404/457277.htm

YouTube 是網(wǎng)絡(luò)上最大且最豐富的圖像、音頻與文字記錄來源。在AI技術(shù)迅速發(fā)展之際，數(shù)據(jù)對推動AI模型的進步至關(guān)重要，各相關(guān)企業(yè)對訓(xùn)練數(shù)據(jù)的需求更為迫切。YouTube因此成為科技公司鎖定的目標。

據(jù)《紐約時報》報導(dǎo)，OpenAI在2021年底就面臨了訓(xùn)練數(shù)據(jù)短缺的難題。為了開發(fā)最新的人工智能系統(tǒng)，OpenAI已耗盡網(wǎng)絡(luò)上所有有信譽的英語文字庫，然而為了訓(xùn)練其技術(shù)的下一個版本，顯然還需要更多的數(shù)據(jù)。

為了克服數(shù)據(jù)短缺的難題，OpenAI的研究人員開發(fā)出一款名為「Whisper」的語音識別工具，將超過100萬小時的YouTube影片內(nèi)容轉(zhuǎn)化為文字，用于訓(xùn)練其先進的大型語言模型GPT-4。

《紐約時報》報導(dǎo)中指出，其實OpenAI的部分員工也討論過這個做法可能違反YouTube 的規(guī)則?？墒窍⑷耸勘硎?，盡管了解這樣做在法律層面有問題，但OpenAI 團隊最終仍轉(zhuǎn)錄了超過100萬小時的YouTube 影片，而這個團隊中還包括了OpenAI總裁Greg Brockman，他甚至親自幫忙收集這些影片。

可是對于旗下的YouTube被OpenAI當作訓(xùn)練工具，Google并未出面制止，原因似乎與Google自身也同樣藉由YouTube影片內(nèi)容訓(xùn)練其人工智能模型有關(guān)。

YouTube執(zhí)行長Neal Mohan日前曾在受訪時表示，他沒有直接證據(jù)能夠證明OpenAI確實使用了YouTube的影片來訓(xùn)練其文字生成影片AI工具Sora，但同時也強調(diào)，如果OpenAI真的使用了，那就明顯違反了YouTube平臺的使用條款。

但《紐約時報》指出，為了在AI競賽中搶先，搜尋推動技術(shù)所需的數(shù)字數(shù)據(jù)已成為重要課題，而為了取得這些數(shù)據(jù)，包括OpenAI、Google與臉書母公司 Meta 在內(nèi)的科技公司紛紛選擇走快捷方式，無視公司政策，甚至還討論如何扭曲法規(guī)限制。

新聞中心

YouTube成AI訓(xùn)練新寵？ OpenAI操作手法曝光

評論

相關(guān)推薦

技術(shù)專區(qū)

新聞中心

YouTube成AI訓(xùn)練新寵？ OpenAI操作手法曝光

評論

相關(guān)推薦

技術(shù)專區(qū)

YouTube成AI訓(xùn)練新寵？ OpenAI操作手法曝光