OpenAI GPT-4o和谷歌Astra誰(shuí)更強(qiáng)？前者音頻更逼真，后者視覺更先進(jìn)

發(fā)布人：深科技時(shí)間：2024-05-16 來(lái)源：工程師

本周，谷歌和 OpenAI 都宣布，他們已經(jīng)構(gòu)建了“超級(jí)”人工智能助手。這些工具可以實(shí)時(shí)與你交談，并允許你隨時(shí)打斷它們，還能通過(guò)實(shí)時(shí)視頻分析你的周圍環(huán)境，并即時(shí)翻譯對(duì)話。

當(dāng)?shù)貢r(shí)間 5 月 13 日，OpenAI 首次展示了其最新旗艦?zāi)Ｐ?GPT-4o。

在現(xiàn)場(chǎng)演示中，它能閱讀睡前故事并幫助解決數(shù)學(xué)問(wèn)題，所用的聲音聽起來(lái)就像電影《她》（Her）里華金·菲尼克斯（Joaquin Phoenix）的人工智能女友。

顯然，OpenAI 的 CEO 山姆·奧特曼（Sam Altman）一直惦記著電影中的這一點(diǎn)。

當(dāng)?shù)貢r(shí)間 5 月 14 日，谷歌宣布了一系列新的人工智能工具，包括一款名為 Gemini Live 的對(duì)話助手，它能做的事情和 GPT-4o 相似。

谷歌還透露，它正在構(gòu)建一種“無(wú)所不能”的人工智能代理，目前正在開發(fā)中，但要到 2024 年晚些時(shí)候才會(huì)發(fā)布。

很快，你將能夠自己探索這些工具，看看是否會(huì)像開發(fā)者所希望的那樣，在日常生活中使用這些工具，或者它們是不是更像那些早晚會(huì)失去吸引力的小把戲。

以下是你應(yīng)該了解的關(guān)于如何訪問(wèn)這些新工具、使用它們的目的以及相關(guān)費(fèi)用的信息。

OpenAI 的 GPT-4o

它的功能：該模型可以實(shí)時(shí)與你交談，響應(yīng)延遲約 320 毫秒，OpenAI 表示這與人類的自然對(duì)話不相上下。

你可以讓該模型解釋你用手機(jī)攝像頭拍攝的任何東西，它可以幫助你完成寫代碼或翻譯文本等任務(wù)。它還可以匯總信息，生成圖像、字體和 3D 渲染。

如何訪問(wèn)：OpenAI 表示，它將開始在網(wǎng)頁(yè)和 GPT 應(yīng)用程序中推出 GPT-4o 的文本和視覺功能，但日期尚未公布。該公司表示，將在未來(lái)幾周內(nèi)增加語(yǔ)音功能，但也尚未確定具體日期。

開發(fā)人員現(xiàn)在可以通過(guò)官方 API 使用文本和視覺功能，但語(yǔ)音模式最初只對(duì)“一小部分”開發(fā)人員開放。

費(fèi)用：使用 GPT-4o 將是免費(fèi)的，但 OpenAI 將設(shè)置使用上限，用戶可以通過(guò)訂閱來(lái)增加上限。

對(duì)于那些加入 OpenAI 訂閱計(jì)劃（每月 20 美元起）的人，GPT-4o 的消息容量將增加五倍。

谷歌的 Gemini Live

什么是 Gemini Live？這是谷歌直接與 GPT-4o 競(jìng)爭(zhēng)的產(chǎn)品，你可以與之實(shí)時(shí)對(duì)話。谷歌表示，在 2024 年晚些時(shí)候，你還可以使用該工具通過(guò)視頻進(jìn)行交流。

該公司承諾，它將成為一個(gè)有用的對(duì)話助手，用于準(zhǔn)備面試或練習(xí)演講。

如何訪問(wèn)：Gemini Live 將在未來(lái)幾個(gè)月加入谷歌的高級(jí)人工智能計(jì)劃 Gemini Advanced。

費(fèi)用：Gemini Advanced 提供兩個(gè)月的免費(fèi)試用期，此后每月費(fèi)用為 20 美元。

那么 Astra 項(xiàng)目是什么？Astra 是一個(gè)構(gòu)建無(wú)所不能的人工智能代理的項(xiàng)目。谷歌在 I/O 大會(huì)上演示了該項(xiàng)目，但要到 2024 年晚些時(shí)候才會(huì)發(fā)布。

谷歌 DeepMind 研究副總裁奧里奧爾·維尼亞爾斯（Oriol Vinyals）告訴《麻省理工科技評(píng)論》，人們將能夠通過(guò)智能手機(jī)和臺(tái)式電腦使用 Astra，但該公司也在探索其他選擇，例如將其嵌入智能眼鏡或其他設(shè)備。

（來(lái)源：STEPHANIE ARNETT/MITTR | GOOGLE, OPENAI）?

哪個(gè)更好？

就目前來(lái)看，我們還無(wú)法體驗(yàn)這些模型的完整版本，所以很難判斷哪個(gè)更好。谷歌通過(guò)一段精心制作的視頻展示了 Astra 項(xiàng)目，而 OpenAI 選擇通過(guò)看似更真實(shí)的現(xiàn)場(chǎng)演示展示了 GPT-4o。

但在這兩種情況下，模型都被要求做開發(fā)者可能已經(jīng)練習(xí)了很多次的事情。真正的考驗(yàn)將在它們首次面向數(shù)百萬(wàn)有獨(dú)特需求的用戶時(shí)到來(lái)。

也就是說(shuō)，如果你將 OpenAI 發(fā)布的視頻與谷歌的視頻進(jìn)行比較，這兩個(gè)領(lǐng)先的工具看起來(lái)非常相似，至少在易用性方面是如此。

整體上看，GPT-4o 似乎在音頻方面略微領(lǐng)先，展示了逼真的聲音、對(duì)話，甚至是唱歌。而 Astra 則展示了更先進(jìn)的視覺能力，比如能夠“記住”你把眼鏡忘在哪里了。

OpenAI 可能會(huì)更快地推出新功能，這意味著它的產(chǎn)品一開始會(huì)比谷歌的產(chǎn)品得到更多的使用，而谷歌要到 2024 年晚些時(shí)候才能完全推出其產(chǎn)品。

現(xiàn)在判斷哪個(gè)模型產(chǎn)生“幻覺”或虛假信息的頻率較低，哪個(gè)模型能產(chǎn)生更有用的回應(yīng)還為時(shí)過(guò)早。

它們安全嗎？

OpenAI 和谷歌都表示，它們的模型經(jīng)過(guò)了很好的測(cè)試。OpenAI 表示，GPT-4o 由 70 多位錯(cuò)誤信息和社會(huì)心理學(xué)等領(lǐng)域的專家進(jìn)行了評(píng)估。

谷歌表示，Gemini“擁有迄今為止谷歌人工智能模型中最全面的安全評(píng)估，包括偏見和毒性。”

但這些公司正在構(gòu)建一個(gè)未來(lái)，讓人工智能模型搜索、審查和評(píng)估真實(shí)世界的信息，為我們提供問(wèn)題的答案。與相對(duì)簡(jiǎn)單的聊天機(jī)器人相比，更明智的做法是對(duì)它們告訴你的信息保持懷疑。

支持：Ren
運(yùn)營(yíng)/排版：何晨龍

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄