您準(zhǔn)備好讓 AI 代理使用您的計算機(jī)了嗎?
隨著 ChatGPT 的推出,生成式 AI 熱潮真正開始兩年后,在您的網(wǎng)絡(luò)瀏覽器或手機(jī)中擁有一個非常有用的 AI 助手,只等著您向它提問,似乎不再那么令人興奮。AI 的下一個重大推動力是可以代表您采取行動的 AI 代理。但是,雖然代理 AI 已經(jīng)為程序員等高級用戶帶來了,但日常消費者還沒有這類 AI 助手。
本文引用地址:http://m.butianyuan.cn/article/202502/467259.htm這種情況很快就會改變。Anthropic、Google DeepMind 和 OpenAI 最近都推出了實驗?zāi)P?,這些模型可以像人們一樣使用計算機(jī)——在網(wǎng)上搜索信息、填寫表格和點擊按鈕。在人類用戶的一些指導(dǎo)下,他們可以做一些事情,比如訂購雜貨、打電話給 Uber、尋找最優(yōu)惠的產(chǎn)品價格,或者為您的下一個假期尋找航班。雖然這些早期模型的能力有限且尚未廣泛使用,但它們顯示了 AI 的發(fā)展方向。
“這只是 AI 的點擊,”OpenAI 首席執(zhí)行官 Sam Altman 在演示視頻中說,他觀看了名為 Operator 的 OpenAI 代理,導(dǎo)航到 OpenTable,查找舊金山的一家餐廳,并在晚上 7 點檢查兩人的桌子。
卡內(nèi)基梅隆大學(xué)機(jī)器學(xué)習(xí)副教授 Zachary Lipton 指出,AI 代理已經(jīng)嵌入到針對不同類型企業(yè)客戶(如銷售人員、醫(yī)生和律師)的專用軟件中。但到目前為止,我們還沒有看到可以“在你的筆記本電腦上做日常事情”的 AI 代理,他說?!坝腥さ氖牵藗兛赡軙_始交出鑰匙。”
來自 Anthropic、Google DeepMind 和 OpenAI 的 AI 代理
Anthropic 是第一個推出這項新功能的公司,它在 10 月宣布其 Claude 聊天機(jī)器人現(xiàn)在可以“像人類一樣使用計算機(jī)”。該公司強(qiáng)調(diào),它正在為模型提供此功能作為公開測試版,并且僅適用于在 Anthropic 的大型語言模型上構(gòu)建工具和產(chǎn)品的開發(fā)人員。Claude 通過查看用戶所看到內(nèi)容的屏幕截圖并計算將光標(biāo)移動到某個位置以進(jìn)行單擊所需的像素來導(dǎo)航。Anthropic 的一位發(fā)言人表示,Claude 可以在任何計算機(jī)和任何桌面應(yīng)用程序中完成這項工作。
接下來是 Google DeepMind 及其 Project Mariner,它建立在 Google 的 Gemini 2 語言模型之上。該公司在 12 月展示了 Mariner,但稱其為“早期研究原型”,并表示目前僅向“受信任的測試人員”提供該工具。作為另一種預(yù)防措施,Mariner 目前僅在 Chrome 瀏覽器中運行,并且僅在活動選項卡中運行,這意味著在您執(zhí)行其他任務(wù)時,它不會在后臺運行。雖然這個要求似乎在某種程度上違背了擁有一個節(jié)省時間的 AI 助手的目的,但它可能只是這個早期開發(fā)階段的臨時條件。
最后,在 1 月,OpenAI 推出了名為 Operator 的計算機(jī)使用代理 (CUA)。OpenAI 稱其為“研究預(yù)覽版”,并且僅向每月支付 200 美元購買 OpenAI 高級服務(wù)的用戶提供,盡管該公司表示正在努力實現(xiàn)更廣泛的發(fā)布。Operator 團(tuán)隊的工程師 Yash Kumar 表示,該工具基本上可以與任何網(wǎng)站一起使用?!拔覀儚臑g覽器開始,因為這是大多數(shù)工作發(fā)生的地方,”Kumar 說。但他指出,“CUA 模型也被訓(xùn)練為使用計算機(jī),因此我們可以擴(kuò)展它”以與其他桌面應(yīng)用程序一起使用。
與其他工具一樣,Operator 依靠思維鏈推理來獲取指令并將其分解為一系列可以完成的任務(wù)。如果它需要更多信息來完成一項任務(wù)(例如,如果您更喜歡購買紅洋蔥或黃洋蔥),它將暫停并要求輸入。它還會在執(zhí)行最后一步(例如預(yù)訂餐廳餐桌或訂購雜貨店)之前要求確認(rèn)。
計算機(jī)使用代理的安全問題
以下是計算機(jī)使用代理還不能做的一些事情:登錄網(wǎng)站、同意服務(wù)條款、破解驗證碼以及輸入信用卡或其他付款詳細(xì)信息。如果代理遇到這些障礙之一,它會將方向盤交還給人類用戶。OpenAI 指出,當(dāng)用戶輸入登錄或支付信息時,Operator 不會截取瀏覽器的屏幕截圖。
這三家公司都指出,讓 AI 負(fù)責(zé)您的計算機(jī)可能會帶來安全風(fēng)險。Anthropic 特別引起了對提示注入攻擊的擔(dān)憂,或者惡意行為者可以向用戶的提示中添加內(nèi)容以使模型采取意外作的方式?!坝捎?Claude 可以解釋來自連接到互聯(lián)網(wǎng)的計算機(jī)的屏幕截圖,因此它可能會接觸到包含提示注入攻擊的內(nèi)容,“Anthropic 在一篇博文中寫道。
CMU 的 Lipton 表示,這些公司尚未透露有關(guān)計算機(jī)使用代理及其工作原理的太多信息,因此很難評估風(fēng)險?!叭绻腥俗屇愕碾娔X作員做一些邪惡的事情,這是否意味著他們已經(jīng)可以訪問你的電腦?”他想知道,如果是這樣,為什么不法分子直接采取行動呢?
盡管如此,Lipton 說,憑借我們在網(wǎng)上采取的所有行動和購買行為,“不需要想象力的飛躍,就可以想象出會讓用戶陷入困境的行動。例如,他說,“誰會是第一個醒來說,'我的 [經(jīng)紀(jì)人] 給我買了一支車隊的人?
計算機(jī)用代理的未來
雖然沒有一家公司透露廣泛提供其計算機(jī)使用代理的時間表,但消費者似乎很可能在今年開始獲得它們——要么通過大型 AI 公司,要么通過創(chuàng)造更便宜的仿冒品的初創(chuàng)公司。
OpenAI 的 Kumar 表示,這是一個激動人心的時刻,Operator 標(biāo)志著人類和 AI 朝著更加協(xié)作的未來邁出了一步?!斑@是我們通往 AGI 之路的墊腳石,”他說,指的是人們期待已久的通用人工智能的夢想/噩夢?!澳軌蚴褂萌祟惾粘=换サ南嗤缑婧凸ぞ?,拓寬了 AI 的實用性,幫助人們節(jié)省日常任務(wù)的時間。”
如果你還記得 2013 年那部有先見之明的電影《她》,我們似乎正在逐漸走向電影開頭存在的世界,在撩人的聲音薩曼莎開始對主角的耳邊說話之前。在這個世界里,每個人都有一個無聊而中立的 AI 來幫助他們閱讀和回復(fù)消息,并處理其他平凡的任務(wù)。一旦 AI 公司切實實現(xiàn)了這一目標(biāo),他們無疑會開始開發(fā) Samantha。
評論