您準(zhǔn)備好讓 AI 代理使用您的計算機(jī)了嗎？

—— ? 來自 OpenAI、Anthropic 和 Google 的 AI 代理希望減輕您的負(fù)擔(dān)

作者：時間：2025-02-24 來源：IEEE

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

隨著 ChatGPT 的推出，生成式 AI 熱潮真正開始兩年后，在您的網(wǎng)絡(luò)瀏覽器或手機(jī)中擁有一個非常有用的 AI 助手，只等著您向它提問，似乎不再那么令人興奮。AI 的下一個重大推動力是可以代表您采取行動的 AI 代理。但是，雖然代理 AI 已經(jīng)為程序員等高級用戶帶來了，但日常消費者還沒有這類 AI 助手。

本文引用地址：http://m.butianyuan.cn/article/202502/467259.htm

這種情況很快就會改變。Anthropic、Google DeepMind 和 OpenAI 最近都推出了實驗?zāi)Ｐ?，這些模型可以像人們一樣使用計算機(jī)——在網(wǎng)上搜索信息、填寫表格和點擊按鈕。在人類用戶的一些指導(dǎo)下，他們可以做一些事情，比如訂購雜貨、打電話給 Uber、尋找最優(yōu)惠的產(chǎn)品價格，或者為您的下一個假期尋找航班。雖然這些早期模型的能力有限且尚未廣泛使用，但它們顯示了 AI 的發(fā)展方向。

“這只是 AI 的點擊，”OpenAI 首席執(zhí)行官 Sam Altman 在演示視頻中說，他觀看了名為 Operator 的 OpenAI 代理，導(dǎo)航到 OpenTable，查找舊金山的一家餐廳，并在晚上 7 點檢查兩人的桌子。

卡內(nèi)基梅隆大學(xué)機(jī)器學(xué)習(xí)副教授 Zachary Lipton 指出，AI 代理已經(jīng)嵌入到針對不同類型企業(yè)客戶（如銷售人員、醫(yī)生和律師）的專用軟件中。但到目前為止，我們還沒有看到可以“在你的筆記本電腦上做日常事情”的 AI 代理，他說?！坝腥さ氖牵藗兛赡軙_始交出鑰匙。”

來自 Anthropic、Google DeepMind 和 OpenAI 的 AI 代理

Anthropic 是第一個推出這項新功能的公司，它在 10 月宣布其 Claude 聊天機(jī)器人現(xiàn)在可以“像人類一樣使用計算機(jī)”。該公司強(qiáng)調(diào)，它正在為模型提供此功能作為公開測試版，并且僅適用于在 Anthropic 的大型語言模型上構(gòu)建工具和產(chǎn)品的開發(fā)人員。Claude 通過查看用戶所看到內(nèi)容的屏幕截圖并計算將光標(biāo)移動到某個位置以進(jìn)行單擊所需的像素來導(dǎo)航。Anthropic 的一位發(fā)言人表示，Claude 可以在任何計算機(jī)和任何桌面應(yīng)用程序中完成這項工作。

接下來是 Google DeepMind 及其 Project Mariner，它建立在 Google 的 Gemini 2 語言模型之上。該公司在 12 月展示了 Mariner，但稱其為“早期研究原型”，并表示目前僅向“受信任的測試人員”提供該工具。作為另一種預(yù)防措施，Mariner 目前僅在 Chrome 瀏覽器中運行，并且僅在活動選項卡中運行，這意味著在您執(zhí)行其他任務(wù)時，它不會在后臺運行。雖然這個要求似乎在某種程度上違背了擁有一個節(jié)省時間的 AI 助手的目的，但它可能只是這個早期開發(fā)階段的臨時條件。

最后，在 1 月，OpenAI 推出了名為 Operator 的計算機(jī)使用代理（CUA）。OpenAI 稱其為“研究預(yù)覽版”，并且僅向每月支付 200 美元購買 OpenAI 高級服務(wù)的用戶提供，盡管該公司表示正在努力實現(xiàn)更廣泛的發(fā)布。Operator 團(tuán)隊的工程師 Yash Kumar 表示，該工具基本上可以與任何網(wǎng)站一起使用?！拔覀儚臑g覽器開始，因為這是大多數(shù)工作發(fā)生的地方，”Kumar 說。但他指出，“CUA 模型也被訓(xùn)練為使用計算機(jī)，因此我們可以擴(kuò)展它”以與其他桌面應(yīng)用程序一起使用。

與其他工具一樣，Operator 依靠思維鏈推理來獲取指令并將其分解為一系列可以完成的任務(wù)。如果它需要更多信息來完成一項任務(wù)（例如，如果您更喜歡購買紅洋蔥或黃洋蔥），它將暫停并要求輸入。它還會在執(zhí)行最后一步（例如預(yù)訂餐廳餐桌或訂購雜貨店）之前要求確認(rèn)。

計算機(jī)使用代理的安全問題

以下是計算機(jī)使用代理還不能做的一些事情：登錄網(wǎng)站、同意服務(wù)條款、破解驗證碼以及輸入信用卡或其他付款詳細(xì)信息。如果代理遇到這些障礙之一，它會將方向盤交還給人類用戶。OpenAI 指出，當(dāng)用戶輸入登錄或支付信息時，Operator 不會截取瀏覽器的屏幕截圖。

這三家公司都指出，讓 AI 負(fù)責(zé)您的計算機(jī)可能會帶來安全風(fēng)險。Anthropic 特別引起了對提示注入攻擊的擔(dān)憂，或者惡意行為者可以向用戶的提示中添加內(nèi)容以使模型采取意外作的方式?！坝捎?Claude 可以解釋來自連接到互聯(lián)網(wǎng)的計算機(jī)的屏幕截圖，因此它可能會接觸到包含提示注入攻擊的內(nèi)容，“Anthropic 在一篇博文中寫道。

CMU 的 Lipton 表示，這些公司尚未透露有關(guān)計算機(jī)使用代理及其工作原理的太多信息，因此很難評估風(fēng)險?！叭绻腥俗屇愕碾娔X作員做一些邪惡的事情，這是否意味著他們已經(jīng)可以訪問你的電腦？”他想知道，如果是這樣，為什么不法分子直接采取行動呢？

盡管如此，Lipton 說，憑借我們在網(wǎng)上采取的所有行動和購買行為，“不需要想象力的飛躍，就可以想象出會讓用戶陷入困境的行動。例如，他說，“誰會是第一個醒來說，'我的 [經(jīng)紀(jì)人] 給我買了一支車隊的人？

計算機(jī)用代理的未來

雖然沒有一家公司透露廣泛提供其計算機(jī)使用代理的時間表，但消費者似乎很可能在今年開始獲得它們——要么通過大型 AI 公司，要么通過創(chuàng)造更便宜的仿冒品的初創(chuàng)公司。

OpenAI 的 Kumar 表示，這是一個激動人心的時刻，Operator 標(biāo)志著人類和 AI 朝著更加協(xié)作的未來邁出了一步?！斑@是我們通往 AGI 之路的墊腳石，”他說，指的是人們期待已久的通用人工智能的夢想/噩夢?！澳軌蚴褂萌祟惾粘＝换サ南嗤缑婧凸ぞ?，拓寬了 AI 的實用性，幫助人們節(jié)省日常任務(wù)的時間。”

如果你還記得 2013 年那部有先見之明的電影《她》，我們似乎正在逐漸走向電影開頭存在的世界，在撩人的聲音薩曼莎開始對主角的耳邊說話之前。在這個世界里，每個人都有一個無聊而中立的 AI 來幫助他們閱讀和回復(fù)消息，并處理其他平凡的任務(wù)。一旦 AI 公司切實實現(xiàn)了這一目標(biāo)，他們無疑會開始開發(fā) Samantha。