2026-02-23 12:16:11
《每日經(jīng)濟新聞》記者聯(lián)合科技人員對AI工具OpenClaw展開實測,接入六款大模型測試其完成任務(wù)能力。結(jié)果顯示,GPT-5-mini、MiniMax-M2.5、智譜GLM-4.7表現(xiàn)相對更好,但也存在操控瀏覽器困難等問題。業(yè)內(nèi)認(rèn)為,OpenClaw能力上限取決于大模型,且存在高門檻、高成本和高風(fēng)險問題,目前難以走向普通用戶。
每經(jīng)記者|岳楚鵬 每經(jīng)科技 駱方平 每經(jīng)編輯|王嘉琦 蘭素英
號稱能“接管電腦、解放雙手”的AI Agent(AI智能體)工具OpenClaw最近在技術(shù)圈火得一塌糊涂。
它被吹捧為“AI打工人”,似乎只要下個指令,它就能替你寫文章、發(fā)郵件甚至買咖啡。但事實真的如此嗎?它是生產(chǎn)力神器,還是僅供技術(shù)極客嘗鮮的“玩具”?
近日,《每日經(jīng)濟新聞》記者(以下簡稱每經(jīng)記者)聯(lián)合每經(jīng)科技開發(fā)人員,展開了一場深度實測。我們將OpenClaw分別接入千問Qwen3-Max、月之暗面Kimi-K2.5、MiniMax-M2.1、MiniMax-M2.5和智譜GLM-4.7五款國產(chǎn)大模型,以及OpenAI的GPT-5-mini,要求它們完成本地文件檢索、網(wǎng)絡(luò)資料搜索、稿件撰寫、發(fā)送郵件等步驟,試圖揭開這位“指揮官”的真實戰(zhàn)力。
實測結(jié)果顯示,部分模型表現(xiàn)不佳,尤其是在需要操控瀏覽器的環(huán)節(jié),如網(wǎng)絡(luò)搜索和發(fā)送郵件,大多失敗。有專家直言,當(dāng)前的OpenClaw不僅難用、費錢,更是一場安全的“噩夢”。
OpenClaw本身并非大模型,它更像一個“指揮官”,負(fù)責(zé)接收用戶指令、調(diào)用工具和組織流程,并將指令理解與具體工作交由其接入的外部大模型來完成。
因此,接入的大模型的能力、穩(wěn)定性與表達方式,決定了任務(wù)的最終成敗。

目前OpenClaw支持的大模型(圖片來源:OpenClaw配置界面)
為了更貼近記者的真實工作場景,測試人員設(shè)定了一項綜合性測試任務(wù):
讓接入不同大模型的OpenClaw,在電腦中找到對“電車教父”Andy Palmer的采訪速記稿,要求它總結(jié)文稿內(nèi)容,并結(jié)合搜索到的網(wǎng)絡(luò)資料,撰寫一篇專訪新聞稿,最后將新聞稿通過郵件發(fā)送到指定郵箱。
這一任務(wù)涵蓋了指令理解、操控電腦進行本地文件檢索、操控瀏覽器進行網(wǎng)絡(luò)信息搜索、信息整合和文章寫作以及應(yīng)用操控等多個維度。
在首次測試中,各模型的表現(xiàn)分化顯著。
● OpenClaw+千問Qwen3-Max
首先測試的是千問Qwen3-Max模型。該模型在本地文件檢索環(huán)節(jié)便陷入困境。即便測試人員明確提示文件在電腦中的所在位置,Qwen3-Max在經(jīng)過約5分鐘檢索后,仍無法準(zhǔn)確定位。

在后續(xù)單獨測試其發(fā)送郵件任務(wù)時,Qwen3-Max也未能成功執(zhí)行,只是不斷重復(fù)指令,但無實際動作。

● OpenClaw+月之暗面Kimi-K2.5
Kimi-K2.5的表現(xiàn)稍好,它在5分鐘內(nèi)成功檢索到了文件,并完成內(nèi)容總結(jié)。但在執(zhí)行網(wǎng)絡(luò)搜索并補充行業(yè)最新熱點資訊時,因觸發(fā)了“429錯誤”(通常指請求過于頻繁),導(dǎo)致未能完成信息搜索工作。

在郵件發(fā)送環(huán)節(jié),Kimi-K2.5無法成功操控瀏覽器向指定郵箱發(fā)送郵件。

● OpenClaw+MiniMax-M2.1
MiniMax-M2.1在文件檢索、網(wǎng)絡(luò)搜索資料和寫作方面沒有遇到明顯阻礙。郵件發(fā)送環(huán)節(jié),MiniMax-M2.1在瀏覽器操控上遇到了困難,但并未就此卡住,而是主動給出了一個可行的解決方案。

測試人員根據(jù)其提示手動操作后,成功解決了問題,使其最終能夠發(fā)送郵件。

不過,MiniMax-M2.1發(fā)送的郵件只包含了稿件的“關(guān)鍵引語”,未附上完整的稿件正文。

● OpenClaw+MiniMax-M2.5
雖然都是MiniMax旗下模型,2月12日發(fā)布的MiniMax-M2.5,表現(xiàn)比MiniMax-M2.1更好,不僅順利完成文件檢索、網(wǎng)絡(luò)搜索資料和寫作,在發(fā)送郵件環(huán)節(jié)也無需人工介入。

● OpenClaw+智譜GLM-4.7
由于OpenClaw暫未接入智譜于2月12日發(fā)布的最新模型GLM-5,所以,本次測試選擇了智譜GLM-4.7。
結(jié)果顯示,在發(fā)送郵件環(huán)節(jié),智譜GLM-4.7會在瀏覽器中輸入錯誤的郵箱網(wǎng)址,導(dǎo)致網(wǎng)頁訪問失敗,需要人工提醒更正。
除此之外,智譜GLM-4.7在其他環(huán)節(jié)處理速度較快。

● OpenClaw+GPT-5-mini
GPT-5-mini的表現(xiàn)較為穩(wěn)定和流暢。從文件檢索、內(nèi)容總結(jié)、網(wǎng)絡(luò)搜索、資料補充到郵件發(fā)送,全流程幾乎無需人工干預(yù)和額外提示,僅在個別時候出現(xiàn)了網(wǎng)絡(luò)連接不穩(wěn)定的情況。


為了保證測試的嚴(yán)謹(jǐn)性,測試人員對整個流程進行了兩次復(fù)測。
第二輪測試結(jié)果:
● Kimi-K2.5:成功檢索并讀取本地文件,補充網(wǎng)絡(luò)搜索資料,但在郵件發(fā)送環(huán)節(jié)依舊失敗。其報告的錯誤顯示,在讀取郵箱網(wǎng)絡(luò)代碼、獲取輸入框節(jié)點時出現(xiàn)問題。
● 千問Qwen3-max:成功讀取文件并補充網(wǎng)絡(luò)資料,但在郵件發(fā)送環(huán)節(jié)出現(xiàn)明顯卡頓,未能成功;
● MiniMax-M2.1/2.5:完成任務(wù)全部流程。
● 智譜GLM-4.7: 完成任務(wù)全部流程。
● GPT-5-mini:完成任務(wù)全部流程。
第三輪測試結(jié)果:
● Kimi-K2.5:成功檢索并讀取本地文件,在網(wǎng)絡(luò)搜索資料環(huán)節(jié)出現(xiàn)問題(出現(xiàn)讀取網(wǎng)頁內(nèi)容錯誤,錯誤的網(wǎng)站訪問路徑,理解不了瀏覽器控制臺指令等),在郵件發(fā)送環(huán)節(jié)依舊失敗。
● 千問Qwen3-max:成功讀取文件,但無法操控瀏覽器搜索網(wǎng)絡(luò)資料,在郵件發(fā)送環(huán)節(jié)依舊失敗。
● MiniMax-M2.1/2.5:完成任務(wù)全部流程。
● 智譜GLM-4.7: 完成任務(wù)全部流程。
● GPT-5-mini:完成任務(wù)全部流程。

上述測試結(jié)論也得到業(yè)內(nèi)普遍印證。
一名使用OpenClaw來輔助運營網(wǎng)店,設(shè)計海報、優(yōu)惠券等宣傳物料的程序員告訴每經(jīng)記者,自己平時都是接入OpenAI的Codex-5.3和Gemini 3 Pro模型,效果比國產(chǎn)大模型好很多。
多位業(yè)內(nèi)人士和資深用戶指出,OpenClaw更像一個“任務(wù)框架”,其最終表現(xiàn)非常依賴所接入大模型的能力。就像一個指令清晰但能力有限的指揮官,手下士兵(即大模型)的強弱,直接決定了戰(zhàn)役的勝敗。
非凡產(chǎn)研研究負(fù)責(zé)人宦家臣向每經(jīng)記者表示,“模型對OpenClaw的影響其實取決于任務(wù)的復(fù)雜程度。國際頭部大模型上限更高,但是如果都是普通任務(wù),國內(nèi)的智譜GLM-4.7、Kimi-K2.5都很不錯,畢竟Claude太貴了,錢包受不了。”
盡管部分大模型在測試中展現(xiàn)了執(zhí)行復(fù)雜任務(wù)的潛力,但OpenClaw離成為一款合格的生產(chǎn)力工具似乎還有不小的距離。
“我感覺,目前版本的OpenClaw并不是一個合格的生產(chǎn)力工具?!鼻靶∶譕S AI產(chǎn)品專家、現(xiàn)出海AI應(yīng)用公司ExcelMaster.ai創(chuàng)始人張和在接受每經(jīng)記者采訪時直言,OpenClaw在一定程度上是此前爆火的程序員工具、Anthropic旗下Claude Code的“套殼”,雖然通過聊天界面和內(nèi)置技能(Skill)做了更好的封裝,降低了交互門檻,但在核心能力上并未超越?!拔覜]找到太多OpenClaw能做,而Claude Code做不了的事情。并且,它查詢資料的水準(zhǔn),也沒有Claude Code好?!?/p>
“等大模型能力再躍升一點,OpenClaw就會越來越好,就會越來越普及。哪怕它什么都不做,就等著更新的大模型出來……OpenClaw的門檻就會降低?!睆埡蛷娬{(diào),OpenClaw的進步與普及,本質(zhì)上是在等待底層大模型技術(shù)的突破。
Akamai云和AI產(chǎn)品經(jīng)理張璐博士也表達了相似的觀點。在他看來,OpenClaw若要真正用于生產(chǎn),還必須經(jīng)過二次開發(fā)和微調(diào),因為目前版本還“有點不成熟,很多時候會卡頓”。
除了對大模型能力的依賴,技術(shù)門檻、使用成本和安全風(fēng)險,讓OpenClaw目前難以走向普通用戶。
首先是較高的部署和使用門檻。OpenClaw目前并未提供類似“一鍵安裝”的簡化部署方案,用戶需要在電腦上通過命令行操作,完成本地配置、依賴管理以及權(quán)限設(shè)置。每經(jīng)科技開發(fā)人員表示,整個過程對使用者的技術(shù)背景有一定要求,至少需要具備基本的開發(fā)經(jīng)驗,這無疑勸退了絕大多數(shù)非技術(shù)人員。雖然諸如阿里云、騰訊云和亞馬遜云等云廠商都提供了OpenClaw云端部署服務(wù)并聲稱可以在他們配置好的服務(wù)器上便捷部署OpenClaw,但在云端部署的OpenClaw并不能提供操控用戶本地電腦的能力。
高昂的使用成本是另一個現(xiàn)實問題。由于OpenClaw在執(zhí)行任務(wù)時需要頻繁調(diào)用大模型,token消耗量巨大,堪稱“token燃燒器”。有用戶向每經(jīng)記者表示,自己使用智譜GLM-4.7模型,僅僅交互了20多次,就花費了200元。
張璐博士也提到,自己在使用DeepSeek模型時,一天就“燒掉”幾十元。如果換成能力更強的模型,賬單將更驚人,“一天幾百塊就出去了”。
高成本使得許多用戶只能選擇接入免費或更便宜的模型,但這又會影響OpenClaw的實際表現(xiàn)。有用戶就向每經(jīng)記者反映,自己因成本問題選擇了Qwen-8B模型,但OpenClaw總是只會回答問題,不會執(zhí)行操作。
比高門檻和高成本更令人擔(dān)憂的,是其內(nèi)在的安全風(fēng)險。OpenClaw的定位是“做事”而非“聊天”,這意味著它必須獲得很高的系統(tǒng)權(quán)限,才能操控本地文件和應(yīng)用。
思科AI威脅研究與安全團隊主管Amy Chang直言,從安全角度來看,OpenClaw“是一場噩夢”,它可以在用戶的計算機上任意運行shell命令、讀寫文件和執(zhí)行腳本。這種高級權(quán)限一旦被錯誤配置或被惡意指令利用,后果不堪設(shè)想。
網(wǎng)絡(luò)安全公司Dvuln的創(chuàng)始人Jamieson O'Reilly也證明了這種風(fēng)險,他發(fā)現(xiàn)OpenClaw存在漏洞,攻擊者可借此獲取用戶數(shù)月內(nèi)的私人消息、賬戶憑證、API密鑰等敏感信息。更可怕的是,用戶為了方便AI執(zhí)行任務(wù)而存儲的銀行賬戶、加密貨幣錢包API等信息,都可能以明文形式保存在本地文件中,一旦被黑客入侵,“一秒就可以搬空他們”。
OpenClaw的開發(fā)者Peter Steinberger也坦言,這只是一個免費的開源業(yè)余項目,需要用戶進行仔細(xì)的配置才能確保安全。他明確表示:“它并不適合非技術(shù)用戶。”
免責(zé)聲明:本文內(nèi)容與數(shù)據(jù)僅供參考,不構(gòu)成投資建議,使用前請核實。據(jù)此操作,風(fēng)險自擔(dān)。
封面圖片來源:OpenClaw網(wǎng)站截圖
如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟新聞APP