2025年3月20日星期四

Manus技術領先,離通用智能仍遠 - 徐立言

2025年3月20日 - 信報

人工智能代理(AI Agent)競賽近期迎來了一位備受矚目的新選手──Manus。根據其官方數據,這款產品在GAIA(General Artificial Intelligence Assistant)基準測試上表現卓越,幾乎站上了通用智能代理的頂峰。然而,當媒體和開源社群急着複製它的時候,問題隨之而來:Manus真的如此遙遙領先?它距離成熟的「通用智能助手」還有多遠?更重要的是,這場競爭的終點究竟在哪裏?

GAIA是由Facebook AI Research(FAIR)、Hugging Face,以及AutoGPT研究團隊於2024年初推出的評測標準,旨在衡量AI代理的實用性。與傳統的大規模多任務語言理解(MMLU)這類「考試型」基準不同,GAIA更接近現實世界,要求AI解決開放式問題,例如根據超市傳單計算最低購物成本,或推算地鐵站換乘次數。這些人類日常能輕易完成的任務,對AI來說卻是另一回事。

推理決策仍存缺陷

2024年初,最先進的大語言模型GPT-4在GAIA測試中,僅能正確回答15%的問題,而人類的正確率高達92%。如今,Manus在GAIA的成績分別為Level 1(基礎)86.5%、Level 2(中級)70.1%、Level 3(高級)57.7%。這些數據顯示,Manus確實在AI代理技術上遙遙領先,特別是在高難度、多步驟推理的問題上,比競爭對手高出至少10個百分點。

不過,這並不意味着Manus已經成為無可爭議的「通用智能代理之王」。面對GAIA的最高難度問題,Manus仍然有超過40%無法解答,這代表AI仍在關鍵推理、跨工具操作及長鏈決策上存在嚴重缺陷。這不只是Manus的問題,而是整個AI代理領域的共同樽頸。

事實上,我們並非第一次見到這樣的「技術領先」。回顧過去,AlphaGo Zero擊敗人類圍棋冠軍時,人們曾以為AI將全面主宰創造性決策;然而,這種專精於單一領域的突破並未真正推動通用智能的誕生。Manus的成績或許令人驚艷,但它與真正的通用智能依然相距甚遠──更可能是一次針對特定測試標準的優化,而非真正理解世界的躍進。

Manus發布後不到一天,各類開源版本紛紛湧現,聲稱能夠挑戰它的地位。然而,若從數據分析來看,這些「開源挑戰者」與Manus仍存在明顯差距。GAIA排行榜上的前三名分別是Trase Agent(83%、69%、46%)、H2O GPT Agent(67%、67%、42%)及Camel AI的開源產品Owl(81%、54%、23%)。

Owl雖在基礎問題(Level 1)上接近Manus,但在高難度問題(Level 3)上僅得23%,遠低於Manus的57.7%。這意味着開源版本在處理複雜、多階段任務時,依然缺乏足夠的推理能力和執行穩定性。即便是目前最接近Manus的Trase Agent,在最高難度題上的表現仍落後11.6個百分點。

更關鍵的是,開源社群雖然擁有創新精神,惟缺乏與大型科技企業相匹敵的計算資源。此外,企業級產品往往可以獲得來自合作夥伴的獨家數據,而開源社群則受限於公開數據集,這使得它們即便能夠模仿Manus的結構,也難以複製其效能。

「三座大山」有待跨越

儘管Manus在現有基準測試中表現突出,但要成為真正可用的「通用智能助手」,仍需跨越三大技術障礙:基礎模型能力、合作生態系統,以及工程基礎設施。

首先,現行AI代理仍嚴重依賴大語言模型(LLM)來進行任務拆解與執行。然而,在實際應用中,AI往往無法有效利用網絡資訊,也缺乏穩定的操作能力。例如,Carnegie Mellon提出的WebArena基準測試顯示,目前最強的AI代理IBM CUGA在網頁操作上的成功率僅為61.7%;由香港大學、Salesforce等機構開發的OSWorld測試則顯示,OpenAI CUA在電腦應用操作上的成功率只有38.1%。這些數據表明,真正能把基礎模型與現實世界完美對接,依然是一道難以跨越的鴻溝。

其次,AI代理與外部服務的連結仍然是巨大挑戰。例如,OpenAI Operator在訪問Reddit、GitHub等網站時,經常因異常流量被封鎖。這反映出當前的AI代理大多是匿名或通用身份訪問網絡,無法提供個性化服務,也難以進行需要登入的操作。換言之,未來誰能建立強大的AI代理生態系統,誰就能在市場上取得決定性優勢。

最後,AI代理的工程基礎設施尚未成熟。與傳統互聯網服務不同,代理技術涉及長時間、多狀態的對話與決策,並非簡單的API調用。當AI代理真正進入商業應用時,如何高效處理數百萬、甚至數千萬用戶的同步需求,將對系統負荷的穩定性迎來更大挑戰。因此,如果執行一個AI代理的成本過高,即使技術足夠強大,也無法在市場上實現規模化應用。

真正理解世界需時

Manus的出現確實讓AI代理競爭進入新階段。它技術領先,並且在可用性上優於競爭對手,甚至比OpenAI Operator這類高價產品更具「誠意」。然而,通用智能代理的未來依然充滿挑戰。

開源社群的快速反應顯示,技術壁壘並非無法攻破,惟短期內仍難以抹平與Manus的差距。目前,AI代理技術尚處於早期階段,未來不排除其他技術(如更先進的自主學習、自適應推理系統)能夠快速超越Manus。換句話說,在基礎模型、合作生態與工程架構的挑戰下,AI代理的黃金時代雖然可期,但仍需時間打磨。畢竟,連人類自己也還沒完全搞懂這個世界,即使最聰明的AI又如何在一夜之間學會真正理解世界呢!

來源:

沒有留言:

發佈留言