添多一個世界: Manus技術領先，離通用智能仍遠

2025年3月20日星期四

Manus技術領先，離通用智能仍遠 - 徐立言

2025年3月20日 - 信報

人工智能代理（AI Agent）競賽近期迎來了一位備受矚目的新選手──Manus。根據其官方數據，這款產品在GAIA（General Artificial Intelligence Assistant）基準測試上表現卓越，幾乎站上了通用智能代理的頂峰。然而，當媒體和開源社群急着複製它的時候，問題隨之而來：Manus真的如此遙遙領先？它距離成熟的「通用智能助手」還有多遠？更重要的是，這場競爭的終點究竟在哪裏？

GAIA是由Facebook AI Research（FAIR）、Hugging Face，以及AutoGPT研究團隊於2024年初推出的評測標準，旨在衡量AI代理的實用性。與傳統的大規模多任務語言理解（MMLU）這類「考試型」基準不同，GAIA更接近現實世界，要求AI解決開放式問題，例如根據超市傳單計算最低購物成本，或推算地鐵站換乘次數。這些人類日常能輕易完成的任務，對AI來說卻是另一回事。

推理決策仍存缺陷

2024年初，最先進的大語言模型GPT-4在GAIA測試中，僅能正確回答15%的問題，而人類的正確率高達92%。如今，Manus在GAIA的成績分別為Level 1（基礎）86.5%、Level 2（中級）70.1%、Level 3（高級）57.7%。這些數據顯示，Manus確實在AI代理技術上遙遙領先，特別是在高難度、多步驟推理的問題上，比競爭對手高出至少10個百分點。

不過，這並不意味着Manus已經成為無可爭議的「通用智能代理之王」。面對GAIA的最高難度問題，Manus仍然有超過40%無法解答，這代表AI仍在關鍵推理、跨工具操作及長鏈決策上存在嚴重缺陷。這不只是Manus的問題，而是整個AI代理領域的共同樽頸。

事實上，我們並非第一次見到這樣的「技術領先」。回顧過去，AlphaGo Zero擊敗人類圍棋冠軍時，人們曾以為AI將全面主宰創造性決策；然而，這種專精於單一領域的突破並未真正推動通用智能的誕生。Manus的成績或許令人驚艷，但它與真正的通用智能依然相距甚遠──更可能是一次針對特定測試標準的優化，而非真正理解世界的躍進。

Manus發布後不到一天，各類開源版本紛紛湧現，聲稱能夠挑戰它的地位。然而，若從數據分析來看，這些「開源挑戰者」與Manus仍存在明顯差距。GAIA排行榜上的前三名分別是Trase Agent（83%、69%、46%）、H2O GPT Agent（67%、67%、42%）及Camel AI的開源產品Owl（81%、54%、23%）。

Owl雖在基礎問題（Level 1）上接近Manus，但在高難度問題（Level 3）上僅得23%，遠低於Manus的57.7%。這意味着開源版本在處理複雜、多階段任務時，依然缺乏足夠的推理能力和執行穩定性。即便是目前最接近Manus的Trase Agent，在最高難度題上的表現仍落後11.6個百分點。

更關鍵的是，開源社群雖然擁有創新精神，惟缺乏與大型科技企業相匹敵的計算資源。此外，企業級產品往往可以獲得來自合作夥伴的獨家數據，而開源社群則受限於公開數據集，這使得它們即便能夠模仿Manus的結構，也難以複製其效能。

「三座大山」有待跨越

儘管Manus在現有基準測試中表現突出，但要成為真正可用的「通用智能助手」，仍需跨越三大技術障礙：基礎模型能力、合作生態系統，以及工程基礎設施。

首先，現行AI代理仍嚴重依賴大語言模型（LLM）來進行任務拆解與執行。然而，在實際應用中，AI往往無法有效利用網絡資訊，也缺乏穩定的操作能力。例如，Carnegie Mellon提出的WebArena基準測試顯示，目前最強的AI代理IBM CUGA在網頁操作上的成功率僅為61.7%；由香港大學、Salesforce等機構開發的OSWorld測試則顯示，OpenAI CUA在電腦應用操作上的成功率只有38.1%。這些數據表明，真正能把基礎模型與現實世界完美對接，依然是一道難以跨越的鴻溝。

其次，AI代理與外部服務的連結仍然是巨大挑戰。例如，OpenAI Operator在訪問Reddit、GitHub等網站時，經常因異常流量被封鎖。這反映出當前的AI代理大多是匿名或通用身份訪問網絡，無法提供個性化服務，也難以進行需要登入的操作。換言之，未來誰能建立強大的AI代理生態系統，誰就能在市場上取得決定性優勢。

最後，AI代理的工程基礎設施尚未成熟。與傳統互聯網服務不同，代理技術涉及長時間、多狀態的對話與決策，並非簡單的API調用。當AI代理真正進入商業應用時，如何高效處理數百萬、甚至數千萬用戶的同步需求，將對系統負荷的穩定性迎來更大挑戰。因此，如果執行一個AI代理的成本過高，即使技術足夠強大，也無法在市場上實現規模化應用。

真正理解世界需時

Manus的出現確實讓AI代理競爭進入新階段。它技術領先，並且在可用性上優於競爭對手，甚至比OpenAI Operator這類高價產品更具「誠意」。然而，通用智能代理的未來依然充滿挑戰。

開源社群的快速反應顯示，技術壁壘並非無法攻破，惟短期內仍難以抹平與Manus的差距。目前，AI代理技術尚處於早期階段，未來不排除其他技術（如更先進的自主學習、自適應推理系統）能夠快速超越Manus。換句話說，在基礎模型、合作生態與工程架構的挑戰下，AI代理的黃金時代雖然可期，但仍需時間打磨。畢竟，連人類自己也還沒完全搞懂這個世界，即使最聰明的AI又如何在一夜之間學會真正理解世界呢！

來源：

https://www1.hkej.com/dailynews/investment/article/4027773/Manus%E6%8A%80%E8%A1%93%E9%A0%98%E5%85%88+%E9%9B%A2%E9%80%9A%E7%94%A8%E6%99%BA%E8%83%BD%E4%BB%8D%E9%81%A0

添多一個世界

2025年3月20日星期四

Manus技術領先，離通用智能仍遠 - 徐立言

沒有留言:

發佈留言

作者

網誌封存

人生

新時代‧靈性‧趣味

健康

投資、理財

市場‧商業‧經濟

文化‧學術

成長‧家庭

政府‧政治