2025年3月26日 - 信報
編按:輝達(Nvidia)創始人兼CEO黃仁勳早前在加州GTC 2025年度技術大會上進行兩小時演講,除公布輝達年度產品路線圖、構建3條AI基礎設施線外,更宣告人類正由生成式AI階段、Agentic AI階段,邁向物理AI階段,標誌着「通用機械人時代已經來臨」,以下撮要供讀者分享。
AI真正進入大眾視野大約是10年前,最先從感知AI開始──電腦視覺和語音辨識。過去5年,我們主要關注的是生成式AI,教會AI如何在不同模態間轉換,比如文本到圖像、圖像到文本、文本到視頻、氨基酸到蛋白質、物性到化學物質……生成式AI從根本上改變計算方式──從「檢索式計算模型」變為「生成式計算模型」。
過去,我們幾乎所有工作都是預先創建內容、存儲多種版本,然後在需要時去獲取相應版本。現在,AI能理解上下文,理解我們在問什麼,以及請求的含義,然後生成它所「理解」和「知道」的內容。
過去兩三年AI出現了重大突破,我們稱之為「Agentic AI」(具備自主性的AI),意思是AI擁有「主動性」(agency),能感知並理解當前環境的上下文,很重要的一點是它能進行推理,能思考如何回答或解決問題,還能制定並執行計劃。它可以使用工具,因它現在理解多模態資訊;它可以訪問網站,查看網站的文本和視頻格式,甚至可播放視頻,然後從該網站學到內容,理解後再帶着這份新知識回來完成任務。
接下來的一波浪潮已經發生,那就是由「物理AI」推動的機械人學,「物理AI」能理解摩擦力、慣性、因果關係、物體的永久性──當它看到一個物體拐到拐角處並消失視線外,它理解這並不代表那個物體就從世界上消失,只是暫時看不到而已。對物理世界、三維世界的這種理解,將開闢AI新紀元,它將使機械人變得可行。
每個階段的AI都涉及三大根本問題:
第一,如何解決資料問題。這所以重要,是因為AI是一種資料驅動的資料科學方法,需要用資料和數位化的經驗來學習、獲取知識。
第二,如何在沒有人工參與下做訓練。因為人工干預有極限,若想要AI能以超越人類速度來學習,幾乎是即時的,且規模大到人類無法企及。所以第二個問題是:如何訓練模型。
第三,如何擴展。怎樣找到一個演算法,使得你提供愈多的資源,AI就變得愈聰明。
由於Agentic AI的出現,如今我們所需計算量比一年前的預期至少高出100倍。Agentic AI核心是推理,能把問題分解為若干步驟,也許會同時嘗試幾種方式來解決問題,然後選擇最佳答案;或者它在得出答案後,還會把結果重新帶回方程檢查一遍,而不是像以前那樣一次性隨便給出答案。
兩年前,當我們開始使用ChatGPT時,雖然它已非常神奇,但很多複雜問題或簡單問題它也經常答錯,這可以理解──它只做了一次性輸出,就像隨口說出來一樣。而現在我們有了能逐步推理的AI,它利用Chain of Thought(思維鏈)、提取多種解法裏最優的和一致性檢查等多種技術,一步一步分解問題,進行推理。
由此可以想見,AI所生成的token(詞元)數量會急增。AI底層技術本質仍是根據上一個token來預測下一個token。不同的是,現在「下一個token」對應的是推理的某個步驟。AI生成第一步的一連串token,然後把這一步的輸出再次輸入給AI,用來生成第二步、第三步、第四步的推理。這樣一來,AI不再只是一字一句地往外「吐」token,而是生成一大段文字來表示推理的步驟。最終產生的token量會大大增加。
因此,你把上百種不同的課題、幾百萬個不同的例子,再乘以上百次嘗試,而每一次嘗試都要生成數以萬計的token,把這一切加起來就達到了數萬億的token,用來訓練模型。現在有了強化學習,我們就能夠利用「合成資料生成」方法,以類似機械人的方式來教AI。
過去我們的模式是:先編寫軟體,再把軟體放到電腦上運行。未來,電腦本身會為軟體生成token。因此,這台電腦更像是一台「生成token的機器」,而不是簡單的「檢索檔的機器」。也就是從「檢索式計算」向「生成式計算」的轉變,從過去傳統方式建造資料中心,變為新的基礎設施形態。我把它稱為「AI工廠」,因為它只有一個功能,就是生成這些驚人的token,然後我們再把這些token重構成音樂、文本、視頻、研究資料、化學配方或者蛋白質……各種不同形式的資訊。全世界不僅會建造更多資料中心,還會改變資料中心的構建方式。
推理模型可解決複雜問題
我們在使用ChatGPT時,輸入一個prompt(提示),然後輸出的是一個個token,最終被映射成文本單詞。如果想讓AI更聰明,就需要生成更多token──它可能需要進行推理token、一致性檢查token、思考多種方案以選擇最佳方案的token,這些都屬於「思考」過程。它也可能自我質疑,像人「一邊想一邊碎碎念」。但若AI回答問題太慢,用戶就會失去耐心,不會再用它。這就像網絡搜索,有個用戶可接受的最大時延。
傳統大型語言模型(LLM)可捕捉到基礎知識,而推理模型則可通過思考token來解決更複雜問題。例如,我們給了模型一個prompt,要求根據一些條件來為婚宴安排座位,比如某些傳統習俗、如何拍照更好看,以及哪些家人之間存在矛盾需要分開坐等。
如果你要安排300人的婚宴座位,並讓所有人滿意,這是只有AI或者「丈母娘」才能解決。傳統LLM使用了439個token,一次過給出答案,確實很快,但錯誤百出,相當於是439個token白費。而推理模型用了約8600個token,意味着對模型參數進行8600多次的「讀取—計算—輸出」迴圈,一步步推理、不斷驗證,最後才得出正確答案,所需計算量也大得多。
通用機械人時代已經來臨,機械人能與物理世界交互執行純數字世界無法實現的工作。勞動力嚴重短缺,據估計到本世紀二十年代末,全球會短缺至少5000萬名工人,縱使樂意給他們每人5萬美元年薪,但現實裏並沒有這麼多勞動力,所以有可能要給「機械人」付每年5萬美元的租金或使用費。這將是非常龐大的市場。
一切的核心挑戰跟之前類似:資料從哪來?模型架構是什麼?以及如何做擴展?在機械人領域,我們同樣需要能大量生成或獲取資料,需要強大的計算來訓練模型,同時還得有能讓AI愈訓愈強的擴展性。輝達為此打造了「Omniverse」這一物理AI的作業系統(OS),以及「Cosmos」──把「Omniverse」與一種能夠理解物理世界的生成式模型結合起來。「Omniverse」控制場景中的機械人和環境,「Cosmos」則能生成無窮無盡的虛擬環境。我們在「Omniverse」裏通過示意顏色來精確控制場景,而「Cosmos」不斷變化虛擬世界,讓資料既能「有錨點」,又能「無限豐富」。
大型語言模型能快速提升的關鍵在於「可驗證的強化學習」,機械人世界這種「可驗證的獎勵」來自物理定律,需極其強大的物理引擎。以往的物理引擎可能偏向大型機械或遊戲,但要訓練機械人精細操作、觸覺回饋、動力學控制,就需要GPU加速、超即時(superreal-time)模擬,還要與機械人開發者常用的「Mujoco」或類似框架無縫整合。
GR00T N1能搬運抓取雙臂協作
因此,我們推出全球第一個開放式人形機械人基礎模型Isaac GR00T N1,它不僅是開源的,而且高度可定制,其獨特的雙系統架構受到人類認知機制的啟發,簡單來說,GR00T N1的「系統1」負責快速回應和任務執行,彷彿是人類的直覺反應,而「系統2」則關注更複雜的決策過程,類比人類深思熟慮的狀態。這種靈活的架構使得GR00T N1能夠應對物料搬運、抓取、雙臂協作及複雜多步驟操作等多種應用場景。另外,由3家企業DeepMind、Disney Research和Nvidia共同合作,推出專為機械人開發而構建的開源物理引擎Newton,為GR00T N1的實際應用提供強力支援。
現在我要為大家介紹──Blue。(採用GR00T N1機械人通用基礎模型、可用兩腳移動的可愛機械人Blue進入會場。)Blue,你喜歡你的新物理引擎嗎?你喜歡對吧?對,我賭你會喜歡。我知道,觸覺回饋、堅硬軀體、柔軟身體模擬、超即時處理效能……(轉向觀眾)你們能理解,你們現在看到的,是一項完全即時的模擬嗎?這就是我們的將來!
來源:
沒有留言:
發佈留言