2025年1月9日 - 信報
2024年12月AI界發生了一件大事,中國幻方量化旗下投資的AI模型Deepseek推出了最新版本V3,並於多項人工智能Benchmark上打敗了Open AI、Llama、Claude等美國頂尖競爭對手。即使放諸綜合評級,目前在極高公信力的Chatbot Arena LLM Leaderboard中,也高踞第七名,假若撇除不同型號的差異,更只落後於Gemini和Open AI。
CNBC為此特別做了專題報道,指出Deepseek宣稱只採用了2048張閹割版的N800 GPU顯卡進行訓練,整個訓練過程只採用了550萬美元,比起Meta Llama 3.1訓練的成本只需十一分之一。這還未計算Meta採購了高達6000張功能更強大的NVIDIA H100 GPU的奢華配置。
Deepseek成本低廉、訓練時間短促,得出的成果卻如此驕人,很容易會引來各種質疑和陰謀論。流傳於KOL之間、最外行的說法是:「Deepseek其實只是一層外皮,實際上透過AGI從ChatGPT抄功課當成自己答案。」然而,假使是這樣的話,ChatGPT不可能毫不察覺任人使用;而且Deepseek本身為開源系統,亦有不少AI專家對其做過不同的測試,Benchmark跑分也不可能騙人,所以機率近乎零。
由於不少人指出在詢問Deepseek自我介紹時竟回答「我是ChatGPT」,同時有不少問題的答案又和ChatGPT相同,所以目前最多人懷疑的是Deepseek大幅採用了ChatGPT的資料為其進行訓練,以節省資源和時間,亦即所謂「知識蒸餾」(Knowledge Distillation)。早前Sam Altman發文指「It is relatively easy to copy something that you know works」,就被指是在嘲諷Deepseek。
被指抄襲 純屬雞棚騙局
當然,在未經許可下挪用競爭者的數據是不道德的,但這和Deepseek是否「山寨」自其他AI模型卻是另一回事。Deepseek不單是一個開源模型,即任何人都可隨意檢閱其程式碼,甚至能複製至自建的電腦或伺服器進行模擬測試。在Deepseek最新發布的技術論文中也探討了多頭潛在注意力(MLA)、多Token預測(MTP)、高效流水線並行算法(DualPipe)等新技術突破,並對其他競爭模型的改進作出了建議。更不用說包括Open AI創始成員Andrej Karpathy、輝達高級研究科學家Jim Fan和bitsandbytes的發明者Tim Dettmers等,都不約而同對Deepseek編程架構讚不絕口,這也不是隨便一句「咪又係抄」所能抹殺的。
至於Deepseek是否只為避免被美國進一步制裁才故意把採用的GPU和型號「報細數」,由於這牽涉到企業和國家機密,所以難以證實。反而由其參數可見,Deepseek的上下文窗口被限制為13萬Token(ChatGPT 4o和Claude 3.5均為200萬Token),同時意料之中禁止提問「不符國情」的敏感問題,以至不少用戶反映在做某些翻譯或複雜邏輯推理時,未必得到理想效果,一定程度上反映它在實際應用時的局限。但無論「逢中必捧」還是「逢中必踩」,在客觀數據和專家檢視下,都只會變得不值一哂。
原文:
沒有留言:
發佈留言