分享到微信打開微信,點擊底部的“發(fā)現(xiàn)”, |
在過去的一周中,中國的人工智能大模型是硅谷乃至全世界科技人士熱議的話題。而引爆這一討論的是中國的人工智能初創(chuàng)公司深度求索(DeepSeek)。
該公司上周發(fā)布的推理大模型DeepSeek-R1因其可比肩OpenAI o1的性能、極低的服務價格,以及代碼和模型架構(gòu)的完全開源,震驚業(yè)界。
多位知名科技人士均對DeepSeek近期取得的成就表示贊嘆。
AI科技初創(chuàng)公司Scale AI的創(chuàng)始人亞歷山大·王(Alexandr Wang)稱,過去十年來,美國可能一直在人工智能競賽中領(lǐng)先于中國,但DeepSeek的AI大模型發(fā)布可能會“改變一切”。
加州大學伯克利分校計算機科學教授伊恩·斯托伊卡(Ion Stoica)對第一財經(jīng)記者表示,DeepSeek-R1和DeepSeek-V3已經(jīng)表明,只需花費訓練GPT、Gemini和 Claude等現(xiàn)有大模型的一小部分成本即可獲得最先進的結(jié)果。他還表示在該校的大模型排行榜中,DeepSeek-R1在包括開源模型和專有模型的所有模型中排名第三。
更重要的是,這一成就是在美國對華芯片出口管制加強的背景下實現(xiàn)的。
“限制條件和資源匱乏往往會激發(fā)創(chuàng)新,這里的情況似乎就是如此。”斯托伊卡對第一財經(jīng)記者表示。
DeepSeek為何“震驚”硅谷?
受到規(guī)模定律(Scaling Law,即計算規(guī)模越大、訓練數(shù)據(jù)量越多,模型越智能)的影響,全球AI大模型的開發(fā)長期以來陷入了一場關(guān)于頂尖人才、先進算力和巨額投資的“軍備競賽”。
各大科技公司大量囤積芯片以確保充足的算力。市場調(diào)研公司Omdia的最新報告顯示,微軟是英偉達的第一大買家,購買了48.5萬塊英偉達旗艦產(chǎn)品Hopper芯片,占后者過去一年收入的20%。Meta排第二,去年購買了22.4萬塊GPU;而亞馬遜和谷歌預計分別購買19.6萬和16.9萬顆Hopper芯片。
然而越來越多科學家開始對堆數(shù)據(jù)、堆算力這一“大力出奇跡”的做法產(chǎn)生懷疑時,中國量化交易公司幻方量化(High-Flyer)旗下的人工智能初創(chuàng)公司DeepSeek橫空出世,以“四兩撥千斤”的方式快速突進。
而為了訓練模型,幻方量化在美國芯片出口限制之前獲得了超過1萬塊英偉達GPU,盡管有說法稱DeepSeek大約有5萬顆H100芯片,但尚未得到公司官方證實。
早在去年12月,該公司推出的DeepSeek-V3通過優(yōu)化模型架構(gòu)和基礎(chǔ)設(shè)施等方式,展現(xiàn)了極致性價比。從該團隊正式發(fā)布的技術(shù)報告來看,包括預訓練、上下文長度外推和后訓練在內(nèi),DeepSeek-V3完整訓練只需2.788M H800 GPU小時,其訓練成本僅為557萬美元,但該模型實現(xiàn)了與GPT-4o和Claude Sonnet 3.5(來自美國人工智能企業(yè)Anthropic)等頂尖模型相媲美的性能。
當時著名人工智能科學家卡帕西(Andrej Karpathy)就發(fā)文表示,這種級別的能力通常需要接近16000顆GPU的集群,而目前市場上的集群規(guī)模更是達到了10萬顆GPU左右。
盡管尚不清楚最新發(fā)布的DeepSeek-R1的訓練成本,但其在服務價格上,相較性能相當?shù)腛penAI的o1也有明顯優(yōu)勢。DeepSeek-R1的API服務定價為每百萬輸入tokens 1元(緩存命中)/ 4元(緩存未命中),分別是OpenAI o1的2%和3.6%。
外界普遍認為,美國尖端芯片出口管制等限制并沒有削弱中國的AI能力,反而似乎在推動DeepSeek等初創(chuàng)公司以優(yōu)先考慮效率、資源池和協(xié)作的方式進行創(chuàng)新。
卡內(nèi)基國際和平基金會的人工智能研究員馬特·希恩(Matt Sheehan)表示:“美國的出口管制實際上將中國公司逼入了絕境,它們必須利用有限的計算資源提高效率。未來我們可能會看到大量與計算資源匱乏相關(guān)的整合。”
中歐國際工商學院決策科學與管理信息系統(tǒng)教授譚寅亮曾在斯坦福大學人工智能研究院和數(shù)字經(jīng)濟實驗室擔任訪問學者,他對第一財經(jīng)記者表示:“對華的芯片管制從未停止,而中國的企業(yè)創(chuàng)新也沒有因此停滯。Deepseek團隊的成功很好地印證了這一點。”
“開源的勝利”
除了極致性價比,讓DeepSeek的大模型脫穎而出的是其代碼和訓練方法的完全開源。
開源即將模型的源代碼和技術(shù)細節(jié)公開,并允許用戶根據(jù)其自身需要對模型進行任意使用和修改,這被認為有提高技術(shù)透明度,讓用戶更容易、更便宜地使用,惠及開發(fā)者降低迭代成本,防止壟斷等好處。而閉源模型的源代碼和技術(shù)細節(jié)則完全被其提供商控制,不對外進行公開,也不允許用戶對這些模型本身進行更改。
目前,DeepSeek-R1已經(jīng)一躍成為開源社區(qū)Hugging Face上下載量最高的大模型,下載量達10.9萬次,這意味著全球的開發(fā)人員正在試圖了解這一模型以輔助他們自己的AI開發(fā)。DeepSeek的服務器也于26日出現(xiàn)了局部服務波動。這一問題在數(shù)分鐘內(nèi)得到解決,或與新模型發(fā)布后的訪問量激增有關(guān)。
上海交通大學副教授、生成式人工智能研究組負責人劉鵬飛對第一財經(jīng)記者表示,DeepSeek-V3和DeepSeek-R1的發(fā)布對高校研究者是一個利好,因為公開了技術(shù)細節(jié)后讓整個過程更加透明,也使得學術(shù)界的研究者可以進入并發(fā)現(xiàn)技術(shù)棧中可以優(yōu)化的部分,定義新的問題。
DeepSeek創(chuàng)始人梁文鋒在接受媒體采訪時也表示:“在顛覆性的技術(shù)面前,閉源形成的護城河是短暫的。即使OpenAI閉源,也無法阻止被別人趕超。”
梁文鋒認為:“開源更像一個文化行為,而非商業(yè)行為。給予其實是一種額外的榮譽。一個公司這么做也會有文化的吸引力。”
根據(jù)中國信息通信研究院去年發(fā)布的白皮書,全球人工智能大型語言模型數(shù)量已達 1328個,其中36%來自中國。這使中國成為僅次于美國的第二大人工智能技術(shù)貢獻者。阿里云已發(fā)布100多個新的開源AI模型,支持29種語言,并滿足各種應用需求,包括編碼和數(shù)學。同樣,中國的Minimax和01.AI(零一萬物)等初創(chuàng)公司也開源了它們的模型。
Meta首席人工智能科學家楊立昆(Yann LeCun)也在社交媒體表示,DeepSeek成功的最大收獲不是來自中國競爭對手的加劇威脅,而是保持人工智能模型開源的價值,以便任何人都能受益。
“他們有了新的想法,并在其他人的工作基礎(chǔ)上加以實現(xiàn)。由于他們的工作成果已發(fā)表并開源,因此每個人都可以從中受益。”楊立昆表示,“這就是開放研究和開源的力量。”
中美科技差異縮小
隨著中國公司陸續(xù)發(fā)布兼具性能與價格優(yōu)勢甚至開源的大模型,中美在人工智能上的差距正在縮小。斯托伊卡表示,“我認為這一趨勢已經(jīng)非常明顯了。根據(jù)LLM Arena的結(jié)果,在過去的一年里,中國的開源模型從墊底者一躍成為排行榜上的佼佼者,至少在Meta發(fā)布其新的Llama模型之前是這樣。”
很多反饋顯示,DeepSeek的動作讓Meta的生成式AI團隊“陷入恐慌”。Meta CEO扎克伯格宣布加速研發(fā)Llama 4,計劃投資650億美元擴建數(shù)據(jù)中心,并部署130萬枚GPU以“確保2025年Meta AI成為全球領(lǐng)先模型”。
不過,多名接受第一財經(jīng)記者采訪的專家表示,仍需要關(guān)注中國的人工智能實現(xiàn)“從0到1”的能力。
以DeepSeek-V3為例,根據(jù)其技術(shù)報告,該模型的正式訓練成本約為558萬美元,但這一數(shù)據(jù)并不包括架構(gòu)、算法、數(shù)據(jù)相關(guān)的前期研究和消融實驗的成本。而對于大模型訓練來說,盡管無效路徑和探索會浪費大量算力,但沒有這種“浪費”也難以取得最后的突破。
劉鵬飛表示,目前看來DeepSeek的大模型起到了加速創(chuàng)新的作用,但這種創(chuàng)新目前只在對從1到10的“復現(xiàn)”類工作得到驗證。
“中國的復現(xiàn)是很快的。” 劉鵬飛表示“復現(xiàn)”的難度低于做“新發(fā)現(xiàn)”級別的難度。未來中國的人工智能研究者需要更加關(guān)注從0到1的工作。
也如清華大學計算機系長聘副教授劉知遠在接受媒體采訪時所言:“AGI新技術(shù)還在加速演進,未來發(fā)展路徑還不明確。接下來如何在迷霧中開拓新路,才是更大的挑戰(zhàn)。”
譚寅亮也對第一財經(jīng)表示,中國跟美國目前在人工智能上的差距,在最前沿大模型上,存在著6個月到9個月的差距,但多種大模型之間的良性競爭,能更好地促進人工智能在全世界的使用。
投資者對DeepSeek的追捧從2月5日競價階段就開始了,相關(guān)概念股競價期間幾乎全線漲停。
農(nóng)歷25年開盤,AI應用領(lǐng)域迎來開門紅!截至13:06,計算機指數(shù)漲7.00%、軟件服務指數(shù)漲8.53%,計算機指數(shù)成分股衛(wèi)寧健康漲20.06%、金山辦公漲19.68%、潤和軟件漲14.70%。
關(guān)稅落地,DeepSeek沖擊美國科技股。
這是后發(fā)者利用AI本身作為工具的一次重大創(chuàng)新,或者是養(yǎng)蠱者的一次被反噬(被蒸餾),但并非顛覆式。
金價再創(chuàng)歷史新高!DeepSeek或強化黃金去美元化;特朗普暫緩對加拿大和墨西哥商品加征關(guān)稅至3月4日;頂住特朗普壓力,OPEC+維持現(xiàn)有原油產(chǎn)量計劃不變。