分享到微信打開微信,點(diǎn)擊底部的“發(fā)現(xiàn)”, |
“萬卡集群”被業(yè)界視作是這一輪大模型競賽的“入場券”,現(xiàn)在,“十萬卡集群”成為科技巨頭們競逐的新高地。
“很快就會有更多的10萬卡集群出現(xiàn)。”9月25日,百度集團(tuán)執(zhí)行副總裁沈抖在百度智云大會上這樣說。
他提到,過去一年已經(jīng)感受到客戶的模型訓(xùn)練需求猛增,需要的集群規(guī)模越來越大,與此同時,大家對模型推理成本的持續(xù)下降的預(yù)期也越來越高。這些都對GPU管理的穩(wěn)定性和有效性提出了更高要求。當(dāng)天,百度升級AI異構(gòu)計算平臺百舸4.0,具備了10萬卡集群部署和管理能力。
事實(shí)上,這一輪生成式人工智能爆發(fā)的背后,一定程度上歸功于“大力出奇跡”,業(yè)界通過不斷增加算力堆疊,實(shí)現(xiàn)大模型性能的飛躍。萬卡集群也因此被業(yè)界視作是進(jìn)入AI核心圈的“標(biāo)配”。但現(xiàn)在,即便是萬卡也不能夠完全滿足需求。不僅百度,越來越多的行業(yè)巨頭正在布局十萬卡集群,以追求更高的計算效率和大模型性能。
不久前的云棲大會上,阿里云展示了圍繞 AI 時代的新基建,其中單網(wǎng)絡(luò)集群已拓展至十萬卡級別,正在從芯片、服務(wù)器、網(wǎng)絡(luò)、存儲到散熱、供電、數(shù)據(jù)中心等方方面面,重新打造面向未來的 AI 先進(jìn)基礎(chǔ)設(shè)施。
9月初時馬斯克在社交媒體上宣布,旗下AI初創(chuàng)公司xAI 打造的超級 AI 訓(xùn)練集群 Colossus 已經(jīng)正式上線,搭建用時 122 天,共有 10 萬塊英偉達(dá) H100 GPU 加速卡,而在未來幾個月將再翻倍增加10萬塊GPU,其中5萬為更先進(jìn)的 H200。
更早之前,Meta首席執(zhí)行官馬克·扎克伯格曾在年初宣布計劃購買35萬塊英偉達(dá)H100 GPU,將Meta的算力擴(kuò)展到相當(dāng)于60萬塊英偉達(dá)H100 GPU的水平。OpenAI沒有透露過確切的GPU使用量,但業(yè)界猜測接近十萬塊。百川智能CEO王小川曾對第一財經(jīng)記者透露,自己此前在硅谷走訪時,OpenAI正在設(shè)計能夠?qū)?000萬塊GPU連在一起的計算模型,“這種想法像登月一樣。”
“今天一家通用大模型公司如果沒有萬卡,就不好說自己是大模型公司了。” 香港科技大學(xué)校董會主席沈向洋更在不久前調(diào)侃:“談卡傷感情,沒卡沒感情”。而摩爾線程CEO張建中也在接受記者采訪時表示,在AI主戰(zhàn)場,萬卡是最低標(biāo)配,因為大模型競爭激烈,縮短訓(xùn)練時間是企業(yè)的基本訴求。
算力是推動大模型發(fā)展的核心動力。但從千卡到萬卡再到十萬卡,不是算力的簡單堆疊。在科技巨頭競逐AI算力極限背后,沈向洋指出,從2012年開始,每年大模型需要的算力都在增長,一開始幾年是六七倍的增長,最近幾年穩(wěn)定下來,每年是四倍左右的增長。而隨著大模型的參數(shù)越來越大,大模型對算力的要求已經(jīng)由線性增長進(jìn)化到平方向的增長。
但構(gòu)建十萬卡集群是一項復(fù)雜的系統(tǒng)工程,不僅意味著算力的指數(shù)級增長,還涉及復(fù)雜的技術(shù)和運(yùn)營挑戰(zhàn)。這些集群需要解決高效能計算、高能耗管理、高密度機(jī)房設(shè)計、高穩(wěn)定性訓(xùn)練等一系列問題。而且即便智算中心已配備了超大規(guī)模的集群,最終能否將這些算力有效釋放,還取決于算法、軟件架構(gòu)的優(yōu)化與調(diào)度能力。
沈抖對包括第一財經(jīng)在內(nèi)的媒體表示,管理10萬卡的集群與管理萬卡集群有本質(zhì)不同。要部署10萬卡這么大規(guī)模的集群,光是在物理層面就要占據(jù)大概10萬平方米的空間,相當(dāng)于14個標(biāo)準(zhǔn)足球場的面積。在能耗方面,這些服務(wù)器一天就要消耗大約300萬千瓦時的電力,相當(dāng)于北京市東城區(qū)一天的居民用電量。
這種對于空間和能源的巨大需求,遠(yuǎn)遠(yuǎn)超過了傳統(tǒng)機(jī)房部署方式所能承載的范疇,這意味著科技巨頭不得不考慮跨地域的機(jī)房部署,這帶來了網(wǎng)絡(luò)層面的巨大挑戰(zhàn)。
同時,巨額的建設(shè)、運(yùn)營成本是一大難題。沈抖告訴記者,建一個萬卡集群,單是GPU的采購成本就高達(dá)幾十億。
此前Anthropic首席執(zhí)行官也表示,當(dāng)前AI模型訓(xùn)練成本是10億美元,未來三年,這個數(shù)字可能會上升到100億美元甚至1000億美元。
隨著集群規(guī)模的擴(kuò)大,如何高效利用每一塊GPU的算力成為關(guān)鍵挑戰(zhàn)。一位業(yè)內(nèi)人士告訴記者,萬卡集群已經(jīng)面臨卡間和節(jié)點(diǎn)間的互聯(lián)網(wǎng)絡(luò)、軟件和硬件的適配調(diào)優(yōu)等問題,而十萬卡集群則需要更精細(xì)化的設(shè)計和優(yōu)化,構(gòu)建超高精度和高可靠性的網(wǎng)絡(luò),包括引入新型芯片設(shè)計、超節(jié)點(diǎn)技術(shù)、跨節(jié)點(diǎn)互聯(lián)網(wǎng)絡(luò)技術(shù)等。
“你本身的集群調(diào)度效率怎么樣?調(diào)度效率有時候會被大家忽略掉,超大規(guī)模的集群不是你的卡每時每刻都在用。大模型大規(guī)模的參數(shù),在超大規(guī)模集群里面怎么樣做模型的拆分,才能真正讓算力有效發(fā)揮出來,這是非常關(guān)鍵的。”有AI芯片從業(yè)者這樣表示。
還有一大挑戰(zhàn)就是穩(wěn)定性問題。在如此大規(guī)模的集群上,運(yùn)維的復(fù)雜性急劇增加。硬件不可避免地會出故障,而規(guī)模越大,出故障的概率就越高。業(yè)界常常拿Meta訓(xùn)練Llama模型舉例,該模型用的是1.6萬卡算力集群,大概每隔兩三個小時整個訓(xùn)練任務(wù)就要因此重新開始,回到上一個Checkpoint(檢查點(diǎn))。“如果推演到10萬卡,意味著每30分鐘訓(xùn)練就要中斷一次,有效訓(xùn)練時長占比會非常低。”沈抖告訴記者。
他稱,在這些故障中,絕大多數(shù)是由GPU引起的。其實(shí)GPU是一種很敏感的硬件,連中午天氣溫度的波動,都會影響到GPU的故障率。
“這些挑戰(zhàn)迫使我們重新思考如何構(gòu)建、管理和維護(hù)這樣龐大而復(fù)雜的GPU集群,屏蔽硬件層的復(fù)雜性,為大模型落地的全流程提供一個簡單、好用的算力平臺,讓用戶能夠更容易地管理GPU算力、低成本地用好算力。”沈抖告訴記者。
DeepSeek用更少的成本,訓(xùn)練出了媲美Open AI o1的性能,這對大規(guī)模的AI算力投入提出了質(zhì)疑
多家上市公司回應(yīng)小紅書相關(guān)業(yè)務(wù),小紅書全生態(tài)鏈有望持續(xù)受益;上海加快布局高性能算力基礎(chǔ)設(shè)施,國內(nèi)AI算力鏈有望逐步釋放業(yè)績;醫(yī)保即時結(jié)算改革推進(jìn)。
總規(guī)模達(dá)到230EFLOPS,位居全球第二,新增算力向樞紐節(jié)點(diǎn)集聚,政策推動產(chǎn)業(yè)有機(jī)協(xié)同發(fā)展。
2026年將是一汽-大眾的混動元年,將推出包括PHEV和增程式混動產(chǎn)品。
建立覆蓋政府、行業(yè)、企業(yè)等主體及國家、省、市、縣等層級的全國一體化的分布式數(shù)據(jù)目錄,形成全國數(shù)據(jù)“一本賬”,支撐跨層級、跨地域、跨系統(tǒng)、跨部門、跨業(yè)務(wù)的數(shù)據(jù)有序流通和共享應(yīng)用。