亚洲中文字乱码免费播放,精品国产日韩专区欧美第一页,亚洲中文有码字幕青青,亚洲综合另类专区在线

          首頁 > 新聞 > 科技

          分享到微信

          打開微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
          使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。

          “十萬卡集群”要來了,科技巨頭競逐AI算力極限

          第一財經(jīng) 2024-09-25 16:29:18 聽新聞

          作者:劉佳    責(zé)編:胡軍華

          部署10萬卡集群,要占據(jù)大概10萬平方米的空間,相當(dāng)于14個標(biāo)準(zhǔn)足球場的面積。在能耗方面,這些服務(wù)器一天就要消耗大約300萬千瓦時的電力,相當(dāng)于北京市東城區(qū)一天的居民用電量。

          “萬卡集群”被業(yè)界視作是這一輪大模型競賽的“入場券”,現(xiàn)在,十萬卡集群”成為科技巨頭們競逐的新高地。

          “很快就會有更多的10萬卡集群出現(xiàn)。”9月25日,百度集團(tuán)執(zhí)行副總裁沈抖在百度智云大會上這樣說。

          他提到,過去一年已經(jīng)感受到客戶的模型訓(xùn)練需求猛增,需要的集群規(guī)模越來越大,與此同時,大家對模型推理成本的持續(xù)下降的預(yù)期也越來越高。這些都對GPU管理的穩(wěn)定性和有效性提出了更高要求。當(dāng)天,百度升級AI異構(gòu)計算平臺百舸4.0,具備了10萬卡集群部署和管理能力。

          事實(shí)上,這一輪生成式人工智能爆發(fā)的背后,一定程度上歸功于“大力出奇跡”,業(yè)界通過不斷增加算力堆疊,實(shí)現(xiàn)大模型性能的飛躍。萬卡集群也因此被業(yè)界視作是進(jìn)入AI核心圈的“標(biāo)配”。但現(xiàn)在,即便是萬卡也不能夠完全滿足需求。不僅百度,越來越多的行業(yè)巨頭正在布局十萬卡集群,以追求更高的計算效率和大模型性能。

          不久前的云棲大會上,阿里云展示了圍繞 AI 時代的新基建,其中單網(wǎng)絡(luò)集群已拓展至十萬卡級別,正在從芯片、服務(wù)器、網(wǎng)絡(luò)、存儲到散熱、供電、數(shù)據(jù)中心等方方面面,重新打造面向未來的 AI 先進(jìn)基礎(chǔ)設(shè)施。

          9月初時馬斯克在社交媒體上宣布,旗下AI初創(chuàng)公司xAI 打造的超級 AI 訓(xùn)練集群 Colossus 已經(jīng)正式上線,搭建用時 122 天,共有 10 萬塊英偉達(dá) H100 GPU 加速卡,而在未來幾個月將再翻倍增加10萬塊GPU,其中5萬為更先進(jìn)的 H200。

          更早之前,Meta首席執(zhí)行官馬克·扎克伯格曾在年初宣布計劃購買35萬塊英偉達(dá)H100 GPU,將Meta的算力擴(kuò)展到相當(dāng)于60萬塊英偉達(dá)H100 GPU的水平。OpenAI沒有透露過確切的GPU使用量,但業(yè)界猜測接近十萬塊。百川智能CEO王小川曾對第一財經(jīng)記者透露,自己此前在硅谷走訪時,OpenAI正在設(shè)計能夠?qū)?000萬塊GPU連在一起的計算模型,“這種想法像登月一樣。” 

          “今天一家通用大模型公司如果沒有萬卡,就不好說自己是大模型公司了。” 香港科技大學(xué)校董會主席沈向洋更在不久前調(diào)侃:“談卡傷感情,沒卡沒感情”。而摩爾線程CEO張建中也在接受記者采訪時表示,在AI主戰(zhàn)場,萬卡是最低標(biāo)配,因為大模型競爭激烈,縮短訓(xùn)練時間是企業(yè)的基本訴求。

          算力是推動大模型發(fā)展的核心動力。但從千卡到萬卡再到十萬卡,不是算力的簡單堆疊。在科技巨頭競逐AI算力極限背后,沈向洋指出,從2012年開始,每年大模型需要的算力都在增長,一開始幾年是六七倍的增長,最近幾年穩(wěn)定下來,每年是四倍左右的增長。而隨著大模型的參數(shù)越來越大,大模型對算力的要求已經(jīng)由線性增長進(jìn)化到平方向的增長。

          但構(gòu)建十萬卡集群是一項復(fù)雜的系統(tǒng)工程,不僅意味著算力的指數(shù)級增長,還涉及復(fù)雜的技術(shù)和運(yùn)營挑戰(zhàn)。這些集群需要解決高效能計算、高能耗管理、高密度機(jī)房設(shè)計、高穩(wěn)定性訓(xùn)練等一系列問題。而且即便智算中心已配備了超大規(guī)模的集群,最終能否將這些算力有效釋放,還取決于算法、軟件架構(gòu)的優(yōu)化與調(diào)度能力。

          沈抖對包括第一財經(jīng)在內(nèi)的媒體表示,管理10萬卡的集群與管理萬卡集群有本質(zhì)不同。要部署10萬卡這么大規(guī)模的集群,光是在物理層面就要占據(jù)大概10萬平方米的空間,相當(dāng)于14個標(biāo)準(zhǔn)足球場的面積。在能耗方面,這些服務(wù)器一天就要消耗大約300萬千瓦時的電力,相當(dāng)于北京市東城區(qū)一天的居民用電量。

          這種對于空間和能源的巨大需求,遠(yuǎn)遠(yuǎn)超過了傳統(tǒng)機(jī)房部署方式所能承載的范疇,這意味著科技巨頭不得不考慮跨地域的機(jī)房部署,這帶來了網(wǎng)絡(luò)層面的巨大挑戰(zhàn)。

          同時,巨額的建設(shè)、運(yùn)營成本是一大難題。沈抖告訴記者,建一個萬卡集群,單是GPU的采購成本就高達(dá)幾十億。

          此前Anthropic首席執(zhí)行官也表示,當(dāng)前AI模型訓(xùn)練成本是10億美元,未來三年,這個數(shù)字可能會上升到100億美元甚至1000億美元。

          隨著集群規(guī)模的擴(kuò)大,如何高效利用每一塊GPU的算力成為關(guān)鍵挑戰(zhàn)。一位業(yè)內(nèi)人士告訴記者,萬卡集群已經(jīng)面臨卡間和節(jié)點(diǎn)間的互聯(lián)網(wǎng)絡(luò)、軟件和硬件的適配調(diào)優(yōu)等問題,而十萬卡集群則需要更精細(xì)化的設(shè)計和優(yōu)化,構(gòu)建超高精度和高可靠性的網(wǎng)絡(luò),包括引入新型芯片設(shè)計、超節(jié)點(diǎn)技術(shù)、跨節(jié)點(diǎn)互聯(lián)網(wǎng)絡(luò)技術(shù)等。

          “你本身的集群調(diào)度效率怎么樣?調(diào)度效率有時候會被大家忽略掉,超大規(guī)模的集群不是你的卡每時每刻都在用。大模型大規(guī)模的參數(shù),在超大規(guī)模集群里面怎么樣做模型的拆分,才能真正讓算力有效發(fā)揮出來,這是非常關(guān)鍵的。”有AI芯片從業(yè)者這樣表示。

          還有一大挑戰(zhàn)就是穩(wěn)定性問題。在如此大規(guī)模的集群上,運(yùn)維的復(fù)雜性急劇增加。硬件不可避免地會出故障,而規(guī)模越大,出故障的概率就越高。業(yè)界常常拿Meta訓(xùn)練Llama模型舉例,該模型用的是1.6萬卡算力集群,大概每隔兩三個小時整個訓(xùn)練任務(wù)就要因此重新開始,回到上一個Checkpoint(檢查點(diǎn))。“如果推演到10萬卡,意味著每30分鐘訓(xùn)練就要中斷一次,有效訓(xùn)練時長占比會非常低。”沈抖告訴記者。

          他稱,在這些故障中,絕大多數(shù)是由GPU引起的。其實(shí)GPU是一種很敏感的硬件,連中午天氣溫度的波動,都會影響到GPU的故障率。

          “這些挑戰(zhàn)迫使我們重新思考如何構(gòu)建、管理和維護(hù)這樣龐大而復(fù)雜的GPU集群,屏蔽硬件層的復(fù)雜性,為大模型落地的全流程提供一個簡單、好用的算力平臺,讓用戶能夠更容易地管理GPU算力、低成本地用好算力。”沈抖告訴記者。

          舉報
          第一財經(jīng)廣告合作,請點(diǎn)擊這里
          此內(nèi)容為第一財經(jīng)原創(chuàng),著作權(quán)歸第一財經(jīng)所有。未經(jīng)第一財經(jīng)書面授權(quán),不得以任何方式加以使用,包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。第一財經(jīng)保留追究侵權(quán)者法律責(zé)任的權(quán)利。 如需獲得授權(quán)請聯(lián)系第一財經(jīng)版權(quán)部:021-22002972或021-22002335;banquan@yicai.com。

          文章作者

          相關(guān)閱讀

          AI算力股下挫,DeepSeek正在打破“算力為王”行業(yè)規(guī)則

          DeepSeek用更少的成本,訓(xùn)練出了媲美Open AI o1的性能,這對大規(guī)模的AI算力投入提出了質(zhì)疑

          926 01-27 14:22

          明日主題前瞻丨多家上市公司回應(yīng)小紅書相關(guān)業(yè)務(wù);上海加快布局高性能算力基礎(chǔ)設(shè)施

          多家上市公司回應(yīng)小紅書相關(guān)業(yè)務(wù),小紅書全生態(tài)鏈有望持續(xù)受益;上海加快布局高性能算力基礎(chǔ)設(shè)施,國內(nèi)AI算力鏈有望逐步釋放業(yè)績;醫(yī)保即時結(jié)算改革推進(jìn)。

          176 01-16 22:16

          總規(guī)模達(dá)到230EFLOPS,位居全球第二,新增算力向樞紐節(jié)點(diǎn)集聚,政策推動產(chǎn)業(yè)有機(jī)協(xié)同發(fā)展︱產(chǎn)業(yè)圖譜

          總規(guī)模達(dá)到230EFLOPS,位居全球第二,新增算力向樞紐節(jié)點(diǎn)集聚,政策推動產(chǎn)業(yè)有機(jī)協(xié)同發(fā)展。

          22 01-13 12:05

          一汽-大眾啟動全球出口戰(zhàn)略,國內(nèi)市場開啟“群狼”戰(zhàn)術(shù)

          2026年將是一汽-大眾的混動元年,將推出包括PHEV和增程式混動產(chǎn)品。

          212 01-12 18:20

          數(shù)據(jù)新基建明確五年規(guī)劃,加快形成全國數(shù)據(jù)“一本賬”

          建立覆蓋政府、行業(yè)、企業(yè)等主體及國家、省、市、縣等層級的全國一體化的分布式數(shù)據(jù)目錄,形成全國數(shù)據(jù)“一本賬”,支撐跨層級、跨地域、跨系統(tǒng)、跨部門、跨業(yè)務(wù)的數(shù)據(jù)有序流通和共享應(yīng)用。

          182 01-06 22:40
          一財最熱
          點(diǎn)擊關(guān)閉