亚洲中文字乱码免费播放,精品国产日韩专区欧美第一页,亚洲中文有码字幕青青,亚洲综合另类专区在线

首頁 > 新聞 > 科技

分享到微信

打開微信，點(diǎn)擊底部的“發(fā)現(xiàn)”，
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。

“十萬卡集群”要來了，科技巨頭競逐AI算力極限

第一財經(jīng) 2024-09-25 16:29:18 聽新聞

作者：劉佳責(zé)編：胡軍華

部署10萬卡集群，要占據(jù)大概10萬平方米的空間，相當(dāng)于14個標(biāo)準(zhǔn)足球場的面積。在能耗方面，這些服務(wù)器一天就要消耗大約300萬千瓦時的電力，相當(dāng)于北京市東城區(qū)一天的居民用電量。

“萬卡集群”被業(yè)界視作是這一輪大模型競賽的“入場券”，現(xiàn)在，“十萬卡集群”成為科技巨頭們競逐的新高地。

“很快就會有更多的10萬卡集群出現(xiàn)。”9月25日，百度集團(tuán)執(zhí)行副總裁沈抖在百度智云大會上這樣說。

他提到，過去一年已經(jīng)感受到客戶的模型訓(xùn)練需求猛增，需要的集群規(guī)模越來越大，與此同時，大家對模型推理成本的持續(xù)下降的預(yù)期也越來越高。這些都對GPU管理的穩(wěn)定性和有效性提出了更高要求。當(dāng)天，百度升級AI異構(gòu)計算平臺百舸4.0，具備了10萬卡集群部署和管理能力。

事實(shí)上，這一輪生成式人工智能爆發(fā)的背后，一定程度上歸功于“大力出奇跡”，業(yè)界通過不斷增加算力堆疊，實(shí)現(xiàn)大模型性能的飛躍。萬卡集群也因此被業(yè)界視作是進(jìn)入AI核心圈的“標(biāo)配”。但現(xiàn)在，即便是萬卡也不能夠完全滿足需求。不僅百度，越來越多的行業(yè)巨頭正在布局十萬卡集群，以追求更高的計算效率和大模型性能。

不久前的云棲大會上，阿里云展示了圍繞 AI 時代的新基建，其中單網(wǎng)絡(luò)集群已拓展至十萬卡級別，正在從芯片、服務(wù)器、網(wǎng)絡(luò)、存儲到散熱、供電、數(shù)據(jù)中心等方方面面，重新打造面向未來的 AI 先進(jìn)基礎(chǔ)設(shè)施。

9月初時馬斯克在社交媒體上宣布，旗下AI初創(chuàng)公司xAI 打造的超級 AI 訓(xùn)練集群 Colossus 已經(jīng)正式上線，搭建用時 122 天，共有 10 萬塊英偉達(dá) H100 GPU 加速卡，而在未來幾個月將再翻倍增加10萬塊GPU，其中5萬為更先進(jìn)的 H200。

更早之前，Meta首席執(zhí)行官馬克·扎克伯格曾在年初宣布計劃購買35萬塊英偉達(dá)H100 GPU，將Meta的算力擴(kuò)展到相當(dāng)于60萬塊英偉達(dá)H100 GPU的水平。OpenAI沒有透露過確切的GPU使用量，但業(yè)界猜測接近十萬塊。百川智能CEO王小川曾對第一財經(jīng)記者透露，自己此前在硅谷走訪時，OpenAI正在設(shè)計能夠?qū)?000萬塊GPU連在一起的計算模型，“這種想法像登月一樣。”

“今天一家通用大模型公司如果沒有萬卡，就不好說自己是大模型公司了。” 香港科技大學(xué)校董會主席沈向洋更在不久前調(diào)侃：“談卡傷感情，沒卡沒感情”。而摩爾線程CEO張建中也在接受記者采訪時表示，在AI主戰(zhàn)場，萬卡是最低標(biāo)配，因為大模型競爭激烈，縮短訓(xùn)練時間是企業(yè)的基本訴求。

算力是推動大模型發(fā)展的核心動力。但從千卡到萬卡再到十萬卡，不是算力的簡單堆疊。在科技巨頭競逐AI算力極限背后，沈向洋指出，從2012年開始，每年大模型需要的算力都在增長，一開始幾年是六七倍的增長，最近幾年穩(wěn)定下來，每年是四倍左右的增長。而隨著大模型的參數(shù)越來越大，大模型對算力的要求已經(jīng)由線性增長進(jìn)化到平方向的增長。

但構(gòu)建十萬卡集群是一項復(fù)雜的系統(tǒng)工程，不僅意味著算力的指數(shù)級增長，還涉及復(fù)雜的技術(shù)和運(yùn)營挑戰(zhàn)。這些集群需要解決高效能計算、高能耗管理、高密度機(jī)房設(shè)計、高穩(wěn)定性訓(xùn)練等一系列問題。而且即便智算中心已配備了超大規(guī)模的集群，最終能否將這些算力有效釋放，還取決于算法、軟件架構(gòu)的優(yōu)化與調(diào)度能力。

沈抖對包括第一財經(jīng)在內(nèi)的媒體表示，管理10萬卡的集群與管理萬卡集群有本質(zhì)不同。要部署10萬卡這么大規(guī)模的集群，光是在物理層面就要占據(jù)大概10萬平方米的空間，相當(dāng)于14個標(biāo)準(zhǔn)足球場的面積。在能耗方面，這些服務(wù)器一天就要消耗大約300萬千瓦時的電力，相當(dāng)于北京市東城區(qū)一天的居民用電量。

這種對于空間和能源的巨大需求，遠(yuǎn)遠(yuǎn)超過了傳統(tǒng)機(jī)房部署方式所能承載的范疇，這意味著科技巨頭不得不考慮跨地域的機(jī)房部署，這帶來了網(wǎng)絡(luò)層面的巨大挑戰(zhàn)。

同時，巨額的建設(shè)、運(yùn)營成本是一大難題。沈抖告訴記者，建一個萬卡集群，單是GPU的采購成本就高達(dá)幾十億。

此前Anthropic首席執(zhí)行官也表示，當(dāng)前AI模型訓(xùn)練成本是10億美元，未來三年，這個數(shù)字可能會上升到100億美元甚至1000億美元。

隨著集群規(guī)模的擴(kuò)大，如何高效利用每一塊GPU的算力成為關(guān)鍵挑戰(zhàn)。一位業(yè)內(nèi)人士告訴記者，萬卡集群已經(jīng)面臨卡間和節(jié)點(diǎn)間的互聯(lián)網(wǎng)絡(luò)、軟件和硬件的適配調(diào)優(yōu)等問題，而十萬卡集群則需要更精細(xì)化的設(shè)計和優(yōu)化，構(gòu)建超高精度和高可靠性的網(wǎng)絡(luò)，包括引入新型芯片設(shè)計、超節(jié)點(diǎn)技術(shù)、跨節(jié)點(diǎn)互聯(lián)網(wǎng)絡(luò)技術(shù)等。

“你本身的集群調(diào)度效率怎么樣？調(diào)度效率有時候會被大家忽略掉，超大規(guī)模的集群不是你的卡每時每刻都在用。大模型大規(guī)模的參數(shù)，在超大規(guī)模集群里面怎么樣做模型的拆分，才能真正讓算力有效發(fā)揮出來，這是非常關(guān)鍵的。”有AI芯片從業(yè)者這樣表示。

還有一大挑戰(zhàn)就是穩(wěn)定性問題。在如此大規(guī)模的集群上，運(yùn)維的復(fù)雜性急劇增加。硬件不可避免地會出故障，而規(guī)模越大，出故障的概率就越高。業(yè)界常常拿Meta訓(xùn)練Llama模型舉例，該模型用的是1.6萬卡算力集群，大概每隔兩三個小時整個訓(xùn)練任務(wù)就要因此重新開始，回到上一個Checkpoint（檢查點(diǎn)）。“如果推演到10萬卡，意味著每30分鐘訓(xùn)練就要中斷一次，有效訓(xùn)練時長占比會非常低。”沈抖告訴記者。

他稱，在這些故障中，絕大多數(shù)是由GPU引起的。其實(shí)GPU是一種很敏感的硬件，連中午天氣溫度的波動，都會影響到GPU的故障率。

“這些挑戰(zhàn)迫使我們重新思考如何構(gòu)建、管理和維護(hù)這樣龐大而復(fù)雜的GPU集群，屏蔽硬件層的復(fù)雜性，為大模型落地的全流程提供一個簡單、好用的算力平臺，讓用戶能夠更容易地管理GPU算力、低成本地用好算力。”沈抖告訴記者。

舉報

第一財經(jīng)廣告合作，請點(diǎn)擊這里

此內(nèi)容為第一財經(jīng)原創(chuàng)，著作權(quán)歸第一財經(jīng)所有。未經(jīng)第一財經(jīng)書面授權(quán)，不得以任何方式加以使用，包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。第一財經(jīng)保留追究侵權(quán)者法律責(zé)任的權(quán)利。如需獲得授權(quán)請聯(lián)系第一財經(jīng)版權(quán)部：021-22002972或021-22002335；banquan@yicai.com。

文章作者

劉佳

相關(guān)閱讀

AI算力股下挫，DeepSeek正在打破“算力為王”行業(yè)規(guī)則

DeepSeek用更少的成本，訓(xùn)練出了媲美Open AI o1的性能，這對大規(guī)模的AI算力投入提出了質(zhì)疑

926 01-27 14:22

明日主題前瞻丨多家上市公司回應(yīng)小紅書相關(guān)業(yè)務(wù)；上海加快布局高性能算力基礎(chǔ)設(shè)施

多家上市公司回應(yīng)小紅書相關(guān)業(yè)務(wù)，小紅書全生態(tài)鏈有望持續(xù)受益；上海加快布局高性能算力基礎(chǔ)設(shè)施，國內(nèi)AI算力鏈有望逐步釋放業(yè)績；醫(yī)保即時結(jié)算改革推進(jìn)。

176 01-16 22:16

總規(guī)模達(dá)到230EFLOPS，位居全球第二，新增算力向樞紐節(jié)點(diǎn)集聚，政策推動產(chǎn)業(yè)有機(jī)協(xié)同發(fā)展︱產(chǎn)業(yè)圖譜

總規(guī)模達(dá)到230EFLOPS，位居全球第二，新增算力向樞紐節(jié)點(diǎn)集聚，政策推動產(chǎn)業(yè)有機(jī)協(xié)同發(fā)展。

一汽-大眾啟動全球出口戰(zhàn)略，國內(nèi)市場開啟“群狼”戰(zhàn)術(shù)

2026年將是一汽-大眾的混動元年，將推出包括PHEV和增程式混動產(chǎn)品。

212 01-12 18:20

數(shù)據(jù)新基建明確五年規(guī)劃，加快形成全國數(shù)據(jù)“一本賬”

建立覆蓋政府、行業(yè)、企業(yè)等主體及國家、省、市、縣等層級的全國一體化的分布式數(shù)據(jù)目錄，形成全國數(shù)據(jù)“一本賬”，支撐跨層級、跨地域、跨系統(tǒng)、跨部門、跨業(yè)務(wù)的數(shù)據(jù)有序流通和共享應(yīng)用。

182 01-06 22:40

一財最熱

點(diǎn)擊關(guān)閉

<li id="a1bmk"></li>