首頁 > 新聞 > 科技

分享到微信

打開微信，點擊底部的“發(fā)現(xiàn)”，
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。

大模型發(fā)展暫時放緩，萬卡集群是問題的答案嗎 | 海斌訪談

第一財經(jīng) 2024-07-08 08:53:46 聽新聞

作者：彭海斌責編：劉佳

支撐模型能力邁進的算力系統(tǒng)需要研發(fā)和構(gòu)建

這一輪的人工智能爆發(fā)，很大程度上是大力出奇跡。

通過堆疊更多算力，大模型呈現(xiàn)令人吃驚的效果。其中的標志性企業(yè)是OpenAI。不過，現(xiàn)在它的新一代大模型推出時間比業(yè)內(nèi)預期的要晚，大模型發(fā)展似乎暫時放緩了。

“支撐模型能力邁向下一代的算力系統(tǒng)還需要研發(fā)和構(gòu)建。”在近日的世界人工智能大會期間，無問芯穹CEO夏立雪這樣說。

大模型慢下來

人工智能的發(fā)展經(jīng)歷了數(shù)次浪潮起伏。

“從2012年AlexNet論文發(fā)布，我們之前從1兆的模型到現(xiàn)在幾十億參數(shù)的規(guī)模，形成了非?？焖俚陌l(fā)展，人工智能現(xiàn)在的發(fā)展基于算力高效的集成?，F(xiàn)在GPT模型背后的基礎(chǔ)transformer的結(jié)構(gòu)，都和GPU的算力硬件結(jié)構(gòu)高度匹配。”夏立雪表示，可以說在人工智能整個發(fā)展的歷程中，算力和算法一直處于互相促進的過程，或者是雞生蛋，蛋生雞的模式。

他認為，早期的模型也是被算力限制才沒有發(fā)揮最大的價值，現(xiàn)在GPT這樣的模型，在充裕的算力基礎(chǔ)上，才可以產(chǎn)生值得人期待的能力。

ChatGPT是OpenAI開發(fā)的大模型，后者是業(yè)界矚目的風向標。它的出現(xiàn)，引領(lǐng)了國內(nèi)外眾多企業(yè)的跟進。不過，它的GPT-5比公眾預期的晚了。該公司的CEO薩姆·奧爾特曼雖然認為GPT-5相較上一代產(chǎn)品會有重大飛躍，但談到上市時間則說“我們也不知道”。

在奧爾特曼看來，制約該公司大模型發(fā)展的因素就是沒有足夠的服務(wù)器。

“大家認為在GPT-4之后，整個算法能力的發(fā)展進入了相對放緩，甚至是停滯的階段。”夏立雪說，問題在于背后支撐算法所需要的算力遇到了瓶頸，從而使得模型發(fā)展進入了放緩的狀態(tài)，或者說支撐模型能力邁向下一代的算力系統(tǒng)還需要研發(fā)和構(gòu)建。

在整個AI智能發(fā)展當中，算力是AI發(fā)展的前哨和基石。當下大模型發(fā)展放緩。遵循大算力、大參數(shù)規(guī)律的Scaling Law是不是到了盡頭？

“任何的技術(shù)都有自己有效性的時間段。早期的Scaling Law非常的簡單，它單純只關(guān)注模型的參數(shù)量，但是后來大家發(fā)現(xiàn)參數(shù)量的大小，只是其中一個變量，它還包括了訓練用的數(shù)據(jù)量，再后來又發(fā)現(xiàn)跟計算量也有關(guān)系。所以Scaling Law本身的內(nèi)涵也在不斷的變化。”智譜AI首席執(zhí)行官張鵬對第一財經(jīng)表示，“現(xiàn)在可能計算量更重要，它是融合了算力和數(shù)據(jù)、參數(shù)規(guī)模，最終得到的一個綜合性變量，這樣來代表Scaling Law。從計算量的角度來看，我們認為它還是有效的。”

簡單粗暴的算力規(guī)模擴張，曾帶來顯而易見的技術(shù)躍遷。國內(nèi)以及國外的科技巨頭們，都在繼續(xù)遵循上述規(guī)則，加大對算力資源的投入。這種大規(guī)模的投資往往是以億美元起步。

OpenAI此前被爆出正與微軟合作，準備構(gòu)建超級計算系統(tǒng)“星際之門”，投資的規(guī)?？赡苓_到千億美元。美國的微軟、谷歌、Meta，以及中國的字節(jié)跳動、阿里等頭部企業(yè)在構(gòu)建萬卡，甚至是十萬卡的大算力集群。

集群的挑戰(zhàn)

“我們認為AI主戰(zhàn)場，萬卡是最低標配。”摩爾線程CEO張建中說。

智算中心是大語言模型訓練的超級加工廠。大模型競爭激烈，縮短訓練時間是企業(yè)的基本訴求。

“這個行業(yè)變化實在太快了，如果兩周沒有更新模型，用戶可能就會流失。所以訓練時間非常重要，不管多大的模型，客戶都希望兩周之內(nèi)結(jié)束戰(zhàn)斗，最遲要在一個月內(nèi)把大模型訓練出來。”張建中對第一財經(jīng)記者表示。

以5000億參數(shù)的模型為例，如果配以15TB的數(shù)據(jù)，如果只有1000P算力，那可能三年時間都難以完成模型的訓練。如果想將同樣的模型訓練時間壓縮到一個月，萬卡集群是基本的配置。

“如果一家大模型公司，發(fā)現(xiàn)一個智算中心只500P、1000P的算力，要在這樣的模型加工廠里訓練出一個很有競爭力的大模型，這個難度應(yīng)該是非常高的。”張建中認為，從需求來看，萬卡以上的智算中心更有價值，“從今年開始，所有的智算中心肯定是，萬卡是最低標配。”

智算中心的萬卡集群，想要實現(xiàn)其算力價值最大化，其實很難。

大模型訓練是一個系統(tǒng)工程，需要軟件和硬件結(jié)合起來。單芯片的算力做不上去，就需要千卡集群、萬卡集群以提升算力，這對于網(wǎng)絡(luò)和基礎(chǔ)設(shè)施的要求更高。智算中心配備了超大規(guī)模集群之后，最終軟件能否把算力發(fā)揮出來，同樣重要。

“你本身的集群調(diào)度效率怎么樣？調(diào)度效率有時候會被大家忽略掉，超大規(guī)模的集群不是你的卡每時每刻都在用。大模型大規(guī)模的參數(shù)，在超大規(guī)模集群里面怎么樣做模型的拆分，才能真正讓算力有效發(fā)揮出來，這是非常關(guān)鍵的。”在世界人工智能大會期間，壁仞科技副總裁兼AI軟件首席架構(gòu)師丁云帆表示。

大規(guī)模的集群都有穩(wěn)定性的問題，無論是國產(chǎn)卡還是英偉達。

“這個是大家逃避不過去的，故障率是相對比較高的。比如給你分配了10個小時，有可能實際只用了8個小時。”丁云帆說，萬卡集群的故障是不是可以自動化檢測出來，能不能快速恢復，都是重大考驗。

壁仞用自主創(chuàng)新研發(fā)的技術(shù)，結(jié)合GPU的顯存和CPU的內(nèi)存，甚至是多節(jié)點內(nèi)存的備份系統(tǒng)去達到這樣一個平衡大幅降低故障恢復成本。軟件有效算力總結(jié)起來有三點，第一是軟硬結(jié)合的計算效率，第二是集群調(diào)度效率怎么樣，第三是出現(xiàn)故障時的處理效率怎么樣。

“現(xiàn)在隨著國產(chǎn)GPU的落地，算力孤島的問題可能會更嚴峻一點。”丁云帆表示，“像壁仞科技和很多國產(chǎn)卡都落地了，這又會出現(xiàn)新的算力池。對用戶來講有一個現(xiàn)實的問題，你有這么多的小的算力池，是不是能夠聚合起來去訓練一個大的模型？這就是異構(gòu)聚合算力，但要解決互連互通和協(xié)同效率等關(guān)鍵挑戰(zhàn)。”

谷歌從成為世界第一的搜索引擎，到探索出成功的商業(yè)落地路徑，花了六七年時間；Meta同樣花相當長的時間才實現(xiàn)商業(yè)回報。ChatGPT已經(jīng)是歷史上最快達到一億用戶的應(yīng)用。

大模型也許只是需要更多一點時間。“它已經(jīng)發(fā)展得非?？炝耍员３忠稽c耐心。”張鵬表示。

舉報

第一財經(jīng)廣告合作，請點擊這里

此內(nèi)容為第一財經(jīng)原創(chuàng)，著作權(quán)歸第一財經(jīng)所有。未經(jīng)第一財經(jīng)書面授權(quán)，不得以任何方式加以使用，包括轉(zhuǎn)載、摘編、復制或建立鏡像。第一財經(jīng)保留追究侵權(quán)者法律責任的權(quán)利。如需獲得授權(quán)請聯(lián)系第一財經(jīng)版權(quán)部：021-22002972或021-22002335；banquan@yicai.com。