亚洲中文字乱码免费播放,精品国产日韩专区欧美第一页,亚洲中文有码字幕青青,亚洲综合另类专区在线

          首頁 > 新聞 > 科技

          分享到微信

          打開微信,點擊底部的“發(fā)現(xiàn)”,
          使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。

          大模型發(fā)展暫時放緩,萬卡集群是問題的答案嗎 | 海斌訪談

          第一財經(jīng) 2024-07-08 08:53:46 聽新聞

          作者:彭海斌    責編:劉佳

          支撐模型能力邁進的算力系統(tǒng)需要研發(fā)和構(gòu)建

          這一輪的人工智能爆發(fā),很大程度上是大力出奇跡。

          通過堆疊更多算力,大模型呈現(xiàn)令人吃驚的效果。其中的標志性企業(yè)是OpenAI。不過,現(xiàn)在它的新一代大模型推出時間比業(yè)內(nèi)預期的要晚,大模型發(fā)展似乎暫時放緩了。

          “支撐模型能力邁向下一代的算力系統(tǒng)還需要研發(fā)和構(gòu)建。”在近日的世界人工智能大會期間,無問芯穹CEO夏立雪這樣說。

          大模型慢下來

          人工智能的發(fā)展經(jīng)歷了數(shù)次浪潮起伏。

          “從2012年AlexNet論文發(fā)布,我們之前從1兆的模型到現(xiàn)在幾十億參數(shù)的規(guī)模,形成了非??焖俚陌l(fā)展,人工智能現(xiàn)在的發(fā)展基于算力高效的集成?,F(xiàn)在GPT模型背后的基礎(chǔ)transformer的結(jié)構(gòu),都和GPU的算力硬件結(jié)構(gòu)高度匹配。”夏立雪表示,可以說在人工智能整個發(fā)展的歷程中,算力和算法一直處于互相促進的過程,或者是雞生蛋,蛋生雞的模式。

          他認為,早期的模型也是被算力限制才沒有發(fā)揮最大的價值,現(xiàn)在GPT這樣的模型,在充裕的算力基礎(chǔ)上,才可以產(chǎn)生值得人期待的能力。

          ChatGPT是OpenAI開發(fā)的大模型,后者是業(yè)界矚目的風向標。它的出現(xiàn),引領(lǐng)了國內(nèi)外眾多企業(yè)的跟進。不過,它的GPT-5比公眾預期的晚了。該公司的CEO薩姆·奧爾特曼雖然認為GPT-5相較上一代產(chǎn)品會有重大飛躍,但談到上市時間則說“我們也不知道”。

          在奧爾特曼看來,制約該公司大模型發(fā)展的因素就是沒有足夠的服務(wù)器。

          “大家認為在GPT-4之后,整個算法能力的發(fā)展進入了相對放緩,甚至是停滯的階段。”夏立雪說,問題在于背后支撐算法所需要的算力遇到了瓶頸,從而使得模型發(fā)展進入了放緩的狀態(tài),或者說支撐模型能力邁向下一代的算力系統(tǒng)還需要研發(fā)和構(gòu)建。

          在整個AI智能發(fā)展當中,算力是AI發(fā)展的前哨和基石。當下大模型發(fā)展放緩。遵循大算力、大參數(shù)規(guī)律的Scaling Law是不是到了盡頭?

          “任何的技術(shù)都有自己有效性的時間段。早期的Scaling Law非常的簡單,它單純只關(guān)注模型的參數(shù)量,但是后來大家發(fā)現(xiàn)參數(shù)量的大小,只是其中一個變量,它還包括了訓練用的數(shù)據(jù)量,再后來又發(fā)現(xiàn)跟計算量也有關(guān)系。所以Scaling Law本身的內(nèi)涵也在不斷的變化。”智譜AI首席執(zhí)行官張鵬對第一財經(jīng)表示,“現(xiàn)在可能計算量更重要,它是融合了算力和數(shù)據(jù)、參數(shù)規(guī)模,最終得到的一個綜合性變量,這樣來代表Scaling Law。從計算量的角度來看,我們認為它還是有效的。”

          簡單粗暴的算力規(guī)模擴張,曾帶來顯而易見的技術(shù)躍遷。國內(nèi)以及國外的科技巨頭們,都在繼續(xù)遵循上述規(guī)則,加大對算力資源的投入。這種大規(guī)模的投資往往是以億美元起步。

          OpenAI此前被爆出正與微軟合作,準備構(gòu)建超級計算系統(tǒng)“星際之門”,投資的規(guī)??赡苓_到千億美元。美國的微軟、谷歌、Meta,以及中國的字節(jié)跳動、阿里等頭部企業(yè)在構(gòu)建萬卡,甚至是十萬卡的大算力集群。

          集群的挑戰(zhàn)

          “我們認為AI主戰(zhàn)場,萬卡是最低標配。”摩爾線程CEO張建中說。

          智算中心是大語言模型訓練的超級加工廠。大模型競爭激烈,縮短訓練時間是企業(yè)的基本訴求。

          “這個行業(yè)變化實在太快了,如果兩周沒有更新模型,用戶可能就會流失。所以訓練時間非常重要,不管多大的模型,客戶都希望兩周之內(nèi)結(jié)束戰(zhàn)斗,最遲要在一個月內(nèi)把大模型訓練出來。”張建中對第一財經(jīng)記者表示。

          以5000億參數(shù)的模型為例,如果配以15TB的數(shù)據(jù),如果只有1000P算力,那可能三年時間都難以完成模型的訓練。如果想將同樣的模型訓練時間壓縮到一個月,萬卡集群是基本的配置。

          “如果一家大模型公司,發(fā)現(xiàn)一個智算中心只500P、1000P的算力,要在這樣的模型加工廠里訓練出一個很有競爭力的大模型,這個難度應(yīng)該是非常高的。”張建中認為,從需求來看,萬卡以上的智算中心更有價值,“從今年開始,所有的智算中心肯定是,萬卡是最低標配。”

          智算中心的萬卡集群,想要實現(xiàn)其算力價值最大化,其實很難。

          大模型訓練是一個系統(tǒng)工程,需要軟件和硬件結(jié)合起來。單芯片的算力做不上去,就需要千卡集群、萬卡集群以提升算力,這對于網(wǎng)絡(luò)和基礎(chǔ)設(shè)施的要求更高。智算中心配備了超大規(guī)模集群之后,最終軟件能否把算力發(fā)揮出來,同樣重要。

          “你本身的集群調(diào)度效率怎么樣?調(diào)度效率有時候會被大家忽略掉,超大規(guī)模的集群不是你的卡每時每刻都在用。大模型大規(guī)模的參數(shù),在超大規(guī)模集群里面怎么樣做模型的拆分,才能真正讓算力有效發(fā)揮出來,這是非常關(guān)鍵的。”在世界人工智能大會期間,壁仞科技副總裁兼AI軟件首席架構(gòu)師丁云帆表示。

          大規(guī)模的集群都有穩(wěn)定性的問題,無論是國產(chǎn)卡還是英偉達。

          “這個是大家逃避不過去的,故障率是相對比較高的。比如給你分配了10個小時,有可能實際只用了8個小時。”丁云帆說,萬卡集群的故障是不是可以自動化檢測出來,能不能快速恢復,都是重大考驗。

          壁仞用自主創(chuàng)新研發(fā)的技術(shù),結(jié)合GPU的顯存和CPU的內(nèi)存,甚至是多節(jié)點內(nèi)存的備份系統(tǒng)去達到這樣一個平衡大幅降低故障恢復成本。軟件有效算力總結(jié)起來有三點,第一是軟硬結(jié)合的計算效率,第二是集群調(diào)度效率怎么樣,第三是出現(xiàn)故障時的處理效率怎么樣。

          “現(xiàn)在隨著國產(chǎn)GPU的落地,算力孤島的問題可能會更嚴峻一點。”丁云帆表示,“像壁仞科技和很多國產(chǎn)卡都落地了,這又會出現(xiàn)新的算力池。對用戶來講有一個現(xiàn)實的問題,你有這么多的小的算力池,是不是能夠聚合起來去訓練一個大的模型?這就是異構(gòu)聚合算力,但要解決互連互通和協(xié)同效率等關(guān)鍵挑戰(zhàn)。”

          谷歌從成為世界第一的搜索引擎,到探索出成功的商業(yè)落地路徑,花了六七年時間;Meta同樣花相當長的時間才實現(xiàn)商業(yè)回報。ChatGPT已經(jīng)是歷史上最快達到一億用戶的應(yīng)用。

          大模型也許只是需要更多一點時間。“它已經(jīng)發(fā)展得非??炝耍员3忠稽c耐心。”張鵬表示。

          舉報
          第一財經(jīng)廣告合作,請點擊這里
          此內(nèi)容為第一財經(jīng)原創(chuàng),著作權(quán)歸第一財經(jīng)所有。未經(jīng)第一財經(jīng)書面授權(quán),不得以任何方式加以使用,包括轉(zhuǎn)載、摘編、復制或建立鏡像。第一財經(jīng)保留追究侵權(quán)者法律責任的權(quán)利。 如需獲得授權(quán)請聯(lián)系第一財經(jīng)版權(quán)部:021-22002972或021-22002335;banquan@yicai.com。

          文章作者

          相關(guān)閱讀

          DeepSeek新模型“火”到海外,Meta首席AI科學家稱“開源在超越閉源了”

          當開源模型能力趕上最新的閉源模型,閉源模型是否還有競爭力?

          1473 01-26 13:42

          明日主題前瞻丨多家上市公司回應(yīng)小紅書相關(guān)業(yè)務(wù);上海加快布局高性能算力基礎(chǔ)設(shè)施

          多家上市公司回應(yīng)小紅書相關(guān)業(yè)務(wù),小紅書全生態(tài)鏈有望持續(xù)受益;上海加快布局高性能算力基礎(chǔ)設(shè)施,國內(nèi)AI算力鏈有望逐步釋放業(yè)績;醫(yī)保即時結(jié)算改革推進。

          176 01-16 22:16

          總規(guī)模達到230EFLOPS,位居全球第二,新增算力向樞紐節(jié)點集聚,政策推動產(chǎn)業(yè)有機協(xié)同發(fā)展︱產(chǎn)業(yè)圖譜

          總規(guī)模達到230EFLOPS,位居全球第二,新增算力向樞紐節(jié)點集聚,政策推動產(chǎn)業(yè)有機協(xié)同發(fā)展。

          22 01-13 12:05

          數(shù)據(jù)新基建明確五年規(guī)劃,加快形成全國數(shù)據(jù)“一本賬”

          建立覆蓋政府、行業(yè)、企業(yè)等主體及國家、省、市、縣等層級的全國一體化的分布式數(shù)據(jù)目錄,形成全國數(shù)據(jù)“一本賬”,支撐跨層級、跨地域、跨系統(tǒng)、跨部門、跨業(yè)務(wù)的數(shù)據(jù)有序流通和共享應(yīng)用。

          182 01-06 22:40

          微軟計劃砸下800億美元,打造AI智算中心

          微軟對AI基礎(chǔ)設(shè)施的資本開支將大幅增長。

          377 01-04 09:43
          一財最熱
          點擊關(guān)閉