亚洲中文字乱码免费播放,精品国产日韩专区欧美第一页,亚洲中文有码字幕青青,亚洲综合另类专区在线

首頁 > 新聞 > 科技

分享到微信

打開微信，點擊底部的“發(fā)現(xiàn)”，
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。

DeepSeek開源第四彈“教”優(yōu)化，梁文鋒參與研發(fā)

第一財經(jīng) 2025-02-27 15:02:16 聽新聞

作者：劉曉潔責(zé)編：李娜

通過這些分享可以清晰了解DeepSeek是如何最大限度利用GPU能力的。

2月27日，DeepSeek開源周（OpenSourceWeek）第四彈來了，DeepSeek在X上宣布這次開源的是三項優(yōu)化并行策略，并在Github上詳細展開了DeepSeek-V3和R1模型背后的并行計算優(yōu)化技術(shù)，通過這些闡述可以清晰了解團隊是如何精細地優(yōu)化計算和通信，最大限度利用GPU能力的。

這三項優(yōu)化并行策略其中包括DualPipe，這是一種用于V3/R1模型訓(xùn)練中計算與通信重疊的雙向流水線并行算法，這種算法能夠完全重疊前向和后向計算通信階段，與傳統(tǒng)方法相比減少了“流水線氣泡”（設(shè)備在某些時刻的空閑等待）。在DualPipe的開發(fā)團隊署名中，包括創(chuàng)始人梁文鋒。

優(yōu)化并行策略第二項是EPLB（Expert Parallelism Load Balancer，專家并行負載均衡器），它針對V3/R1模型，解決MoE（混合專家）模型在分布式訓(xùn)練和推理中的負載不平衡問題。

當(dāng)使用專家并行（EP）時，不同的專家被分配到不同的GPU。由于不同專家的負載可能會根據(jù)當(dāng)前的工作負載而變化，因此保持不同GPU的負載平衡非常重要。DeepSeek曾在V3論文中提到，團隊采用冗余專家策略來重復(fù)重載專家，他們創(chuàng)新地將重復(fù)的專家打包到GPU上，以確保不同GPU之間的負載平衡。

在第三部分， DeepSeek直接分享了來自訓(xùn)練和推理框架的性能分析數(shù)據(jù)，以幫助社區(qū)更好地了解通信計算重疊策略和低級實現(xiàn)細節(jié)。這些數(shù)據(jù)是用PyTorch Profiler采集的，下載后可以直接在 Chrome或 Edge 瀏覽器中打開，進行可視化分析，DeepSeek還模擬了絕對平衡的MoE 路由策略用于性能分析。

DeepSeek這四天的發(fā)布都與Infra層的算法有關(guān)，分享團隊最大限度利用GPU能力的技術(shù)細節(jié)。大模型生態(tài)社區(qū)OpenCSG（開放傳神）創(chuàng)始人陳冉此前對第一財經(jīng)舉例表示，“相當(dāng)于以前DeepSeek是直接給一輛車，告訴大家這輛車續(xù)航900公里，但是現(xiàn)在DeepSeek在深挖，用什么方式能夠開到900公里。”DeepSeek的模型為什么能夠?qū)崿F(xiàn)較好的效果，對應(yīng)有一些算法和相應(yīng)的框架，而這些“腳手架”的開源有利于之后的生態(tài)搭建。

陳冉判斷，DeepSeek的代碼開源或許會影響一批做AI Infra層的從業(yè)者，“AI Infra層的人要找新的方向。”但他同時表示，這種開源是一把雙刃劍，如果能將DeepSeek開源的內(nèi)容用好可能也會得利，“用不好就被沖擊”。

此前三日，DeepSeek陸續(xù)開源了讓大模型在GPU上跑得更快的MLA解碼核FlashMLA，用于MoE模型訓(xùn)練和推理的DeepEP通信庫，以及可支持MoE的FP8 GEMM代碼庫DeepGEMM。

從GitHub上獲得的星標(biāo)來看，這些項目頗受歡迎，截至發(fā)稿，F(xiàn)lashMLA已在GitHub獲得超過1萬星標(biāo)，DeepEP的星標(biāo)已有6000，DeepGEMM目前超過3700，最新發(fā)布的DualPipe星標(biāo)超過700。

就在昨日，DeepSeek還在海內(nèi)外同時宣布了API 錯峰優(yōu)惠，自2月26日起，北京時間每日00:30至08:30的夜間空閑時段，API 調(diào)用價格大幅下調(diào)：DeepSeek-V3 降至原價的 50%，DeepSeek-R1 更低至 25%。DeepSeek鼓勵用戶充分利用這一時段，享受更經(jīng)濟更流暢的服務(wù)體驗。

另外，也有消息稱，DeepSeek正尋求鞏固自身優(yōu)勢，盡早推出R2模型，消息提到DeepSeek原本計劃在5月初發(fā)布R2模型，目前會加快這一速度。DeepSeek目前并未對此回應(yīng)。

此前DeepSeek在R1論文中提到，R1 的性能將在下一個版本得到改善，因為相關(guān)的RL（強化學(xué)習(xí)）訓(xùn)練數(shù)據(jù)還很少。隨著RL數(shù)據(jù)的增加，模型解決復(fù)雜推理任務(wù)的能力持續(xù)穩(wěn)定提升，且會自然涌現(xiàn)出一些復(fù)雜行為能力。

業(yè)界認為，DeepSeek-R2的發(fā)布可能是AI行業(yè)的一個關(guān)鍵節(jié)點。

舉報

第一財經(jīng)廣告合作，請點擊這里

此內(nèi)容為第一財經(jīng)原創(chuàng)，著作權(quán)歸第一財經(jīng)所有。未經(jīng)第一財經(jīng)書面授權(quán)，不得以任何方式加以使用，包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。第一財經(jīng)保留追究侵權(quán)者法律責(zé)任的權(quán)利。
如需獲得授權(quán)請聯(lián)系第一財經(jīng)版權(quán)部：banquan@yicai.com

文章作者

劉曉潔

相關(guān)閱讀

DeepSeek催人老：他們有了“炮灰”的覺悟 | 海斌訪談

“如果一個廠家有太多的學(xué)界、權(quán)威、層級很多，它的研發(fā)效率多半是比較慢的?！?/p>

266 昨天 10:20

跨境電商試練AI，DeepSeek取代了ChatGPT

在這場沒有宏大敘事的變革里，每個參與者都在盡可能觸摸AI應(yīng)用新的形狀。

216 03-12 19:30

安徽率先利用DeepSeek等大模型技術(shù)推出16個場景應(yīng)用

安徽省率先在全國省級層面完成DeepSeek滿血版（671B）本地化部署，推出無差別綜窗、公文寫作、語音轉(zhuǎn)文字等16個典型應(yīng)用，并在全省試用推廣。

AI進化速遞丨DeepSeek回應(yīng)“理論日利潤346萬元”

DeepSeek最高日賺346萬元？官方稱理論收益并非實際；清華大學(xué)2025年將適度擴招本科生，重點培養(yǎng)“AI+”拔尖創(chuàng)新人才。

AI進化速遞｜DeepSeek首次披露理論利潤率達545%

DeepSeek首次公布模型推理系統(tǒng)優(yōu)化細節(jié)，披露理論利潤率達545%；騰訊元寶上線電腦客戶端版本；OpenAI擬將Sora整合進ChatGPT。

一財最熱

點擊關(guān)閉