分享到微信

打開(kāi)微信，點(diǎn)擊底部的“發(fā)現(xiàn)”，
使用“掃一掃”即可將網(wǎng)頁(yè)分享至朋友圈。

DeepSeek開(kāi)源第二彈：EP通信庫(kù)來(lái)了，有望再次降低計(jì)算消耗

第一財(cái)經(jīng) 2025-02-25 13:24:12 聽(tīng)新聞

作者：鄭栩彤責(zé)編：李娜

DeepSeek為了能高效利用GPU進(jìn)行了諸多創(chuàng)新。

2月25日，DeepSeek在“開(kāi)源周”的第二日開(kāi)源了DeepEP通信庫(kù)。DeepSeek表示，這是第一個(gè)用于MoE（專家）模型訓(xùn)練和推理的開(kāi)源EP通信庫(kù)。

“高效、優(yōu)化的全員溝通；節(jié)點(diǎn)內(nèi)和節(jié)點(diǎn)間均支持NVLink和RDMA（遠(yuǎn)程直接內(nèi)存訪問(wèn)，一種通信技術(shù)）；用于訓(xùn)練和推理預(yù)填充的高吞吐量?jī)?nèi)核；用于推理解碼的低延遲內(nèi)核；原生FP8調(diào)度支持；靈活的GPU（圖形處理器）資源控制，實(shí)現(xiàn)計(jì)算與通信重疊。”DeepSeek如此介紹DeepEP的特點(diǎn)。

EP即expert parallelism（專家并行），是一種在大規(guī)模分布式AI模型訓(xùn)練中使用的技術(shù)，能用于提升模型并行處理能力和訓(xùn)練效率。DeepSeek在代碼托管網(wǎng)站GitHub上解釋，對(duì)于延遲敏感的推理解碼任務(wù)，DeepEP包含有一組使用純RDMA的低延遲內(nèi)核，可以用于將延遲最小化，DeepEP還引入一種通信與計(jì)算重疊的方法，這種方法可以不占用SM（流處理器）資源。簡(jiǎn)而言之，DeepEP也是用于提升GPU利用效率的關(guān)鍵技術(shù)之一。

性能可比肩OpenAI o1的DeepSeek-R1是基于DeepSeek-V3訓(xùn)練出來(lái)的模型，DeepSeek-V3此前就以不大規(guī)模使用最先進(jìn)的英偉達(dá)GPU、低訓(xùn)練預(yù)算著稱。為了在已有的GPU上訓(xùn)練大模型，DeepSeek進(jìn)行了諸多創(chuàng)新，以高效利用GPU算力。有學(xué)界人士此前就解讀了DeepSeek-V3實(shí)現(xiàn)計(jì)算與通信重疊的重要作用。清華大學(xué)計(jì)算機(jī)系長(zhǎng)聘教授翟季冬在解讀DeepSeek的相關(guān)技術(shù)時(shí)表示，DeepSeek-V3為了訓(xùn)練效率提升，做了四方面的優(yōu)化，包括負(fù)載均衡、通信優(yōu)化、內(nèi)存優(yōu)化和計(jì)算優(yōu)化，為此，DeepSeek團(tuán)隊(duì)充分挖掘了算法、軟件和硬件協(xié)同創(chuàng)新的潛力。例如DeepSeek為了降低通信開(kāi)銷想了很多辦法，包括精細(xì)化編排計(jì)算和通訊。

“DeepSeek提出一種流水線并行算法DualPipe，通過(guò)精細(xì)控制分配給計(jì)算和通信的GPU SM數(shù)量，實(shí)現(xiàn)計(jì)算和通信完全重疊，從而提高GPU資源的利用率。期間，DeepSeek團(tuán)隊(duì)使用了英偉達(dá)底層的PTX語(yǔ)言來(lái)控制SM的使用。” 翟季冬表示。

中存算半導(dǎo)體董事長(zhǎng)陳巍解析DeepSeek-V3和R1訓(xùn)練結(jié)構(gòu)的獨(dú)特優(yōu)勢(shì)時(shí)也指出，DeepSeek設(shè)計(jì)了DualPipe算法來(lái)實(shí)現(xiàn)更高效的流水線并行，并通過(guò)計(jì)算與通信的重疊隱藏了大模型訓(xùn)練過(guò)程中的大部分通信開(kāi)銷。此外，DeepSeek開(kāi)發(fā)了跨節(jié)點(diǎn)All-to-All通信內(nèi)核，以充分利用InfiniBand和NVLink帶寬，對(duì)顯存使用進(jìn)行了優(yōu)化，使得DeepSeek無(wú)需使用昂貴的張量并行即可訓(xùn)練DeepSeek-V3。

記者就開(kāi)源DeepEP通信庫(kù)的影響詢問(wèn)DeepSeek，它的回答是，DeepEP能顯著提升MoE模型的訓(xùn)練和推理效率，顯著降低計(jì)算資源消耗，開(kāi)源DeepEP有助于降低AI技術(shù)的開(kāi)發(fā)成本，且有助于減少重發(fā)開(kāi)發(fā)。

一些網(wǎng)友則在DeepSeek宣布開(kāi)源的帖子下評(píng)論。“DeepEP看上去像是MoE模型訓(xùn)練和推理的顛覆者。”有網(wǎng)友稱。也有網(wǎng)友表示，NVLink和RDMA是支持大規(guī)模MoE模型的重要因素，看來(lái)DeepSeek再次突破了AI基礎(chǔ)設(shè)施的極限。

DeepSeek此前宣布，本周會(huì)陸續(xù)開(kāi)源5個(gè)代碼庫(kù)。加上2月24日開(kāi)源的代碼庫(kù)FlashMLA，DeepSeek已開(kāi)源了2個(gè)代碼庫(kù)，接下來(lái)還有3個(gè)代碼庫(kù)待開(kāi)源。DeepSeek此前在公告中表示，DeepSeek是探索AGI（通用人工智能）的小公司，作為開(kāi)源社區(qū)的一部分，每分享一行代碼，都會(huì)成為加速AI行業(yè)發(fā)展的集體動(dòng)力。

舉報(bào)

第一財(cái)經(jīng)廣告合作，請(qǐng)點(diǎn)擊這里

此內(nèi)容為第一財(cái)經(jīng)原創(chuàng)，著作權(quán)歸第一財(cái)經(jīng)所有。未經(jīng)第一財(cái)經(jīng)書(shū)面授權(quán)，不得以任何方式加以使用，包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。第一財(cái)經(jīng)保留追究侵權(quán)者法律責(zé)任的權(quán)利。
如需獲得授權(quán)請(qǐng)聯(lián)系第一財(cái)經(jīng)版權(quán)部：banquan@yicai.com