分享到微信打開(kāi)微信,點(diǎn)擊底部的“發(fā)現(xiàn)”, |
第一財(cái)經(jīng) 2025-02-25 13:24:12 聽(tīng)新聞
作者:鄭栩彤 責(zé)編:李娜
2月25日,DeepSeek在“開(kāi)源周”的第二日開(kāi)源了DeepEP通信庫(kù)。DeepSeek表示,這是第一個(gè)用于MoE(專家)模型訓(xùn)練和推理的開(kāi)源EP通信庫(kù)。
“高效、優(yōu)化的全員溝通;節(jié)點(diǎn)內(nèi)和節(jié)點(diǎn)間均支持NVLink和RDMA(遠(yuǎn)程直接內(nèi)存訪問(wèn),一種通信技術(shù));用于訓(xùn)練和推理預(yù)填充的高吞吐量?jī)?nèi)核;用于推理解碼的低延遲內(nèi)核;原生FP8調(diào)度支持;靈活的GPU(圖形處理器)資源控制,實(shí)現(xiàn)計(jì)算與通信重疊。”DeepSeek如此介紹DeepEP的特點(diǎn)。
EP即expert parallelism(專家并行),是一種在大規(guī)模分布式AI模型訓(xùn)練中使用的技術(shù),能用于提升模型并行處理能力和訓(xùn)練效率。DeepSeek在代碼托管網(wǎng)站GitHub上解釋,對(duì)于延遲敏感的推理解碼任務(wù),DeepEP包含有一組使用純RDMA的低延遲內(nèi)核,可以用于將延遲最小化,DeepEP還引入一種通信與計(jì)算重疊的方法,這種方法可以不占用SM(流處理器)資源。簡(jiǎn)而言之,DeepEP也是用于提升GPU利用效率的關(guān)鍵技術(shù)之一。
性能可比肩OpenAI o1的DeepSeek-R1是基于DeepSeek-V3訓(xùn)練出來(lái)的模型,DeepSeek-V3此前就以不大規(guī)模使用最先進(jìn)的英偉達(dá)GPU、低訓(xùn)練預(yù)算著稱。為了在已有的GPU上訓(xùn)練大模型,DeepSeek進(jìn)行了諸多創(chuàng)新,以高效利用GPU算力。有學(xué)界人士此前就解讀了DeepSeek-V3實(shí)現(xiàn)計(jì)算與通信重疊的重要作用。清華大學(xué)計(jì)算機(jī)系長(zhǎng)聘教授翟季冬在解讀DeepSeek的相關(guān)技術(shù)時(shí)表示,DeepSeek-V3為了訓(xùn)練效率提升,做了四方面的優(yōu)化,包括負(fù)載均衡、通信優(yōu)化、內(nèi)存優(yōu)化和計(jì)算優(yōu)化,為此,DeepSeek團(tuán)隊(duì)充分挖掘了算法、軟件和硬件協(xié)同創(chuàng)新的潛力。例如DeepSeek為了降低通信開(kāi)銷想了很多辦法,包括精細(xì)化編排計(jì)算和通訊。
“DeepSeek提出一種流水線并行算法DualPipe,通過(guò)精細(xì)控制分配給計(jì)算和通信的GPU SM數(shù)量,實(shí)現(xiàn)計(jì)算和通信完全重疊,從而提高GPU資源的利用率。期間,DeepSeek團(tuán)隊(duì)使用了英偉達(dá)底層的PTX語(yǔ)言來(lái)控制SM的使用。” 翟季冬表示。
中存算半導(dǎo)體董事長(zhǎng)陳巍解析DeepSeek-V3和R1訓(xùn)練結(jié)構(gòu)的獨(dú)特優(yōu)勢(shì)時(shí)也指出,DeepSeek設(shè)計(jì)了DualPipe算法來(lái)實(shí)現(xiàn)更高效的流水線并行,并通過(guò)計(jì)算與通信的重疊隱藏了大模型訓(xùn)練過(guò)程中的大部分通信開(kāi)銷。此外,DeepSeek開(kāi)發(fā)了跨節(jié)點(diǎn)All-to-All通信內(nèi)核,以充分利用InfiniBand和NVLink帶寬,對(duì)顯存使用進(jìn)行了優(yōu)化,使得DeepSeek無(wú)需使用昂貴的張量并行即可訓(xùn)練DeepSeek-V3。
記者就開(kāi)源DeepEP通信庫(kù)的影響詢問(wèn)DeepSeek,它的回答是,DeepEP能顯著提升MoE模型的訓(xùn)練和推理效率,顯著降低計(jì)算資源消耗,開(kāi)源DeepEP有助于降低AI技術(shù)的開(kāi)發(fā)成本,且有助于減少重發(fā)開(kāi)發(fā)。
一些網(wǎng)友則在DeepSeek宣布開(kāi)源的帖子下評(píng)論。“DeepEP看上去像是MoE模型訓(xùn)練和推理的顛覆者。”有網(wǎng)友稱。也有網(wǎng)友表示,NVLink和RDMA是支持大規(guī)模MoE模型的重要因素,看來(lái)DeepSeek再次突破了AI基礎(chǔ)設(shè)施的極限。
DeepSeek此前宣布,本周會(huì)陸續(xù)開(kāi)源5個(gè)代碼庫(kù)。加上2月24日開(kāi)源的代碼庫(kù)FlashMLA,DeepSeek已開(kāi)源了2個(gè)代碼庫(kù),接下來(lái)還有3個(gè)代碼庫(kù)待開(kāi)源。DeepSeek此前在公告中表示,DeepSeek是探索AGI(通用人工智能)的小公司,作為開(kāi)源社區(qū)的一部分,每分享一行代碼,都會(huì)成為加速AI行業(yè)發(fā)展的集體動(dòng)力。
企業(yè)希望通過(guò)降低機(jī)器人的開(kāi)發(fā)門檻,拉更多的生態(tài)參與者“入伙”。
這一模型迭代可能預(yù)示著R2模型將是另一個(gè)重大飛躍。
據(jù)悉該模型參數(shù)為6850億。
“騰訊經(jīng)過(guò)慎重考慮,決定在云業(yè)務(wù)和元寶客戶端接入DeepSeek。”馬化騰說(shuō),AI會(huì)讓各行各業(yè)出現(xiàn)翻天覆地的變化。
“如果一個(gè)廠家有太多的學(xué)界、權(quán)威、層級(jí)很多,它的研發(fā)效率多半是比較慢的。”