分享到微信打開微信,點擊底部的“發(fā)現(xiàn)”, |
2月26日,在開源周(OpenSourceWeek)第三日,DeepSeek宣布開放高效的FP8 GEMM庫DeepGEMM。
DeepSeek這三天的發(fā)布都與算法有關(guān),偏技術(shù)向。大模型生態(tài)社區(qū)OpenCSG(開放傳神)創(chuàng)始人陳冉對第一財經(jīng)舉例表示,“相當于以前DeepSeek是直接給一輛車,告訴大家這輛車續(xù)航900公里,但是現(xiàn)在DeepSeek在深挖,用什么方式能夠開到900公里。”DeepSeek的模型為什么能夠?qū)崿F(xiàn)較好的效果,對應(yīng)有一些算法和相應(yīng)的框架,而這些“腳手架”的開源有利于之后的生態(tài)搭建。
具體到此次發(fā)布的關(guān)鍵詞,GEMM(General Matrix Multiplication,通用矩陣乘法)是線性代數(shù)中的基本運算,而FP8 GEMM則是一種使用8位浮點數(shù)進行矩陣乘法的計算操作。FP8是一種低精度浮點格式,適用于深度學習和高性能計算,能夠在保持較高計算效率的同時減少內(nèi)存占用和帶寬需求。
據(jù)DeepSeek方面介紹,DeepGEMM同時支持傳統(tǒng)的稠密模型和MoE(混合專家)模型的GEMM運算,這一代碼為基于英偉達Hopper架構(gòu)(如H100 GPU)的V3/R1系列硬件提供高效的訓練和推理支持。
DeepSeek提到,基于這一代碼庫,在英偉達Hopper架構(gòu)的GPU上可實現(xiàn)1350+ FP8 TFLOPS(每秒浮點運算次數(shù))的性能,充分利用算力。同時,該代碼庫設(shè)計非常簡潔,只有一個核心內(nèi)核函數(shù),代碼量約為300行,但在大多數(shù)矩陣規(guī)模上均優(yōu)于專家調(diào)優(yōu)的內(nèi)核。
開源 DeepGEMM有何影響?記者將此問題拋給DeepSeek,它回答稱,DeepGEMM 通過FP8和硬件級優(yōu)化,解決了大模型計算效率和資源消耗的痛點,尤其為 MoE模型的落地提供了關(guān)鍵支持。其開源行為不僅加速了技術(shù)民主化,更可能成為AI計算生態(tài)的“基礎(chǔ)設(shè)施”,推動行業(yè)向更高效、低成本的方向發(fā)展。
FP8是AI計算的新興標準,其高效性可加速千億參數(shù)模型的訓練,降低顯存需求。在邊緣設(shè)備或云端部署時,F(xiàn)P8的低精度計算能顯著提升吞吐量,降低成本。因此,開源 DeepGEMM可以推動FP8生態(tài)普及,降低開發(fā)者使用門檻,促進更多框架和模型適配FP8,加速行業(yè)向低精度計算遷移。
此外,MoE模型因計算復雜性難以落地,DeepGEMM 的開源提供了高效實現(xiàn)參考,可能催生更多MoE應(yīng)用(如多模態(tài)模型、邊緣端高效模型)。
對于DeepSeek連續(xù)三天的代碼庫開源,陳冉對記者表示,“我們看下來蠻震撼的。”DeepSeek最終的目標是要表明他們的R1和V3是怎么做出來的,他認為,DeepSeek現(xiàn)在發(fā)布的算法某種意義上屬于“腳手架”,“一定要給大家‘腳手架’,才能真正讓大家基于DeepSeek的技術(shù)線繼續(xù)往前用,最終行業(yè)能基于此將生態(tài)做起來。”
長期來看,陳冉認為,DeepSeek這一開源動作非常有意義,既有模型標準,也有工具標準,也有生態(tài)基石,生態(tài)才能長起來。
陳冉判斷,DeepSeek的代碼開源或許會影響一批做AI Infra層的從業(yè)者,“DeepSeek基本將技術(shù)棧、模型給出來,就差數(shù)據(jù)了,但是別人也有可能將數(shù)據(jù)復現(xiàn)出來,AI Infra層的人就要找新的方向。”但他同時表示,這種開源是一把雙刃劍,如果能將DeepSeek開源的內(nèi)容用好可能也會得利,“用不好就被沖擊”。
也有從業(yè)者對記者表示,DeepSeek開源的是Infra層的推理加速這一塊,DeepSeek底層技術(shù)開源對從業(yè)者有影響,但或許不會太大。
“DeepSeek對行業(yè)的影響這才剛剛開始,沒有人能猜到結(jié)局。”上述從業(yè)者說。
DeepSeek在此前宣布會陸續(xù)開源5個代碼庫,接下來DeepSeek還有兩個代碼庫在這周發(fā)布。“每分享一行代碼,都會成為加速AI行業(yè)發(fā)展的集體動力。”DeepSeek在公告中表示。
“如果一個廠家有太多的學界、權(quán)威、層級很多,它的研發(fā)效率多半是比較慢的?!?/p>
五大應(yīng)用為AI+機器人、AI+汽車、AI+PC/服務(wù)器、AI+手機、AI+眼鏡
通過專業(yè)機構(gòu)以DeepSeek為基礎(chǔ)進行ESG垂直模型的訓練,是DeepSeek應(yīng)用于ESG領(lǐng)域更為高效的路徑。
Manus社交賬號被凍結(jié),官方回應(yīng)未參與加密貨幣等項目;新開普:星普大模型內(nèi)部測評智能推理效果與DeepSeek-R1相近,算力消耗約其1/20。
在能力較突出的視頻生成大模型中,開源模型已占有一席之地。