分享到微信

打開微信，點擊底部的“發(fā)現(xiàn)”，
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。

DeepSeek發(fā)布最新技術(shù)論文，梁文鋒是共創(chuàng)之一

第一財經(jīng) 2025-02-18 17:06:32 聽新聞

作者：劉曉潔責(zé)編：劉佳

DeepSeek team is cooking!

2月18日，DeepSeek官方在海外社交平臺X上發(fā)布了一篇純技術(shù)論文報告，論文主要內(nèi)容是關(guān)于NSA（Natively Sparse Attention，原生稀疏注意力），官方介紹這是一種用于超快速長文本訓(xùn)練與推理的、硬件對齊且可原生訓(xùn)練的稀疏注意力機制。

具體來說，NSA針對現(xiàn)代硬件進行了優(yōu)化設(shè)計，能夠加速推理過程，同時降低預(yù)訓(xùn)練成本，且不犧牲性能。它在通用基準(zhǔn)測試、長文本任務(wù)和基于指令的推理中均能達到或超越全注意力模型的表現(xiàn)。稀疏注意力為提高效率同時保持模型能力提供了一個有前景的方向。

記者注意到，在這篇名為《原生稀疏注意力：硬件對齊且可原生訓(xùn)練的稀疏注意力機制》（Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention）的論文署名中，DeepSeek創(chuàng)始人梁文鋒也作為共創(chuàng)在列。

在論文中，DeepSeek團隊表示，業(yè)界越來越認識到長上下文建模對于下一代大型語言模型的重要性，推動這一需求的應(yīng)用包括深度推理、倉庫級代碼生成和多輪自主代理系統(tǒng)。然而，隨著序列長度的增加，標(biāo)準(zhǔn)注意力機制的高復(fù)雜度成為了關(guān)鍵的延遲瓶頸。

論文提到，理論估計表明，在使用softmax架構(gòu)（‌一種用于多分類問題的神經(jīng)網(wǎng)絡(luò)架構(gòu)）時，注意力計算占解碼64k長度上下文總延遲的70%-80%，這凸顯了對更高效注意力機制的迫切需求。

記者將這一論文提供給DeepSeek，并讓其評價對業(yè)界的影響與意義，DeepSeek稱，這一技術(shù)的核心價值在于平衡效率與性能，既降低計算成本，又保持甚至提升模型能力。對行業(yè)而言，NSA為處理長上下文任務(wù)提供了一種高效的解決方案，有助于推動更強大、更經(jīng)濟的語言模型的發(fā)展，尤其是在需要處理長文本的應(yīng)用場景中。

NSA通過高效的長序列處理能力，使模型能夠直接處理整本書籍、代碼倉庫或多輪對話（如千輪客服場景），擴展了大語言模型在文檔分析、代碼生成、復(fù)雜推理等領(lǐng)域的應(yīng)用邊界。例如，Gemini 1.5 Pro已展示長上下文潛力，NSA可進一步降低此類模型的訓(xùn)練與推理成本。

此外，DeepSeek提到，NSA能夠降低算力門檻與部署成本。端到端稀疏訓(xùn)練可以減少預(yù)訓(xùn)練所需的計算資源（如減少A100 GPU小時數(shù)），降低企業(yè)開發(fā)大模型的資金與技術(shù)門檻。同時，可以加速推理，使長文本生成（如代碼補全、故事續(xù)寫）的實時性更高，適用于邊緣設(shè)備或低延遲場景。

一位X用戶在DeepSeek帖子下表示，“NSA 機制改變了游戲規(guī)則。超快速長上下文訓(xùn)練對于擴大教育領(lǐng)域 AI 至關(guān)重要，這與個性化學(xué)習(xí)愿景完美契合。”還有網(wǎng)友對此調(diào)侃“RIP Nvidia”。

自1月20日發(fā)布DeepSeek-R1并攪動AI圈以來，DeepSeek方面一直較為低調(diào)，這是這么多天以來DeepSeek唯一發(fā)布的技術(shù)動態(tài)。

“DeepSeek team is cooking! ”（DeepSeek 團隊正在積極工作?。┯蠿網(wǎng)友表示。

舉報

第一財經(jīng)廣告合作，請點擊這里

此內(nèi)容為第一財經(jīng)原創(chuàng)，著作權(quán)歸第一財經(jīng)所有。未經(jīng)第一財經(jīng)書面授權(quán)，不得以任何方式加以使用，包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。第一財經(jīng)保留追究侵權(quán)者法律責(zé)任的權(quán)利。
如需獲得授權(quán)請聯(lián)系第一財經(jīng)版權(quán)部：banquan@yicai.com