分享到微信打開微信,點擊底部的“發(fā)現”, |
2月18日,DeepSeek官方在海外社交平臺X上發(fā)布了一篇純技術論文報告,論文主要內容是關于NSA(Natively Sparse Attention,原生稀疏注意力),官方介紹這是一種用于超快速長文本訓練與推理的、硬件對齊且可原生訓練的稀疏注意力機制。
具體來說,NSA針對現代硬件進行了優(yōu)化設計,能夠加速推理過程,同時降低預訓練成本,且不犧牲性能。它在通用基準測試、長文本任務和基于指令的推理中均能達到或超越全注意力模型的表現。稀疏注意力為提高效率同時保持模型能力提供了一個有前景的方向。
記者注意到,在這篇名為《原生稀疏注意力:硬件對齊且可原生訓練的稀疏注意力機制》(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)的論文署名中,DeepSeek創(chuàng)始人梁文鋒也作為共創(chuàng)在列。
在論文中,DeepSeek團隊表示,業(yè)界越來越認識到長上下文建模對于下一代大型語言模型的重要性,推動這一需求的應用包括深度推理、倉庫級代碼生成和多輪自主代理系統。然而,隨著序列長度的增加,標準注意力機制的高復雜度成為了關鍵的延遲瓶頸。
論文提到,理論估計表明,在使用softmax架構(一種用于多分類問題的神經網絡架構)時,注意力計算占解碼64k長度上下文總延遲的70%-80%,這凸顯了對更高效注意力機制的迫切需求。
記者將這一論文提供給DeepSeek,并讓其評價對業(yè)界的影響與意義,DeepSeek稱,這一技術的核心價值在于平衡效率與性能,既降低計算成本,又保持甚至提升模型能力。對行業(yè)而言,NSA為處理長上下文任務提供了一種高效的解決方案,有助于推動更強大、更經濟的語言模型的發(fā)展,尤其是在需要處理長文本的應用場景中。
NSA通過高效的長序列處理能力,使模型能夠直接處理整本書籍、代碼倉庫或多輪對話(如千輪客服場景),擴展了大語言模型在文檔分析、代碼生成、復雜推理等領域的應用邊界。例如,Gemini 1.5 Pro已展示長上下文潛力,NSA可進一步降低此類模型的訓練與推理成本。
此外,DeepSeek提到,NSA能夠降低算力門檻與部署成本。端到端稀疏訓練可以減少預訓練所需的計算資源(如減少A100 GPU小時數),降低企業(yè)開發(fā)大模型的資金與技術門檻。同時,可以加速推理,使長文本生成(如代碼補全、故事續(xù)寫)的實時性更高,適用于邊緣設備或低延遲場景。
一位X用戶在DeepSeek帖子下表示,“NSA 機制改變了游戲規(guī)則。超快速長上下文訓練對于擴大教育領域 AI 至關重要,這與個性化學習愿景完美契合。”還有網友對此調侃“RIP Nvidia”。
自1月20日發(fā)布DeepSeek-R1并攪動AI圈以來,DeepSeek方面一直較為低調,這是這么多天以來DeepSeek唯一發(fā)布的技術動態(tài)。
“DeepSeek team is cooking! ”(DeepSeek 團隊正在積極工作!)有X網友表示。
“如果一個廠家有太多的學界、權威、層級很多,它的研發(fā)效率多半是比較慢的?!?/p>
安徽省率先在全國省級層面完成DeepSeek滿血版(671B)本地化部署,推出無差別綜窗、公文寫作、語音轉文字等16個典型應用,并在全省試用推廣。
通過專業(yè)機構以DeepSeek為基礎進行ESG垂直模型的訓練,是DeepSeek應用于ESG領域更為高效的路徑。
電力便宜,中國制造起來了。AI只有便宜了,才能像電一樣無處不在。
Manus社交賬號被凍結,官方回應未參與加密貨幣等項目;新開普:星普大模型內部測評智能推理效果與DeepSeek-R1相近,算力消耗約其1/20。