分享到微信打開微信,點擊底部的“發(fā)現(xiàn)”, |
2月18日,DeepSeek官方在海外社交平臺X上發(fā)布了一篇純技術(shù)論文報告,論文主要內(nèi)容是關(guān)于NSA(Natively Sparse Attention,原生稀疏注意力),官方介紹這是一種用于超快速長文本訓(xùn)練與推理的、硬件對齊且可原生訓(xùn)練的稀疏注意力機制。
具體來說,NSA針對現(xiàn)代硬件進行了優(yōu)化設(shè)計,能夠加速推理過程,同時降低預(yù)訓(xùn)練成本,且不犧牲性能。它在通用基準(zhǔn)測試、長文本任務(wù)和基于指令的推理中均能達到或超越全注意力模型的表現(xiàn)。稀疏注意力為提高效率同時保持模型能力提供了一個有前景的方向。
記者注意到,在這篇名為《原生稀疏注意力:硬件對齊且可原生訓(xùn)練的稀疏注意力機制》(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)的論文署名中,DeepSeek創(chuàng)始人梁文鋒也作為共創(chuàng)在列。
在論文中,DeepSeek團隊表示,業(yè)界越來越認識到長上下文建模對于下一代大型語言模型的重要性,推動這一需求的應(yīng)用包括深度推理、倉庫級代碼生成和多輪自主代理系統(tǒng)。然而,隨著序列長度的增加,標(biāo)準(zhǔn)注意力機制的高復(fù)雜度成為了關(guān)鍵的延遲瓶頸。
論文提到,理論估計表明,在使用softmax架構(gòu)(一種用于多分類問題的神經(jīng)網(wǎng)絡(luò)架構(gòu))時,注意力計算占解碼64k長度上下文總延遲的70%-80%,這凸顯了對更高效注意力機制的迫切需求。
記者將這一論文提供給DeepSeek,并讓其評價對業(yè)界的影響與意義,DeepSeek稱,這一技術(shù)的核心價值在于平衡效率與性能,既降低計算成本,又保持甚至提升模型能力。對行業(yè)而言,NSA為處理長上下文任務(wù)提供了一種高效的解決方案,有助于推動更強大、更經(jīng)濟的語言模型的發(fā)展,尤其是在需要處理長文本的應(yīng)用場景中。
NSA通過高效的長序列處理能力,使模型能夠直接處理整本書籍、代碼倉庫或多輪對話(如千輪客服場景),擴展了大語言模型在文檔分析、代碼生成、復(fù)雜推理等領(lǐng)域的應(yīng)用邊界。例如,Gemini 1.5 Pro已展示長上下文潛力,NSA可進一步降低此類模型的訓(xùn)練與推理成本。
此外,DeepSeek提到,NSA能夠降低算力門檻與部署成本。端到端稀疏訓(xùn)練可以減少預(yù)訓(xùn)練所需的計算資源(如減少A100 GPU小時數(shù)),降低企業(yè)開發(fā)大模型的資金與技術(shù)門檻。同時,可以加速推理,使長文本生成(如代碼補全、故事續(xù)寫)的實時性更高,適用于邊緣設(shè)備或低延遲場景。
一位X用戶在DeepSeek帖子下表示,“NSA 機制改變了游戲規(guī)則。超快速長上下文訓(xùn)練對于擴大教育領(lǐng)域 AI 至關(guān)重要,這與個性化學(xué)習(xí)愿景完美契合。”還有網(wǎng)友對此調(diào)侃“RIP Nvidia”。
自1月20日發(fā)布DeepSeek-R1并攪動AI圈以來,DeepSeek方面一直較為低調(diào),這是這么多天以來DeepSeek唯一發(fā)布的技術(shù)動態(tài)。
“DeepSeek team is cooking! ”(DeepSeek 團隊正在積極工作?。┯蠿網(wǎng)友表示。
隨著DeepSeek免費開源崛起,數(shù)據(jù)問題成為阻礙大模型落地進程新的攔路虎。很多央企國等大型企業(yè)業(yè)務(wù)數(shù)據(jù)分散且格式多樣,需解決非結(jié)構(gòu)化數(shù)據(jù)的清洗、標(biāo)注和知識化問題。
國合署:打造數(shù)字經(jīng)濟、人工智能等援外新品牌;英特爾新任首席執(zhí)行官計劃對制造和人工智能業(yè)務(wù)進行全面改革;百度文小言全面接入文心最新大模型和DeepSeek。
網(wǎng)信辦印發(fā)《人工智能生成合成內(nèi)容標(biāo)識辦法》;大模型獨角獸智譜完成5億元融資。
“如果一個廠家有太多的學(xué)界、權(quán)威、層級很多,它的研發(fā)效率多半是比較慢的?!?/p>
通過專業(yè)機構(gòu)以DeepSeek為基礎(chǔ)進行ESG垂直模型的訓(xùn)練,是DeepSeek應(yīng)用于ESG領(lǐng)域更為高效的路徑。