亚洲中文字乱码免费播放,精品国产日韩专区欧美第一页,亚洲中文有码字幕青青,亚洲综合另类专区在线

          首頁 > 新聞 > 科技

          分享到微信

          打開微信,點擊底部的“發(fā)現”,
          使用“掃一掃”即可將網頁分享至朋友圈。

          DeepSeek發(fā)布最新技術論文,梁文鋒是共創(chuàng)之一

          第一財經 2025-02-18 17:06:32 聽新聞

          作者:劉曉潔    責編:劉佳

          DeepSeek team is cooking!

          2月18日,DeepSeek官方在海外社交平臺X上發(fā)布了一篇純技術論文報告,論文主要內容是關于NSA(Natively Sparse Attention,原生稀疏注意力),官方介紹這是一種用于超快速長文本訓練與推理的、硬件對齊且可原生訓練的稀疏注意力機制。

          具體來說,NSA針對現代硬件進行了優(yōu)化設計,能夠加速推理過程,同時降低預訓練成本,且不犧牲性能。它在通用基準測試、長文本任務和基于指令的推理中均能達到或超越全注意力模型的表現。稀疏注意力為提高效率同時保持模型能力提供了一個有前景的方向。

          記者注意到,在這篇名為《原生稀疏注意力:硬件對齊且可原生訓練的稀疏注意力機制》(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)的論文署名中,DeepSeek創(chuàng)始人梁文鋒也作為共創(chuàng)在列。

          在論文中,DeepSeek團隊表示,業(yè)界越來越認識到長上下文建模對于下一代大型語言模型的重要性,推動這一需求的應用包括深度推理、倉庫級代碼生成和多輪自主代理系統。然而,隨著序列長度的增加,標準注意力機制的高復雜度成為了關鍵的延遲瓶頸。

          論文提到,理論估計表明,在使用softmax架構(‌一種用于多分類問題的神經網絡架構)時,注意力計算占解碼64k長度上下文總延遲的70%-80%,這凸顯了對更高效注意力機制的迫切需求。

          記者將這一論文提供給DeepSeek,并讓其評價對業(yè)界的影響與意義,DeepSeek稱,這一技術的核心價值在于平衡效率與性能,既降低計算成本,又保持甚至提升模型能力。對行業(yè)而言,NSA為處理長上下文任務提供了一種高效的解決方案,有助于推動更強大、更經濟的語言模型的發(fā)展,尤其是在需要處理長文本的應用場景中。

          NSA通過高效的長序列處理能力,使模型能夠直接處理整本書籍、代碼倉庫或多輪對話(如千輪客服場景),擴展了大語言模型在文檔分析、代碼生成、復雜推理等領域的應用邊界。例如,Gemini 1.5 Pro已展示長上下文潛力,NSA可進一步降低此類模型的訓練與推理成本。

          此外,DeepSeek提到,NSA能夠降低算力門檻與部署成本。端到端稀疏訓練可以減少預訓練所需的計算資源(如減少A100 GPU小時數),降低企業(yè)開發(fā)大模型的資金與技術門檻。同時,可以加速推理,使長文本生成(如代碼補全、故事續(xù)寫)的實時性更高,適用于邊緣設備或低延遲場景。

          一位X用戶在DeepSeek帖子下表示,“NSA 機制改變了游戲規(guī)則。超快速長上下文訓練對于擴大教育領域 AI 至關重要,這與個性化學習愿景完美契合。”還有網友對此調侃“RIP Nvidia”。

          自1月20日發(fā)布DeepSeek-R1并攪動AI圈以來,DeepSeek方面一直較為低調,這是這么多天以來DeepSeek唯一發(fā)布的技術動態(tài)。

          “DeepSeek team is cooking! ”(DeepSeek 團隊正在積極工作!)有X網友表示。

          舉報
          第一財經廣告合作,請點擊這里
          此內容為第一財經原創(chuàng),著作權歸第一財經所有。未經第一財經書面授權,不得以任何方式加以使用,包括轉載、摘編、復制或建立鏡像。第一財經保留追究侵權者法律責任的權利。
          如需獲得授權請聯系第一財經版權部:banquan@yicai.com

          文章作者

          一財最熱
          點擊關閉