分享到微信打開(kāi)微信,點(diǎn)擊底部的“發(fā)現(xiàn)”, |
第一財(cái)經(jīng) 2025-02-18 17:06:32 聽(tīng)新聞
作者:劉曉潔 責(zé)編:劉佳
2月18日,DeepSeek官方在海外社交平臺(tái)X上發(fā)布了一篇純技術(shù)論文報(bào)告,論文主要內(nèi)容是關(guān)于NSA(Natively Sparse Attention,原生稀疏注意力),官方介紹這是一種用于超快速長(zhǎng)文本訓(xùn)練與推理的、硬件對(duì)齊且可原生訓(xùn)練的稀疏注意力機(jī)制。
具體來(lái)說(shuō),NSA針對(duì)現(xiàn)代硬件進(jìn)行了優(yōu)化設(shè)計(jì),能夠加速推理過(guò)程,同時(shí)降低預(yù)訓(xùn)練成本,且不犧牲性能。它在通用基準(zhǔn)測(cè)試、長(zhǎng)文本任務(wù)和基于指令的推理中均能達(dá)到或超越全注意力模型的表現(xiàn)。稀疏注意力為提高效率同時(shí)保持模型能力提供了一個(gè)有前景的方向。
記者注意到,在這篇名為《原生稀疏注意力:硬件對(duì)齊且可原生訓(xùn)練的稀疏注意力機(jī)制》(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)的論文署名中,DeepSeek創(chuàng)始人梁文鋒也作為共創(chuàng)在列。
在論文中,DeepSeek團(tuán)隊(duì)表示,業(yè)界越來(lái)越認(rèn)識(shí)到長(zhǎng)上下文建模對(duì)于下一代大型語(yǔ)言模型的重要性,推動(dòng)這一需求的應(yīng)用包括深度推理、倉(cāng)庫(kù)級(jí)代碼生成和多輪自主代理系統(tǒng)。然而,隨著序列長(zhǎng)度的增加,標(biāo)準(zhǔn)注意力機(jī)制的高復(fù)雜度成為了關(guān)鍵的延遲瓶頸。
論文提到,理論估計(jì)表明,在使用softmax架構(gòu)(一種用于多分類問(wèn)題的神經(jīng)網(wǎng)絡(luò)架構(gòu))時(shí),注意力計(jì)算占解碼64k長(zhǎng)度上下文總延遲的70%-80%,這凸顯了對(duì)更高效注意力機(jī)制的迫切需求。
記者將這一論文提供給DeepSeek,并讓其評(píng)價(jià)對(duì)業(yè)界的影響與意義,DeepSeek稱,這一技術(shù)的核心價(jià)值在于平衡效率與性能,既降低計(jì)算成本,又保持甚至提升模型能力。對(duì)行業(yè)而言,NSA為處理長(zhǎng)上下文任務(wù)提供了一種高效的解決方案,有助于推動(dòng)更強(qiáng)大、更經(jīng)濟(jì)的語(yǔ)言模型的發(fā)展,尤其是在需要處理長(zhǎng)文本的應(yīng)用場(chǎng)景中。
NSA通過(guò)高效的長(zhǎng)序列處理能力,使模型能夠直接處理整本書(shū)籍、代碼倉(cāng)庫(kù)或多輪對(duì)話(如千輪客服場(chǎng)景),擴(kuò)展了大語(yǔ)言模型在文檔分析、代碼生成、復(fù)雜推理等領(lǐng)域的應(yīng)用邊界。例如,Gemini 1.5 Pro已展示長(zhǎng)上下文潛力,NSA可進(jìn)一步降低此類模型的訓(xùn)練與推理成本。
此外,DeepSeek提到,NSA能夠降低算力門(mén)檻與部署成本。端到端稀疏訓(xùn)練可以減少預(yù)訓(xùn)練所需的計(jì)算資源(如減少A100 GPU小時(shí)數(shù)),降低企業(yè)開(kāi)發(fā)大模型的資金與技術(shù)門(mén)檻。同時(shí),可以加速推理,使長(zhǎng)文本生成(如代碼補(bǔ)全、故事續(xù)寫(xiě))的實(shí)時(shí)性更高,適用于邊緣設(shè)備或低延遲場(chǎng)景。
一位X用戶在DeepSeek帖子下表示,“NSA 機(jī)制改變了游戲規(guī)則。超快速長(zhǎng)上下文訓(xùn)練對(duì)于擴(kuò)大教育領(lǐng)域 AI 至關(guān)重要,這與個(gè)性化學(xué)習(xí)愿景完美契合。”還有網(wǎng)友對(duì)此調(diào)侃“RIP Nvidia”。
自1月20日發(fā)布DeepSeek-R1并攪動(dòng)AI圈以來(lái),DeepSeek方面一直較為低調(diào),這是這么多天以來(lái)DeepSeek唯一發(fā)布的技術(shù)動(dòng)態(tài)。
“DeepSeek team is cooking! ”(DeepSeek 團(tuán)隊(duì)正在積極工作?。┯蠿網(wǎng)友表示。
“如果一個(gè)廠家有太多的學(xué)界、權(quán)威、層級(jí)很多,它的研發(fā)效率多半是比較慢的?!?/p>
安徽省率先在全國(guó)省級(jí)層面完成DeepSeek滿血版(671B)本地化部署,推出無(wú)差別綜窗、公文寫(xiě)作、語(yǔ)音轉(zhuǎn)文字等16個(gè)典型應(yīng)用,并在全省試用推廣。
通過(guò)專業(yè)機(jī)構(gòu)以DeepSeek為基礎(chǔ)進(jìn)行ESG垂直模型的訓(xùn)練,是DeepSeek應(yīng)用于ESG領(lǐng)域更為高效的路徑。
電力便宜,中國(guó)制造起來(lái)了。AI只有便宜了,才能像電一樣無(wú)處不在。
Manus社交賬號(hào)被凍結(jié),官方回應(yīng)未參與加密貨幣等項(xiàng)目;新開(kāi)普:星普大模型內(nèi)部測(cè)評(píng)智能推理效果與DeepSeek-R1相近,算力消耗約其1/20。