分享到微信打開(kāi)微信,點(diǎn)擊底部的“發(fā)現(xiàn)”, |
作為數(shù)據(jù)中心繼CPU和GPU之后的第三顆主力芯片,DPU近年來(lái)熱度持續(xù)提升。
DPU,即數(shù)據(jù)處理器,具備強(qiáng)大網(wǎng)絡(luò)處理能力,以及安全、存儲(chǔ)與網(wǎng)絡(luò)卸載功能,可釋放CPU算力,能夠完成CPU所不擅長(zhǎng)的網(wǎng)絡(luò)協(xié)議處理、數(shù)據(jù)加解密、數(shù)據(jù)壓縮等數(shù)據(jù)處理任務(wù),并對(duì)各類(lèi)資源分別管理、擴(kuò)容、調(diào)度,即處理“CPU做不好,GPU做不了”的任務(wù),實(shí)現(xiàn)數(shù)據(jù)中心降本提效。
在AI時(shí)代,智算中心需要處理的數(shù)據(jù)量井噴,DPU能夠釋放智算中心的有效算力,能夠解決基礎(chǔ)設(shè)施的降本增效問(wèn)題,重要性和滲透率正逐漸提升。
三U一體,更適配智算時(shí)代的解決方案
“DPU這個(gè)概念是四年前被英偉達(dá)炒作起來(lái)的。在收購(gòu)了以色列公司Mellanox后,英偉達(dá)一躍成為業(yè)界首個(gè)既有CPU、GPU,也有DPU的數(shù)據(jù)中心完整解決方案的供應(yīng)商。”芯啟源創(chuàng)辦人盧笙在接受第一財(cái)經(jīng)專(zhuān)訪(fǎng)時(shí)表示,芯啟源是國(guó)內(nèi)最早一批從事DPU研發(fā)的廠(chǎng)商之一,可以追溯到2018年,那個(gè)時(shí)候還稱(chēng)為智能網(wǎng)卡Smartnic。
“過(guò)去承載網(wǎng)絡(luò)傳輸功能的是傳統(tǒng)網(wǎng)卡,后來(lái)誕生了智能網(wǎng)卡,四年前逐步演化為DPU。” 專(zhuān)注于智能計(jì)算芯片研發(fā)設(shè)計(jì)的中科馭數(shù)(北京)科技有限公司高級(jí)副總裁張宇告訴第一財(cái)經(jīng)。
2020年,英偉達(dá)發(fā)布的DPU產(chǎn)品戰(zhàn)略中將其定位為數(shù)據(jù)中心繼CPU和GPU之后的“第三顆主力芯片”,自此引爆了DPU概念。
如今,DPU已成為數(shù)據(jù)中心內(nèi)新興的專(zhuān)用處理器,專(zhuān)門(mén)設(shè)計(jì)用于加速數(shù)據(jù)中心中的安全、網(wǎng)絡(luò)和存儲(chǔ)任務(wù),針對(duì)高帶寬、低延遲的數(shù)據(jù)密集型計(jì)算場(chǎng)景提供動(dòng)力。DPU的核心作用是接管原本由CPU處理的網(wǎng)絡(luò)、存儲(chǔ)、安全和管理等任務(wù),從而釋放CPU資源,并加強(qiáng)數(shù)據(jù)安全與隱私保護(hù)。
“英偉達(dá)所做的智算中心的方案,其實(shí)都是三U一體的。英偉達(dá)三年前的DGX A100服務(wù)器、后面的DGX GH200等一系列,都是包含CPU、GPU和DPU的。當(dāng)然DPU里還有像RDMA這種智能網(wǎng)卡,這些其實(shí)都可以歸為DPU,它們本質(zhì)上是一個(gè)東西。所以從這個(gè)角度看,當(dāng)前行業(yè)內(nèi)引領(lǐng)的,或者說(shuō)大家公認(rèn)的方向,是在智算中心里CPU加GPU加DPU三者協(xié)同。”張宇表示,通用數(shù)據(jù) 中心的方案則更多是CPU加存儲(chǔ)加網(wǎng)絡(luò),一些云原生場(chǎng)景里對(duì)低時(shí)延高吞吐的數(shù)據(jù)網(wǎng)絡(luò)處理也是剛需,智算場(chǎng)景對(duì)網(wǎng)絡(luò)處理性能要求更高。
“如果把CPU比喻為大腦,用于整體控制,那么GPU則更像是肌肉,用于提供堅(jiān)實(shí)的充沛的并行計(jì)算的算力,而DPU則更像是血管和神經(jīng),將GPU需要算的數(shù)據(jù),通過(guò)DPU運(yùn)輸?shù)椒?wù)器中,完成控制指令交換和協(xié)議轉(zhuǎn)換。”張宇稱(chēng)。
“多PU的配合實(shí)際上是整體計(jì)算架構(gòu)的升級(jí),從過(guò)去以通用CPU為主的架構(gòu)走向加速器為主的計(jì)算架構(gòu),通過(guò)CPU、GPU、DPU、NPU等配合來(lái)提升整體計(jì)算方案的性?xún)r(jià)比。”張宇表示,“目前在技術(shù)方面,DPU已經(jīng)逐步趨向成熟,邊界也比較成熟。網(wǎng)絡(luò)安全加解密、零信任、網(wǎng)絡(luò)卸載,已經(jīng)基本上成為了DPU穩(wěn)定承載的功能。”
減少capex投入和能耗,具有一定性?xún)r(jià)比
作為CPU的卸載引擎,DPU最直接的作用是接管網(wǎng)絡(luò)虛擬化、硬件資源池化等基礎(chǔ)設(shè)施層服務(wù),釋放CPU的算力到上層應(yīng)用,因此能夠有效釋放智算中心的算力,提升能效比。
“英偉達(dá)此前承認(rèn)其上一代生成式AI服務(wù)器的算力芯片的效率只有設(shè)計(jì)能力40%,我們測(cè)下來(lái)只有30%多,這意味著大部分算力是被閑置的,究其原因主要是在集群間等待計(jì)算產(chǎn)生的中間變量完成數(shù)據(jù)同步,網(wǎng)絡(luò)通路的能力限制了算力底座的上限,而這恰恰是DPU的真正價(jià)值所在。”盧笙表示,這使得DPU又被推到風(fēng)口浪尖。
在數(shù)據(jù)量爆炸的AI時(shí)代,DPU不僅能夠協(xié)助構(gòu)建兼具低時(shí)延、大帶寬、高速數(shù)據(jù)通路的新型算力底座,還能夠安全高效地調(diào)度、管理、聯(lián)通這些分布式CPU、GPU資源,從而釋放智算中心的有效算力。因此,DPU的部署能夠減少數(shù)據(jù)中心的一次性capex(資本性支出)投入。Cisco(思科)的數(shù)據(jù)顯示,通過(guò)虛擬化技術(shù),企業(yè)可以減少高達(dá)40%的服務(wù)器數(shù)量,同時(shí)提高資源利用率。
另一方面,DPU通過(guò)專(zhuān)用硬件加速網(wǎng)絡(luò)、安全和存儲(chǔ)任務(wù),提高了數(shù)據(jù)中心的能效。
盧笙介紹,以中國(guó)移動(dòng)在浙江省SD-WAN這一個(gè)應(yīng)用場(chǎng)景為例,“通過(guò)芯啟源DPU網(wǎng)卡打造的軟硬件一體化解決方案,實(shí)現(xiàn)了網(wǎng)絡(luò)安全業(yè)務(wù)卸載,相較于傳統(tǒng)純軟件SD-WAN網(wǎng)絡(luò)方案,單機(jī)效率提升了6-8倍,整體項(xiàng)目也節(jié)約了80%的服務(wù)器部署投入和每年的軟件費(fèi)用等,極大降低了CAPEX投入;此外,由于機(jī)器部署減少,數(shù)據(jù)中心的能耗降低,經(jīng)測(cè)算每年可以節(jié)省超300萬(wàn)度電,同時(shí)極大降低了數(shù)據(jù)中心的運(yùn)營(yíng)成本。”
成本方面,第一財(cái)經(jīng)了解到,DPU的研發(fā)和生產(chǎn)成本相對(duì)較高,特別是使用先進(jìn)工藝時(shí),因而價(jià)格較高,但由于部署DPU解決方案,既能夠減少服務(wù)器設(shè)備數(shù)量,也能在后續(xù)運(yùn)行計(jì)算過(guò)程中節(jié)省能耗,因此整體系統(tǒng)成本上仍然具備一定性?xún)r(jià)比,但也要根據(jù)具體場(chǎng)景和應(yīng)用情況來(lái)討論。
未來(lái)三年是商用落地的關(guān)鍵時(shí)期
不過(guò),目前DPU的滲透率提升仍面臨阻力。
專(zhuān)注于硬科技領(lǐng)域早期投資的創(chuàng)投機(jī)構(gòu)中科創(chuàng)星相關(guān)人士告訴第一財(cái)經(jīng),DPU作為軟硬件協(xié)同的虛擬化架構(gòu),需要與CPU中運(yùn)行的虛擬化軟件棧進(jìn)行有效對(duì)接,同時(shí),DPU的硬件設(shè)計(jì)必須考慮到與現(xiàn)有系統(tǒng)的兼容性和集成性;其次,DPU的架構(gòu)和接口尚未形成統(tǒng)一標(biāo)準(zhǔn),不同廠(chǎng)商的產(chǎn)品存在差異,這給用戶(hù)在使用、維護(hù)和升級(jí)時(shí)帶來(lái)挑戰(zhàn);此外,軟件生態(tài)尚未成熟,缺乏完善的開(kāi)發(fā)工具、驅(qū)動(dòng)程序和操作系統(tǒng)支持,“但目前已經(jīng)有公司在做”。
盧笙表示,DPU需要專(zhuān)用的高效指令集,這也是其核心競(jìng)爭(zhēng)力所在,剩下三分之二的工作則是圍繞指令集打造生態(tài),生態(tài)建設(shè)是DPU行業(yè)的核心壁壘,生態(tài)建設(shè)的成熟度決定了產(chǎn)品商業(yè)化落地的速度。
整體來(lái)看,DPU產(chǎn)業(yè)目前仍以國(guó)外企業(yè)為主導(dǎo),三大巨頭英偉達(dá)、博通和英特爾的份額占比較高,亞馬遜、微軟這些科技公司也在跟進(jìn)。國(guó)內(nèi)方面,中國(guó)移動(dòng)、阿里等大企業(yè)也在研發(fā)專(zhuān)用的DPU,初創(chuàng)企業(yè)如芯啟源、中科馭數(shù)、大禹智芯等也取得了相應(yīng)的成果或進(jìn)步。
“國(guó)內(nèi)外的DPU技術(shù)發(fā)展處于同一階段,但國(guó)外企業(yè)積累更深厚一些。在我看來(lái),DPU產(chǎn)業(yè)其實(shí)已經(jīng)逐步走向成熟和快速落地的階段。國(guó)外可能比國(guó)內(nèi)可能走得更早更快一點(diǎn)。”張宇表示。
在DPU商業(yè)化落地方面,目前國(guó)內(nèi)僅有華為、阿里、中興等大型云廠(chǎng)商,以及芯啟源、中科馭數(shù)等少數(shù)DPU新勢(shì)力已實(shí)現(xiàn)商用。信通院預(yù)計(jì),2025年我國(guó)數(shù)據(jù)中心DPU滲透率可達(dá)到12.7%。
張宇認(rèn)為,DPU走到當(dāng)前階段,更重要是與云在IaaS這一層的深度融合,尤其是如何給客戶(hù)提供全面、便捷、透明的純軟件的IaaS方案,使他們能夠平滑地遷移到用DPU來(lái)支撐這種高能效比的云方案。
“這塊的遷移需要行業(yè)的共同努力,并且需要持續(xù)很長(zhǎng)時(shí)間,甚至要以年來(lái)計(jì)。”張宇稱(chēng),“亞馬遜云就走得比較快,他們研發(fā)實(shí)力比較強(qiáng),已經(jīng)完成了IaaS on DPU的轉(zhuǎn)換,但對(duì)國(guó)內(nèi)大部分企業(yè)來(lái)說(shuō),步伐不會(huì)邁得太大,可能會(huì)從最痛的幾個(gè)點(diǎn)先透明地用起來(lái),比如OVS卸載、網(wǎng)絡(luò)升級(jí)等。”
“DPU的商業(yè)化不僅僅依靠于傳統(tǒng)數(shù)據(jù)中心的IaaS領(lǐng)域,也包括網(wǎng)絡(luò)安全、高性能存儲(chǔ)、集群通信等諸多的行業(yè)和領(lǐng)域。”盧笙表示,芯啟源多年來(lái)深耕“DPU for Security”方向,將DPU應(yīng)用于諸如防火墻、安全網(wǎng)關(guān)等產(chǎn)品,目前已進(jìn)入深信服網(wǎng)安產(chǎn)品線(xiàn),成為標(biāo)配擴(kuò)展卡,解決了諸如Intel CPU大象流處理能力不足等業(yè)界難題。
“從目前的產(chǎn)業(yè)發(fā)展趨勢(shì)來(lái)看,如果技術(shù)發(fā)展符合預(yù)期,大概2025-2027年會(huì)有一個(gè)爆發(fā)。”上述中科創(chuàng)星相關(guān)人士表示,原因在于,隨著數(shù)字經(jīng)濟(jì)、AI和云計(jì)算產(chǎn)業(yè)的發(fā)展,服務(wù)器市場(chǎng)會(huì)迎來(lái)一個(gè)增長(zhǎng),尤其是在金融、政府和電力用戶(hù)領(lǐng)域,不僅需要大量的DPU來(lái)處理數(shù)據(jù),提升計(jì)算效率,還需要DPU發(fā)揮安全性的優(yōu)勢(shì)。
“DPU芯片確實(shí)已經(jīng)大規(guī)模應(yīng)用了,目前的增速在每年20%-30%。但DPU的行業(yè)特質(zhì)就是需要保持穩(wěn)定性,需要穩(wěn)定在集群上運(yùn)行幾個(gè)月再擴(kuò)集群。”張宇表示,更重要的一點(diǎn),結(jié)合國(guó)內(nèi)信創(chuàng)行業(yè)的發(fā)展來(lái)看,這兩三年會(huì)是非常關(guān)鍵的時(shí)期,是每家DPU廠(chǎng)商都需要把握好的關(guān)鍵時(shí)間窗口。
“DPU還不是一個(gè)標(biāo)準(zhǔn)化的產(chǎn)品,商業(yè)化上量的過(guò)程需要結(jié)合市場(chǎng)的需求和不同應(yīng)用場(chǎng)景的深入打磨,需要上下游廠(chǎng)家協(xié)同,從幾百片小規(guī)模試點(diǎn)到上萬(wàn)片的大規(guī)模部署需要積跬步至千里。”盧笙表示,DPU的商業(yè)化需要全行業(yè)伙伴共同努力,加強(qiáng)彼此的生態(tài)互信與合作,在國(guó)產(chǎn)化CPU+GPU+DPU的3U一體商業(yè)化之路攜手前行。
微軟對(duì)AI基礎(chǔ)設(shè)施的資本開(kāi)支將大幅增長(zhǎng)。
“我們正在形成一個(gè)面向人工智能的算力中心新生態(tài)?!?/p>
“你從北京清河坐一站火車(chē)到張家口,電費(fèi)是6毛左右;你再坐一站火車(chē),到烏蘭察布電費(fèi)大概能便宜一半?!?/p>
每年“算力券”總額提升至2.5億元,新增“算力券”支持企業(yè)購(gòu)買(mǎi)符合杭州市規(guī)劃布局的智算中心以及納入算力撮合的合作伙伴所供給的智能算力。
支撐模型能力邁進(jìn)的算力系統(tǒng)需要研發(fā)和構(gòu)建