亚洲中文字乱码免费播放,精品国产日韩专区欧美第一页,亚洲中文有码字幕青青,亚洲综合另类专区在线

          首頁 > 新聞 > A股

          分享到微信

          打開微信,點擊底部的“發(fā)現(xiàn)”,
          使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。

          XPU:AI時代與異構(gòu)計算

          第一財經(jīng) 2025-01-17 14:04:26 PDF查看 聽新聞

          責編:黃宇

          2024數(shù)字中國年度報告——AI算力篇

          目錄

          一、引言

          二、CPU

          2.1 AI爆發(fā),推動CPU需求提升

          2.2 CPU指令集架構(gòu)之爭

          2.3主要國產(chǎn)CPU廠商

          三、GPU

          3.1英偉達與CUDA生態(tài)

          3.2國內(nèi)GPU廠商快速發(fā)展

          3.3兼容與自建生態(tài)之路

          四、FPGA

          4.1低時延與靈活性優(yōu)勢

          4.2 AI成增速最快下游應(yīng)用市場

          4.3國產(chǎn)FPGA仍處于0-1階段

          五、ASIC

          5.1 TPU:谷歌定制,能效比突出

          5.2 DPU:CPU和GPU之后的“第三顆主力芯片”

          5.3 NPU:專為AI應(yīng)用而生

          六、AI算力產(chǎn)業(yè)趨勢展望

          七、結(jié)語


          正文

          一、引言

          AI大模型對算力的需求正以指數(shù)級速度增長,推動AI算力平臺從單一的單機計算向集群計算轉(zhuǎn)變。

          作為算力的主要載體,AI芯片在AI時代呈現(xiàn)出強勁的增長勢頭。

          AI 芯片的定義為“專門針對AI算法做了特殊加速設(shè)計的芯片”,按技術(shù)架構(gòu)可以分為通用圖形處理器(GPU)、中央處理器(CPU)、專用集成電路芯片(ASIC)以及現(xiàn)場可編程門陣列(FPGA)等,根據(jù)場景可以分為云端和端側(cè)。

          目前,以GPU為代表的AI計算芯片市場規(guī)模正快速增長。據(jù)Gartner,2023年全球AI GPU芯片市場規(guī)模約為534億美元,預(yù)計2024年同比增速將達25.7%。

          由于AI芯片架構(gòu)眾多,異構(gòu)計算成為AI時代豐富算力需求下的必然選擇。異構(gòu)計算是通過在單一系統(tǒng)中利用不同類型的處理器,如CPU、GPU、ASIC、FPGA等協(xié)同工作,執(zhí)行特定任務(wù),以優(yōu)化性能和效率,更高效地利用不同類型的計算資源,滿足不同的計算需求。

          目前,異構(gòu)計算主要分為三大類:CPU+GPU、CPU+FPGA、CPU+ASIC,其中CPU可執(zhí)行通用AI計算,但其通用架構(gòu)設(shè)計使運行效率受限,因此需要GPU等協(xié)處理器進行大規(guī)模并行計算。GPU是目前商用最廣泛的AI芯片,IDC數(shù)據(jù)顯示,在中國AI芯片市場,GPU占有超過80%的市場份額。

          本報告聚焦構(gòu)成AI算力底座的核心芯片,將從CPU、GPU、FPGA和TPU、NPU、DPU等AISC芯片分別展開,梳理國內(nèi)AI芯片產(chǎn)業(yè)的發(fā)展現(xiàn)狀并探尋各細分領(lǐng)域投資機會。

          二、CPU

          CPU,即中央處理器,常由控制單元、算術(shù)邏輯單元(ALU)和寄存器組成,負責指令讀取、譯碼與執(zhí)行,對研發(fā)技術(shù)和生態(tài)構(gòu)建具有很高要求,對計算機的性能和運行效率具有重要影響。

          作為計算機的運算和控制中心,在AI發(fā)展浪潮下,我國計算機CPU行業(yè)發(fā)展進入“快車道”:智算中心的建設(shè)拉動了服務(wù)器需求,AIPC的更新?lián)Q代也在推動需求增長。

          2.1 AI爆發(fā),推動CPU需求提升

          CPU作為服務(wù)器的核心部件,其性能和功耗直接影響著服務(wù)器的整體表現(xiàn)。AI大模型快速發(fā)展背景下下,智能算力需求爆發(fā),AI服務(wù)器出貨量的增長將帶動云端CPU需求。

          根據(jù)TrendForce數(shù)據(jù),2023年全球AI服務(wù)器(包含搭載GPU、FPGA、ASIC等)出貨量近120萬臺,年增38.4%,占整體服務(wù)器出貨量近9%,預(yù)計至2026年將占15%,2022~2026年全球AI服務(wù)器(包含搭載AI訓練、推論用的GPU、FPGA、ASIC等加速芯片)出貨量年復(fù)合增長率預(yù)計達29%。

          在PC市場,2024年是公認的AIPC元年,AIPC有望帶動新一輪換機潮。業(yè)內(nèi)認為,當前AIPC的發(fā)展,類似早期Windows系統(tǒng)的發(fā)展,未來有望復(fù)制Windows系統(tǒng)的成功。

          Canalys預(yù)計,2024年全球PC出貨量為2.67億臺,同比增長7.6%,其中AIPC出貨量在2000萬臺左右;2027年,將有60%的電腦具備AI處理能力,AIPC出貨量將超過1.75億臺。

          根據(jù)中商產(chǎn)業(yè)研究院數(shù)據(jù),2024年中國CPU市場規(guī)模約為2326億元。而大模型掀起的AI浪潮,不僅拉動了CPU的需求增長,也對CPU的功能提出了更高的要求。

          “很多AI應(yīng)用其實可以用不同的XPU處理單元進行計算,CPU的編程更靈活,算子加速可以通過通用的編譯器處理,相比NPU更通用、更靈活。”此芯科技生態(tài)戰(zhàn)略總經(jīng)理周杰此前告訴第一財經(jīng),此芯科技的Armv9 CPU包含向量擴展指令加速,能夠更好地幫助在端側(cè)運行大語言模型,最新的iPhone 16系列也對CPU進行了升級,包含了矩陣運算指令加速,以更好地支持那些基于CPU的Apple Intelligence應(yīng)用。”

          2.2 CPU指令集架構(gòu)之爭

          芯片架構(gòu)是設(shè)計和構(gòu)建微處理器或其他集成電路的基礎(chǔ),定義了芯片的組織結(jié)構(gòu)、功能單元、數(shù)據(jù)流以及指令集等關(guān)鍵特性。指令集架構(gòu)則是芯片架構(gòu)中最頂層的設(shè)計,定義了計算機硬件能夠執(zhí)行的所有指令的集合,是計算機系統(tǒng)設(shè)計中的核心部分,對上層軟件和下層硬件都具有重要影響。

          根據(jù)設(shè)計原則的不同,指令集架構(gòu)主要分為兩大陣營:復(fù)雜指令集計算(CISC)和精簡指令集計算(RISC),并由此衍生出x86、ARM、RISC-V等指令集架構(gòu)。

          X86由Intel推出,屬于CISC設(shè)計,擁有豐富的指令集,支持多種尋址模式和復(fù)雜的操作。目前搭載x86架構(gòu)指令集的處理器主要應(yīng)用在PC和服務(wù)器上。由于Intel嚴格把控專利授權(quán),因此x86市場基本被Intel壟斷。

          在服務(wù)器市場,x86是CPU的主流架構(gòu)。根據(jù)IDC數(shù)據(jù),2023年x86架構(gòu)服務(wù)器市場份額為88%,中國x86服務(wù)器市場出貨量為362萬臺,預(yù)計2024年還將增長5.7%。

          Arm架構(gòu)基于RISC設(shè)計,Arm內(nèi)核微架構(gòu)IP選擇多樣、設(shè)計精簡可靠、在低功耗領(lǐng)域表現(xiàn)優(yōu)異。Arm的商業(yè)模式是專注處理器內(nèi)核架構(gòu)的授權(quán),而不直接設(shè)計、制造芯片,中立的地位使得Arm通過授權(quán)廣泛推廣了生態(tài)系統(tǒng)。據(jù)悉,目前Arm架構(gòu)在以移動終端芯片(手機平板等)、機頂盒、視頻監(jiān)控等為代表的移動智能領(lǐng)域獲得廣泛應(yīng)用。

          整體看,目前云端服務(wù)器多采用X86架構(gòu),邊緣側(cè)采用Arm架構(gòu),但近年來格局也在發(fā)生改變,Arm架構(gòu)逐漸向服務(wù)器領(lǐng)域滲透。“現(xiàn)在全球很多互聯(lián)網(wǎng)廠商都開始用Arm架構(gòu)來設(shè)計自己的服務(wù)器芯片,比如亞馬遜、谷歌、微軟等,以及國內(nèi)的阿里。”周杰對第一財經(jīng)表示。此外,AIPC搭載NPU,Arm架構(gòu)或更具優(yōu)勢。Arm CEO Rene Haas在COMPUTEX 2024上表示,Arm預(yù)計將五年內(nèi)拿下Windows PC市場50%以上的份額。

          開放精簡指令集架構(gòu)RISC-V近年來也開始興起。RISC-V完全開源,采用寬松的BSD協(xié)議,企業(yè)可以完全自由免費使用,同時也允許企業(yè)添加自有指令集,而不必開放共享,以支持差異化發(fā)展;同時架構(gòu)簡單,短小精悍,不同的部分還能以模塊化的方式組成在一起,從而通過一套統(tǒng)一架構(gòu)滿足各種不同應(yīng)用場景。據(jù)了解,目前國內(nèi)多家初創(chuàng)企業(yè)開始用RISC-V進行芯片設(shè)計。SHD Group預(yù)計,2030年基于RISC-V的SoC營收有望高達920億美元,2021-2030年復(fù)合年增長率高達47%。

          “RISC-V架構(gòu)目前更多應(yīng)用在一些固定場景,比如IoT設(shè)備等,但它對于通用生態(tài)的支持,比如PC、服務(wù)器領(lǐng)域,需要更多的資源投入和研發(fā)支持。”周杰告訴第一財經(jīng)。

          此外,也有部分企業(yè)自研指令集。龍芯中科(688047.SH)2023年在MIPS架構(gòu)的基礎(chǔ)上,宣布獨立研發(fā)出具有完全自主產(chǎn)權(quán)的Loong Arch架構(gòu),申威基于Alpha架構(gòu)研發(fā)出SW64架構(gòu)。

          “生態(tài)是一個很重要的問題,X86的生態(tài)無疑是最成熟的,Arm架構(gòu)生態(tài)也越來越成熟。”周杰表示,“自研架構(gòu)的生態(tài)相比X86和Arm架構(gòu)生態(tài),會有一定的差距。如果需要支持更通用的生態(tài),整個產(chǎn)業(yè)鏈上下游就需要很多投入,比如各個軟件廠商需要去適配自研架構(gòu),并進行相關(guān)軟件優(yōu)化。”

          2.3主要國產(chǎn)CPU廠商

          市場格局來看,目前Intel、AMD領(lǐng)跑通用CPU市場。

          根據(jù)CPU市場追蹤機構(gòu)Mercury Research的報告,2024年第二季度,Intel在全球PC市場占據(jù)78.9%的市場份額,AMD市占率為占據(jù)21.1%;在服務(wù)器CPU市場,Intel市占率高達75.9%,AMD為24.1%。

          國產(chǎn)CPU廠商分為三大流派:一是自研架構(gòu),如前文所述的龍芯和申威;二是使用Arm架構(gòu),如中國長城(000066.SZ)子公司飛騰、華為海思;三是使用X86架構(gòu),上海兆芯和海光信息(688041.SH)均使用X86架構(gòu)。

          與GPU相比,國內(nèi)CPU的發(fā)展則更為成熟。根據(jù)頭豹研究院數(shù)據(jù),2022年中國CPU國產(chǎn)化率為30%-40%。同時,中國CPU國產(chǎn)化率還在不斷提升,在最近的運營商集采中,國產(chǎn)CPU比例接近70%。

          隨著信創(chuàng)的持續(xù)推進,國產(chǎn)CPU或?qū)@得較大的增長空間。Canalys數(shù)據(jù)顯示,2023年中國政府及教育部門的PC采購量達到272萬臺,占到全國出貨量的6%。2024年3月,中央政府采購網(wǎng)發(fā)布公告稱,在采購計算機時應(yīng)當將CPU、操作系統(tǒng)符合安全可靠測評要求納入采購需求。Canalys認為,上述六家都屬于符合該公告中國產(chǎn)CPU條件的品牌。

          “產(chǎn)業(yè)正在努力推進先進制造工藝和上游EDA工具發(fā)展,這些都對芯片產(chǎn)品的競爭力產(chǎn)生很大影響。”周杰稱,“結(jié)合國內(nèi)目前的產(chǎn)業(yè)現(xiàn)狀,設(shè)計出一款芯片問題不大,關(guān)鍵是設(shè)計出來之后,一是怎么生產(chǎn),二是如何建立一個好的生態(tài),幫助開發(fā)者和終端用戶比較好地用起來,這一點尤為重要,也是公司核心能力的體現(xiàn)。”

          三、GPU

          GPU,即圖形處理單元,是計算機顯卡的核心。

          與CPU相比,GPU的邏輯運算單元較少,單個運算單元(ALU)處理能力更弱,但能夠?qū)崿F(xiàn)多個ALU并行計算。同樣運行3000次的簡單運算,CPU由于串行計算,需要3000個時鐘周期,而配有3000個ALU的GPU運行只需要1個時鐘周期。

          不過,GPU處理并行計算并不是作為一個獨立的計算平臺,而是與CPU通過PCIe總線連接在一起來協(xié)同工作,可視為CPU的協(xié)處理器。

          作為計算機的圖形處理以及并行計算內(nèi)核,GPU最基本的功能是圖形顯示和分擔CPU的計算量,主要可以分為圖形圖像渲染計算GPU和運算協(xié)作處理器GPGPU(通用計算圖形處理器),后者去掉或減弱GPU的圖形顯示能力,將其余部分全部投入通用計算,實現(xiàn)處理人工智能、專業(yè)計算等加速應(yīng)用。本報告主要討論的也是后者。

          由于GPU擁有數(shù)千個ALU,能夠并行執(zhí)行數(shù)百萬個數(shù)學運算,因此GPU與深度學習技術(shù)完美契合,使用GPU做輔助計算,能夠更快地提高AI的性能。CPU+GPU成為了目前應(yīng)用最廣泛的算力底座。

          根據(jù)中商產(chǎn)業(yè)研究院數(shù)據(jù),2023年中國GPU市場規(guī)模為807億元,同比增長32.78%,預(yù)計2024年將增至1073億元,2020-2024年復(fù)合增長率(CAGR)達32.8%。而據(jù)智研咨詢,全球人工智能GPU市場2020-2024年CAGR也將達到30.73%。

          3.1英偉達與CUDA生態(tài)

          “GPU的核心競爭力在于架構(gòu)等因素決定的性能先進性和計算生態(tài)壁壘。”華安嘉業(yè)相關(guān)負責人此前告訴第一財經(jīng)。

          一方面,性能先進性體現(xiàn)在高精度浮點計算能力。訓練需要密集的計算得到模型,沒有訓練,就不可能會有推理。而訓練需要更高的精度,一般來說需要float型,如FP32,32位的浮點型來處理數(shù)據(jù)。

          另一方面,生態(tài)也是GPU發(fā)展需要解決的問題。

          根據(jù)調(diào)研機構(gòu)TechInsights數(shù)據(jù),2023年全球數(shù)據(jù)中心GPU總出貨量達到了385萬顆,相比2022年的267萬顆增長了44.2%。其中,英偉達以98%的市場份額穩(wěn)居第一,出貨量達376萬塊,銷售額同比增長超42%。

          眾所周知,英偉達憑借先發(fā)優(yōu)勢,以及大幅降低開發(fā)門檻的CUDA架構(gòu),穩(wěn)穩(wěn)圈住了大批用戶,不僅使GPU在通用計算中逐漸成為主角,也成就了自身的護城河。

          2007年,英偉達首次推出通用并行計算架構(gòu)CUDA(Compute Unified Device Architecture,統(tǒng)一計算設(shè)備架構(gòu)),使GPU成為通用并行數(shù)據(jù)處理加速器,即GPGPU。CUDA 支持 Windows、Linux、MacOS 三種主流操作系統(tǒng),支持CUDA C語言和OpenCL及CUDA Fortran語言。

          CUDA 架構(gòu)不用再像過去GPU架構(gòu)那樣將通用計算映射到圖形API(應(yīng)用程序編程接口)中,大大降低了CUDA 的開發(fā)門檻。因此,CUDA推出后發(fā)展迅速,廣泛應(yīng)用于石油勘測、天文計算、流體力學模擬、分子動力學仿真、生物計算、圖像處理、音視頻編解碼等領(lǐng)域。

          這為英偉達拿下GPU過半市場份額奠定了基礎(chǔ)。此后,英偉達通用計算架構(gòu)持續(xù)升級迭代,2010年發(fā)布Fermi架構(gòu),2012年發(fā)布Kepler架構(gòu),GPU在通用計算中逐漸成為主角。

          AI 芯片應(yīng)用生態(tài)非長期研發(fā)和迭代更新不能解決。英偉達早在CUDA問世之初就開始生態(tài)建設(shè),AMD和Intel也推出了自研生態(tài)ROCm和one API,但CUDA憑借先發(fā)優(yōu)勢早已站穩(wěn)腳跟。為解決應(yīng)用問題,AMD和Intel通過工具將CUDA代碼轉(zhuǎn)換成自己的編程模型,從而實現(xiàn)針對 CUDA 環(huán)境的代碼編譯。

          但中信證券表示,由于CUDA的閉源特性,以及快速的更新,后來者很難通過指令翻譯等方式完美兼容,即使部分兼容也會有較大的性能損失,導(dǎo)致在性價比上持續(xù)落后英偉達。同時,CUDA畢竟是英偉達的專屬軟件棧,包含了許多英偉達GPU硬件的專有特性,這部分在其他廠商的芯片上并不能得到體現(xiàn)。

          這正是國內(nèi)廠商面臨的困境。2024年初,英偉達宣布禁止在其他GPU上通過轉(zhuǎn)譯層運行CUDA軟件的消息引起業(yè)內(nèi)廣泛討論。“在工具鏈層面兼容CUDA的GPU廠商會受到影響,但影響本身在技術(shù)層面還是比較復(fù)雜的。英偉達其實發(fā)出了一個非常強烈的信號,就是他正在扎緊自己生態(tài)的籬笆。”某GPU業(yè)內(nèi)人士對第一財經(jīng)表示。

          3.2國內(nèi)GPU廠商加速發(fā)展

          當前國內(nèi)GPU廠商紛紛大力投入研發(fā)迭代架構(gòu),謀求構(gòu)建自主軟硬件生態(tài)。

          華為可謂國內(nèi)GPU產(chǎn)業(yè)發(fā)展的引領(lǐng)者,近年來華為在昇騰AI系列芯片迭代、自主可控產(chǎn)能提升方面取得了長足進展。根據(jù)《2023智能算力發(fā)展白皮書》,假設(shè)到2025年我國智能算力規(guī)模至少要達到900EFlops,預(yù)計昇騰市占率將達到30%,昇騰910B算力相當于A100(FP16約300Tflops),平均價格為12萬元,開源證券保守估計昇騰910B累計市場空間為1080億元。

          海光信息(688041.SH)的DCU也屬于GPU的一種,其DCU協(xié)處理器全面兼容ROCm GPU計算生態(tài)。據(jù)悉,ROCm和CUDA在生態(tài)、編程環(huán)境等方面高度相似,CUDA用戶可以以較低代價快速遷移至ROCm平臺,因此ROCm也被稱為“類CUDA”,主要部署在服務(wù)器集群或數(shù)據(jù)中心,為應(yīng)用程序提供高性能、高能效比的算力,支撐高復(fù)雜度和高吞吐量的數(shù)據(jù)處理任務(wù)。

          根據(jù)官網(wǎng)描述,寒武紀(688256.SH)首款云端訓練芯片思元290實現(xiàn)了INT8算力512TOPS,而在研的第五代智能處理器微架構(gòu)對推薦系統(tǒng)和大語言模型訓練推理場景進行了重點優(yōu)化,在編程靈活性、能效、功耗、面積等方面大幅提升了產(chǎn)品競爭力。

          半導(dǎo)體初創(chuàng)企業(yè)中,燧原科技、芯瞳半導(dǎo)體、芯動科技、摩爾線程、天數(shù)智芯、壁仞科技等均已陸續(xù)推出產(chǎn)品。據(jù)悉,2020年開始,國內(nèi)GPU行業(yè)融資環(huán)境有較大改善,初創(chuàng)公司遍地開花。

          摩爾線程成立于2020年,是一家以全功能GPU芯片設(shè)計為主的集成電路企業(yè)。該公司推出了全面對標CUDA的MUSA架構(gòu),用戶能夠?qū)UDA寫的應(yīng)用程序通過摩爾線程的編譯器重新編譯成MUSA的應(yīng)用,從而實現(xiàn)接近零成本遷移,同時也能夠通過標準編程語言開發(fā)新的應(yīng)用。“MUSA本身是一套獨立自主的生態(tài),同時也是個開放的、可以吸收現(xiàn)有生態(tài)的全新生態(tài)。”摩爾線程CTO張鈺勃告訴第一財經(jīng)。

          燧原科技專注于人工智能領(lǐng)域云端和邊緣算力產(chǎn)品,致力于為通用人工智能打造算力底座,提供原始創(chuàng)新、具備自主知識產(chǎn)權(quán)的AI加速卡、系統(tǒng)集群和軟硬件解決方案。

          3.3兼容與自建生態(tài)之路

          國產(chǎn)算力芯片如果從“能用”變成“好用”,仍需投入大量研發(fā)成本和時間。華安嘉業(yè)上述負責人對第一財經(jīng)表示,國產(chǎn)GPU在起步階段兼容現(xiàn)有生態(tài)更容易發(fā)展,但長期還是要擺脫兼容思路,發(fā)展自有核心技術(shù)。

          “我們經(jīng)常講兼容,但兼容不代表要和英偉達做得完全一樣,而是說你做的東西可以去承載所有技術(shù)的生態(tài),可以把英偉達的生態(tài)吸收過來、直接利用。但要做功能全面對標英偉達的GPU芯片難度很大,目前大多數(shù)廠商采取的策略是僅實現(xiàn)英偉達GPU人工智能加速的部分功能。”張鈺勃表示。

          “獨立自主和開放兼容并不矛盾。我們一方面可以獨立自主發(fā)展實現(xiàn)可控,一方面也可以開放兼容現(xiàn)有CUDA優(yōu)勢。”張鈺勃告訴第一財經(jīng),“只有硬件功能完全對標,才能夠有效地把CUDA生態(tài)的應(yīng)用吸收過來。如果沒有辦法吸收現(xiàn)有生態(tài),另建一個新生態(tài),真要建成也是十幾二十年的事。”

          客戶遷移成本是推動國產(chǎn)GPU廠商加速生態(tài)建設(shè)的重要因素之一。目前,國內(nèi)也存在一些堅持“難而正確”理念的廠商,選擇了自建生態(tài)、不兼容的道路,燧原科技就是其一。

          對于這類算力廠商來說,客戶遷移成本始終存在,因此需要尋找志同道合的客戶。“燧原希望與產(chǎn)業(yè)合作伙伴一起構(gòu)建一個開放開源的生態(tài)系統(tǒng),我們的客戶也愿意跟那些有長期主義的合作伙伴一起去打磨產(chǎn)品。”燧原科技首席生態(tài)官李星宇此前告訴第一財經(jīng)。

          據(jù)悉,隨著技術(shù)的發(fā)展,國內(nèi)廠商的自建生態(tài)之路有望越走越寬。

          “技術(shù)生態(tài)的范式轉(zhuǎn)移,給像燧原這樣的初創(chuàng)公司自建生態(tài)帶來一個新的契機。”李星宇認為,隨著大模型時代的到來,模型的架構(gòu)底座趨向于一致,即Transformer,這收斂了對于硬件的需求,讓硬件設(shè)計的方向更加聚焦和明確,減輕了碎片化程度;與此同時,越來越流行的開源框架和編程語言,讓芯片公司有更好的基礎(chǔ)去適配不同模型,讓開發(fā)者更容易在開發(fā)工具層面去適配不同的硬件。

          “客戶的遷移成本取決于很多因素,但整體的趨勢是越來越便捷。”李星宇表示,“比如說我們兼容PyTorch的主流算子,采用這些主流算子的模型理論上可以直接遷移而不需要改源代碼。同時未來我們也會支持更多主流的開源編程語言,讓客戶開發(fā)新的模型時,也會變得更加容易。”

          雖然目前國內(nèi)有多家AI芯片廠商選擇自建生態(tài),但并未形成統(tǒng)一生態(tài),各家正處于跑馬圈地、各自發(fā)展的時期。誠然,在技術(shù)發(fā)展的早期和技術(shù)快速迭代的時期,很難制定一套統(tǒng)一的標準。正如海外GPU發(fā)展的早期,行業(yè)存在四十多家企業(yè),但大浪淘沙后,僅留存幾家企業(yè)做大做強。在快速變化的技術(shù)趨勢面前,每個人都有自己不同的理解,讓市場去選擇,讓客戶去選擇,可能是一個更好的方式。

          “技術(shù)的提升最終是靠市場和客戶的需求牽引,中國真正的優(yōu)勢在于擁有全球最大的市場,以及眾多開發(fā)者愿意去擁抱新技術(shù)。”李星宇表示。

          四、FPGA

          FPGA,即現(xiàn)場可編程門陣列,是在硅片上預(yù)先設(shè)計實現(xiàn)的具有可編程特性的集成電路,用戶在使用過程中可以通過軟件重新配置芯片內(nèi)部的資源實現(xiàn)不同功能,因此具有優(yōu)越的靈活性,能夠滿足不同場景的應(yīng)用需求。

          4.1低時延與靈活性優(yōu)勢

          相比CPU,F(xiàn)PGA具備兩大性能優(yōu)勢,一是優(yōu)越的靈活性,二是低時延處理。

          FPGA 芯片類似于集成電路中的積木,用戶可根據(jù)各自的需求和想法,將其拼搭成不同的功能、特性的電路結(jié)構(gòu),以滿足不同場景的應(yīng)用需求。GPU在設(shè)計完成后無法改動硬件資源,而 FPGA根據(jù)特定應(yīng)用對硬件進行編程,更具靈活性。機器學習使用多條指令平行處理單一數(shù)據(jù),F(xiàn)PGA 的定制化能力更能滿足精確度較低、分散、非常規(guī)深度神經(jīng)網(wǎng)絡(luò)計算需求。

          時延方面,CPU為了保證最大程度的通用性和復(fù)雜任務(wù)的處理,引入了指令集和對應(yīng)的取指譯碼操作,而FPGA在設(shè)計時就相當于預(yù)先指定了指令,無需像CPU一樣進行Fetch(取指)-Decode(譯碼),可以直接進入相當于CPU的Excecute(執(zhí)行)的環(huán)節(jié)。同時,F(xiàn)PGA采用高并行架構(gòu),數(shù)十萬個 CLB 可以同步執(zhí)行?,F(xiàn)代CPU雖然有多個ALU(核心計算單元)以完成并行計算,但在并行度上仍然不如有數(shù)十萬個CLB的FPGA。

          此外,對于現(xiàn)代CPU為了提升并行度增加的模塊,比如BranchPrediction(分支預(yù)測),Out-of-orderExecution(亂序執(zhí)行),調(diào)度(Scheduler),F(xiàn)PGA都不需要,因此FPGA完成指令所花費的時鐘周期要遠小于CPU。

          在高并行計算中,F(xiàn)PGA的時延優(yōu)勢更突出。比如,在完成雷達波束賦形這一高并行算法時,使用XilinxVirtex7(FPGA)時延僅需3.3ms,而且時鐘頻率僅需125MHz,系統(tǒng)功耗僅為75W,而使用ARMA9(CPU)在667MHz的時鐘頻率下依然需要250ms才能完成,而且系統(tǒng)功耗高至1400W。

          4.2 AI成增速最快下游應(yīng)用市場

          低延時與靈活性優(yōu)勢造就了FPGA廣闊的下游市場。東興證券研報稱,2022年FPGA全球市場空間超80億美元,其中大部分需求來自于電信、工業(yè)、數(shù)據(jù)中心&AI、國防&航空航天四大領(lǐng)域,2028年將增長至接近200億美元,2022年~2028年CAGR超15%,由中國市場引領(lǐng)增長。

          據(jù)Marketsandmarkets數(shù)據(jù),2022年中國FPGA市場規(guī)模約為16億美元,隨著AI&數(shù)據(jù)中心、電信、國防&航空航天、汽車市場對FPGA的需求日益增長,預(yù)計2028年規(guī)模約為45億美元,2022年~2028年復(fù)合增速18%,高于全球其他地區(qū)。

          FPGA在數(shù)據(jù)中心&AI領(lǐng)域是重要的計算芯片類別,可以作為異構(gòu)計算的關(guān)鍵一環(huán),起到加速計算的作用。根據(jù)東興證券的測算,2028年FPGA在全球AI領(lǐng)域應(yīng)用的市場規(guī)模將達到35億美元,占比逾15%,2022年~2028年CAGR為18%,是增速最快的細分領(lǐng)域。

          具體來看,F(xiàn)PGA 在數(shù)據(jù)中心&AI 的增長驅(qū)動力主要來自于低時延推理的需求。

          FPGA的高并行、低時延、低功耗的特性特別適合需要實時推理的場景。例如,YOLO(Youonlylookonce)是目前最重要的實時目標檢測算法,使用賽靈思(Xilinx)的ZynqUltraScale+MPSoC(某個FPGA方案),可以在約18ms的時延完成YOLOv5(第五代YOLO算法),而使用Zynq7100(另一種FPGA方案)則可實現(xiàn)壓縮后的YOLOv7模型(第七代YOLO算法),在30幀率下實現(xiàn)小于33ms(15ms)的低時延推理。此外,F(xiàn)PGA在數(shù)據(jù)中心常用于計算加速,比如云計算的加速實例、金融的高頻/低時延的交易系統(tǒng)處理。FPGA還廣泛應(yīng)用于數(shù)據(jù)中心的互聯(lián)、存儲控制系統(tǒng)。

          4.3國產(chǎn)FPGA仍處于0-1階段

          目前,全球FPGA 市場按制程可大致分為三類:90nm以上,主要用于高可靠的航天應(yīng)用;20-90 nm,主要用于國防、航空航天、汽車、消費電子等領(lǐng)域;≤16nm以下。其中,14/16nm FPGA 主要應(yīng)用在電信領(lǐng)域的基帶單元和有線網(wǎng)絡(luò),汽車領(lǐng)域的激光雷達,工業(yè)中的安防和儀器儀表等,7nm FPGA 則主要應(yīng)用在數(shù)據(jù)中心加速計算。

          制程競爭是貫穿FPGA發(fā)展歷史的競爭主線,制程領(lǐng)先后則具備先發(fā)優(yōu)勢,占據(jù)更多市場份額和盈利空間,是FPGA市場份額最直接的決定因素。因此FPGA市場高度集中,龍頭賽靈思(Xilinx)占據(jù)過半份額,前四名玩家合計份額超90%。在數(shù)據(jù)中心和AI加速計算領(lǐng)域,賽靈思占據(jù)絕對性份額。

          而國內(nèi)廠商在應(yīng)用于數(shù)據(jù)中心&AI領(lǐng)域的高端FPGA市場仍處在從0到1階段。國內(nèi)FPGA廠商不僅需要硬件架構(gòu)的創(chuàng)新,還需要EDA軟件和自研IP能力的提升,以及更完善的國產(chǎn)應(yīng)用生態(tài)培養(yǎng)。

          五、ASIC

          ASIC,Application Specific Integrated Circuit,即專用集成電路芯片,是一種為了專門目的或算法而設(shè)計的芯片。

          ASIC芯片的架構(gòu)并不固定,既有較為簡單的網(wǎng)卡芯片,用于控制網(wǎng)絡(luò)流量,滿足防火墻需求等,也有類似于谷歌TPU等的頂尖AI芯片。只要是為了某一類算法或某一類用戶需求而去專門設(shè)計的芯片,都可以稱之為ASIC。

          相比能夠運行各種應(yīng)用程序的GPU和能夠在制造后重新編程以執(zhí)行不同任務(wù)的FPGA,ASIC需要定制設(shè)計,靈活性較差。但由于ASIC是為了某一類需求和算法而設(shè)計的芯片,因此其在特定應(yīng)用中表現(xiàn)出色,性能明顯優(yōu)于其他芯片。

          2023年,數(shù)據(jù)中心定制加速計算芯片(ASIC)規(guī)模約66億美元,在AI加速計算芯片市場占有率較低,為16%。業(yè)內(nèi)預(yù)計,AI ASIC芯片成長空間廣闊,未來增速有望超過通用加速計算芯片。Marvell稱,2028年定制芯片規(guī)模有望超400億美元,CAGR達45%,而通用加速計算芯片2028年預(yù)計達到1716億美元市場規(guī)模,CAGR為32%。

          目前,ASIC芯片根據(jù)運算類型主要分為TPU、DPU和NPU,分別對應(yīng)不同的基礎(chǔ)計算功能。

          TPU即為谷歌發(fā)明的AI處理器,主要支持張量計算,DPU則是用于數(shù)據(jù)中心內(nèi)部的加速計算,NPU則是對應(yīng)了上一輪AI熱潮中的CNN神經(jīng)卷積算法,后被大量集成進了邊緣設(shè)備的處理芯片中。

          5.1 TPU:谷歌定制,能效比突出

          TPU,即張量處理單元,屬于ASIC的一種,是谷歌專門為加速深層神經(jīng)網(wǎng)絡(luò)運算能力而研發(fā)的一款芯片,為機器學習領(lǐng)域而定制。

          與傳統(tǒng)CPU、GPU架構(gòu)不同,TPU的MXU設(shè)計采用了脈動陣列(systolic array)架構(gòu),數(shù)據(jù)流動呈現(xiàn)出周期性的脈沖模式,類似于心臟跳動的供血方式。

          CPU與GPU在每次運算中需要從多個寄存器中進行存??;而TPU的脈動陣列將多個ALU串聯(lián)在一起,復(fù)用從一個寄存器中讀取的結(jié)果。

          相比于CPU、GPU,TPU在機器學習任務(wù)中因高能效脫穎而出,其中TPU v1在神經(jīng)網(wǎng)絡(luò)性能上最大可達同時期CPU的71倍、GPU的2.7倍。

          華福證券認為,與英偉達GPU相比,在算力上,谷歌TPU目前暫時落后一代,在性能功耗比上谷歌優(yōu)勢顯著。

          根據(jù)Capvision,谷歌TPU70%-80%的算力用于內(nèi)部業(yè)務(wù)場景使用,剩余20%-30%以租賃方式供外部使用。隨著TPUv4于2021年推出和大型語言模型的出現(xiàn),谷歌芯片業(yè)務(wù)的規(guī)模顯著增加,2023年TPU出貨量已突破200萬顆量級。

          5.2 DPU:CPU和GPU之后的“第三顆主力芯片”

          DPU,即數(shù)據(jù)處理器,具備強大網(wǎng)絡(luò)處理能力,以及安全、存儲與網(wǎng)絡(luò)卸載功能,可釋放CPU算力,能夠完成CPU所不擅長的網(wǎng)絡(luò)協(xié)議處理、數(shù)據(jù)加解密、數(shù)據(jù)壓縮等數(shù)據(jù)處理任務(wù),并對各類資源分別管理、擴容、調(diào)度,實現(xiàn)數(shù)據(jù)中心降本提效。即處理“CPU做不好,GPU做不了”的任務(wù)。

          在AI時代,智算中心需要處理的數(shù)據(jù)量井噴,DPU能夠釋放智算中心的有效算力,能夠解決基礎(chǔ)設(shè)施的降本增效問題,重要性和滲透率正逐漸提升。中國信通院預(yù)計,未來全球DPU市場規(guī)模仍將保持30%的復(fù)合增速,2025年全球DPU市場規(guī)模將接近150億美元。

          5.2.1三U一體,更適配智算時代的解決方案

          “DPU這個概念是四年前被英偉達炒作起來的。在收購了以色列公司Mellanox后,英偉達一躍成為業(yè)界首個既有CPU、GPU,也有DPU的數(shù)據(jù)中心完整解決方案的供應(yīng)商。”芯啟源創(chuàng)辦人盧笙在接受第一財經(jīng)專訪時表示,芯啟源是國內(nèi)最早一批從事DPU研發(fā)的廠商之一,可以追溯到2018年,那個時候還稱為智能網(wǎng)卡Smartnic。

          “過去承載網(wǎng)絡(luò)傳輸功能的是傳統(tǒng)網(wǎng)卡,后來誕生了智能網(wǎng)卡,四年前逐步演化為DPU。” 專注于智能計算芯片研發(fā)設(shè)計的中科馭數(shù)(北京)科技有限公司高級副總裁張宇告訴第一財經(jīng)。

          2020年,英偉達發(fā)布的DPU產(chǎn)品戰(zhàn)略中將其定位為數(shù)據(jù)中心繼CPU和GPU之后的“第三顆主力芯片”,自此引爆了DPU概念。

          如今,DPU已成為數(shù)據(jù)中心內(nèi)新興的專用處理器,專門設(shè)計用于加速數(shù)據(jù)中心中的安全、網(wǎng)絡(luò)和存儲任務(wù),針對高帶寬、低延遲的數(shù)據(jù)密集型計算場景提供動力。DPU的核心作用是接管原本由CPU處理的網(wǎng)絡(luò)、存儲、安全和管理等任務(wù),從而釋放CPU資源,并加強數(shù)據(jù)安全與隱私保護。

          “英偉達所做的智算中心的方案,其實都是三U一體的。英偉達三年前的DGX A100服務(wù)器、后面的DGX GH200等一系列,都是包含CPU、GPU和DPU的。當然DPU里還有像RDMA這種智能網(wǎng)卡,這些其實都可以歸為DPU,它們本質(zhì)上是一個東西。所以從這個角度看,當前行業(yè)內(nèi)引領(lǐng)的,或者說大家公認的方向,是在智算中心里CPU加GPU加DPU三者協(xié)同。”張宇表示,通用數(shù)據(jù) 中心的方案則更多是CPU加存儲加網(wǎng)絡(luò),一些云原生場景里對低時延高吞吐的數(shù)據(jù)網(wǎng)絡(luò)處理也是剛需,智算場景對網(wǎng)絡(luò)處理性能要求更高。

          “如果把CPU比喻為大腦,用于整體控制,那么GPU則更像是肌肉,用于提供堅實的充沛的并行計算的算力,而DPU則更像是血管和神經(jīng),將GPU需要算的數(shù)據(jù),通過DPU運輸?shù)椒?wù)器中,完成控制指令交換和協(xié)議轉(zhuǎn)換。”張宇稱。

          “多PU的配合實際上是整體計算架構(gòu)的升級,從過去以通用CPU為主的架構(gòu)走向加速器為主的計算架構(gòu),通過CPU、GPU、DPU、NPU等配合來提升整體計算方案的性價比。”張宇表示,“目前在技術(shù)方面,DPU已經(jīng)逐步趨向成熟,邊界也比較成熟。網(wǎng)絡(luò)安全加解密、零信任、網(wǎng)絡(luò)卸載,已經(jīng)基本上成為了DPU穩(wěn)定承載的功能。”

          5.2.2減少capex投入和能耗,具有一定性價比

          作為CPU的卸載引擎,DPU最直接的作用是接管網(wǎng)絡(luò)虛擬化、硬件資源池化等基礎(chǔ)設(shè)施層服務(wù),釋放CPU的算力到上層應(yīng)用,因此能夠有效釋放智算中心的算力,提升能效比。

          “英偉達此前承認其上一代生成式AI服務(wù)器的算力芯片的效率只有設(shè)計能力40%,我們測下來只有30%多,這意味著大部分算力是被閑置的,究其原因主要是在集群間等待計算產(chǎn)生的中間變量完成數(shù)據(jù)同步,網(wǎng)絡(luò)通路的能力限制了算力底座的上限,而這恰恰是DPU的真正價值所在。”盧笙表示,這使得DPU又被推到風口浪尖。

          在數(shù)據(jù)量爆炸的AI時代,DPU不僅能夠協(xié)助構(gòu)建兼具低時延、大帶寬、高速數(shù)據(jù)通路的新型算力底座,還能夠安全高效地調(diào)度、管理、聯(lián)通這些分布式CPU、GPU資源,從而釋放智算中心的有效算力。因此,DPU的部署能夠減少數(shù)據(jù)中心的一次性capex(資本性支出)投入。Cisco(思科)的數(shù)據(jù)顯示,通過虛擬化技術(shù),企業(yè)可以減少高達40%的服務(wù)器數(shù)量,同時提高資源利用率。

          另一方面,DPU通過專用硬件加速網(wǎng)絡(luò)、安全和存儲任務(wù),提高了數(shù)據(jù)中心的能效。

          盧笙介紹,以中國移動在浙江省SD-WAN這一個應(yīng)用場景為例,“通過芯啟源DPU網(wǎng)卡打造的軟硬件一體化解決方案,實現(xiàn)了網(wǎng)絡(luò)安全業(yè)務(wù)卸載,相較于傳統(tǒng)純軟件SD-WAN網(wǎng)絡(luò)方案,單機效率提升了6-8倍,整體項目也節(jié)約了80%的服務(wù)器部署投入和每年的軟件費用等,極大降低了CAPEX投入;此外,由于機器部署減少,數(shù)據(jù)中心的能耗降低,經(jīng)測算每年可以節(jié)省超300萬度電,同時極大降低了數(shù)據(jù)中心的運營成本。”

          成本方面,第一財經(jīng)了解到,DPU的研發(fā)和生產(chǎn)成本相對較高,特別是使用先進工藝時,因而價格較高,但由于部署DPU解決方案,既能夠減少服務(wù)器設(shè)備數(shù)量,也能在后續(xù)運行計算過程中節(jié)省能耗,因此整體系統(tǒng)成本上仍然具備一定性價比,但也要根據(jù)具體場景和應(yīng)用情況來討論。

          5.2.3未來三年是商用落地的關(guān)鍵時期

          不過,目前DPU的滲透率提升仍面臨阻力。

          專注于硬科技領(lǐng)域早期投資的創(chuàng)投機構(gòu)中科創(chuàng)星相關(guān)人士告訴第一財經(jīng),DPU作為軟硬件協(xié)同的虛擬化架構(gòu),需要與CPU中運行的虛擬化軟件棧進行有效對接,同時,DPU的硬件設(shè)計必須考慮到與現(xiàn)有系統(tǒng)的兼容性和集成性;其次,DPU的架構(gòu)和接口尚未形成統(tǒng)一標準,不同廠商的產(chǎn)品存在差異,這給用戶在使用、維護和升級時帶來挑戰(zhàn);此外,軟件生態(tài)尚未成熟,缺乏完善的開發(fā)工具、驅(qū)動程序和操作系統(tǒng)支持,“但目前已經(jīng)有公司在做”。

          盧笙表示,DPU需要專用的高效指令集,這也是其核心競爭力所在,剩下三分之二的工作則是圍繞指令集打造生態(tài),生態(tài)建設(shè)是DPU行業(yè)的核心壁壘,生態(tài)建設(shè)的成熟度決定了產(chǎn)品商業(yè)化落地的速度。

          整體來看,DPU產(chǎn)業(yè)目前仍以國外企業(yè)為主導(dǎo),三大巨頭英偉達、博通和英特爾的份額占比較高,亞馬遜、微軟這些科技公司也在跟進。國內(nèi)方面,中國移動、阿里等大企業(yè)也在研發(fā)專用的DPU,初創(chuàng)企業(yè)如芯啟源、中科馭數(shù)、大禹智芯等也取得了相應(yīng)的成果或進步。

          “國內(nèi)外的DPU技術(shù)發(fā)展處于同一階段,但國外企業(yè)積累更深厚一些。在我看來,DPU產(chǎn)業(yè)其實已經(jīng)逐步走向成熟和快速落地的階段。國外可能比國內(nèi)可能走得更早更快一點。”張宇表示。

          在DPU商業(yè)化落地方面,目前國內(nèi)僅有華為、阿里、中興等大型云廠商,以及芯啟源、中科馭數(shù)等少數(shù)DPU新勢力已實現(xiàn)商用。信通院預(yù)計,2025年我國數(shù)據(jù)中心DPU滲透率可達到12.7%。

          張宇認為,DPU走到當前階段,更重要是與云在IaaS這一層的深度融合,尤其是如何給客戶提供全面、便捷、透明的純軟件的IaaS方案,使他們能夠平滑地遷移到用DPU來支撐這種高能效比的云方案。

          “這塊的遷移需要行業(yè)的共同努力,并且需要持續(xù)很長時間,甚至要以年來計。”張宇稱,“亞馬遜云就走得比較快,他們研發(fā)實力比較強,已經(jīng)完成了IaaS on DPU的轉(zhuǎn)換,但對國內(nèi)大部分企業(yè)來說,步伐不會邁得太大,可能會從最痛的幾個點先透明地用起來,比如OVS卸載、網(wǎng)絡(luò)升級等。”

          “DPU的商業(yè)化不僅僅依靠于傳統(tǒng)數(shù)據(jù)中心的IaaS領(lǐng)域,也包括網(wǎng)絡(luò)安全、高性能存儲、集群通信等諸多的行業(yè)和領(lǐng)域。”盧笙表示,芯啟源多年來深耕“DPU for Security”方向,將DPU應(yīng)用于諸如防火墻、安全網(wǎng)關(guān)等產(chǎn)品,目前已進入深信服網(wǎng)安產(chǎn)品線,成為標配擴展卡,解決了諸如Intel CPU大象流處理能力不足等業(yè)界難題。

          “從目前的產(chǎn)業(yè)發(fā)展趨勢來看,如果技術(shù)發(fā)展符合預(yù)期,大概2025-2027年會有一個爆發(fā)。”上述中科創(chuàng)星相關(guān)人士表示,原因在于,隨著數(shù)字經(jīng)濟、AI和云計算產(chǎn)業(yè)的發(fā)展,服務(wù)器市場會迎來一個增長,尤其是在金融、政府和電力用戶領(lǐng)域,不僅需要大量的DPU來處理數(shù)據(jù),提升計算效率,還需要DPU發(fā)揮安全性的優(yōu)勢。

          “DPU芯片確實已經(jīng)大規(guī)模應(yīng)用了,目前的增速在每年20%-30%。但DPU的行業(yè)特質(zhì)就是需要保持穩(wěn)定性,需要穩(wěn)定在集群上運行幾個月再擴集群。”張宇表示,更重要的一點,結(jié)合國內(nèi)信創(chuàng)行業(yè)的發(fā)展來看,這兩三年會是非常關(guān)鍵的時期,是每家DPU廠商都需要把握好的關(guān)鍵時間窗口。

          “DPU還不是一個標準化的產(chǎn)品,商業(yè)化上量的過程需要結(jié)合市場的需求和不同應(yīng)用場景的深入打磨,需要上下游廠家協(xié)同,從幾百片小規(guī)模試點到上萬片的大規(guī)模部署需要積跬步至千里。”盧笙表示,DPU的商業(yè)化需要全行業(yè)伙伴共同努力,加強彼此的生態(tài)互信與合作,在國產(chǎn)化CPU+GPU+DPU的3U一體商業(yè)化之路攜手前行。

          5.2.4國內(nèi)DPU產(chǎn)業(yè)蓄勢待發(fā)

          “好消息是中國廠商和國際廠商都在同一起跑線上。”盧笙表示,隨著需求增長,中國市場本身體量很大,同時國家大力推進數(shù)字經(jīng)濟,這都給中國廠商發(fā)展提供了很好的土壤。

          盧笙認為,中國廠商在DPU領(lǐng)域能夠脫穎而出的最大優(yōu)勢在于中國數(shù)字經(jīng)濟的應(yīng)用場景走在世界前列,比如隨處可見的移動支付等。

          國內(nèi)DPU產(chǎn)業(yè)亦蓄勢待發(fā),除了云廠商外,芯啟源、中科馭數(shù)、星云智聯(lián)、大禹智芯等企業(yè)紛紛入局。

          5.3 NPU:專為AI應(yīng)用而生

          NPU,即神經(jīng)網(wǎng)絡(luò)處理單元,用于高效執(zhí)行神經(jīng)網(wǎng)絡(luò)的計算,通常具有優(yōu)化的硬件架構(gòu),如向量處理單元、矩陣乘法單元、卷積單元和激活函數(shù)單元等,能夠在硬件級別上執(zhí)行大規(guī)模矩陣運算和卷積運算,以提高神經(jīng)網(wǎng)絡(luò)計算效率。

          當前各類AI算法主要利用深度神經(jīng)網(wǎng)絡(luò)等算法模擬人類神經(jīng)元和突觸,NPU能夠?qū)崿F(xiàn)更高效率、更低能耗處理人工神經(jīng)網(wǎng)絡(luò)、隨機森林等機器學習算法和深度學習模型。如今,多家手機廠商已搭載NPU,AIPC也將通過“CPU+NPU+GPU”打造本地混合計算。

          5.3.1 NPU高效能、低功耗、更擅長推理

          “相比于CPU和GPU,NPU的優(yōu)勢在于高效能、低功耗、易于編程、降低了開發(fā)門檻,同時支持多種語言和框架方便開發(fā)者進行模型開發(fā)和部署。”IDC中國分析師杜昀龍告訴第一財經(jīng)。

          NPU采用“數(shù)據(jù)驅(qū)動并行計算”的架構(gòu),在電路層模擬人類神經(jīng)元和突觸,特別擅長處理視頻、圖像類的海量多媒體數(shù)據(jù)。區(qū)別于CPU、GPU所遵循的馮諾依曼架構(gòu),NPU能夠通過突觸權(quán)重實現(xiàn)存儲計算一體化,提高運行效率,因此比GPU更擅長推理。且NPU芯片設(shè)計邏輯更為簡單,在處理推理工作負載時具有顯著的能耗節(jié)約優(yōu)勢。

          杜昀龍認為,缺少像英偉達GPU那樣完善的生態(tài)環(huán)境是目前NPU滲透率提升最大的瓶頸。據(jù)IDC數(shù)據(jù),2022年中國實現(xiàn)數(shù)據(jù)中心計算加速仍以GPU為主,NPU占比僅12%,但較以往明顯增長。

          5.3.2 NPU更適合端側(cè)、邊緣側(cè)部署

          如今,大模型已進入輕量化時代,端側(cè)AI應(yīng)用正加速落地,商湯(00020.HK)曾在2023年年報中表示,2024年將是端側(cè)大模型應(yīng)用的爆發(fā)之年。商湯聯(lián)合創(chuàng)始人、首席科學家王曉剛解釋稱,成本、數(shù)據(jù)傳輸延遲、數(shù)據(jù)安全與隱私等幾個重要問題,都可以通過端側(cè)AI或云端結(jié)合來解決。

          與云側(cè)不同的是,端側(cè)對于功耗更加敏感,對低功耗芯片的需求更明顯。因此,隨著人工智能應(yīng)用場景陸續(xù)落地,NPU易開發(fā)、高效能、低功耗等優(yōu)勢逐漸突顯。業(yè)內(nèi)普遍認為,在大算力需求爆發(fā)下,云側(cè)的算力需求將傳遞至端側(cè)。目前,實現(xiàn)智能終端算力的最常用方式是在SoC芯片中內(nèi)置NPU模塊。

          “NPU是專門為AI應(yīng)用而設(shè)計的芯片,目前看NPU通常用于邊緣側(cè)和端側(cè)場景更多,比如人臉識別、人臉解鎖、影像處理等。”杜昀龍表示。

          “大模型部署到端側(cè)時,對芯片的算力、存儲、數(shù)據(jù)傳輸都有明確要求,要求這些芯片能更好地支持Transformer、Diffusion等架構(gòu)。”王曉剛對第一財經(jīng)表示。

          相比于在云端用GPU部署Transformer大模型,在邊緣側(cè)、端側(cè)部署Transformer的最大挑戰(zhàn)來自于功耗。因此在端側(cè)和邊緣側(cè),GPU并非最合適的架構(gòu)。

          “Transformer是現(xiàn)在所有大模型的基礎(chǔ),它本身的基礎(chǔ)架構(gòu)也是固定的,在這種基礎(chǔ)最原子層架構(gòu)固定的情況下,DSA(專用領(lǐng)域架構(gòu)處理器)架構(gòu)是比GPU更優(yōu)的架構(gòu)。對于AI推理芯片,尤其是在邊緣側(cè)、端側(cè)部署的推理芯片來說,DSA架構(gòu)芯片的運算效率、能量消耗優(yōu)于GPU。”國內(nèi)AI算力公司愛芯元智創(chuàng)始人、董事長仇肖莘表示。

          NPU就是基于DSA領(lǐng)域?qū)S眉軜?gòu)技術(shù)的處理器,同時比GPU更擅長推理,且芯片設(shè)計邏輯更為簡單,具有能耗節(jié)約優(yōu)勢,因此NPU可以作為在AI計算效率和功耗之間的平衡方案。

          “NPU跟CPU、GPU一樣,都是整個計算架構(gòu)的一部分,是計算架構(gòu)里邊異構(gòu)的處理器,用以實現(xiàn)不同的功能。GPU原來是專門為圖形渲染做的,更像是張量計算使用的一個處理器,而NPU更像是一個原生的AI計算處理器,CPU則是另外一個處理器,這三個處理器加起來構(gòu)成了AI的一個計算底座。”仇肖莘在接受第一財經(jīng)專訪時表示,“實際上,NPU在GPU的基礎(chǔ)上更近了一步,它的靈活性不如GPU,但它的好處是能效比非常高,更適合邊緣側(cè)、端側(cè)。”

          5.3.3 NPU滲透率提升,成本是關(guān)鍵

          NPU適合廣泛部署在端側(cè)、邊緣側(cè)的重要原因,也在于端側(cè)與邊緣側(cè)需要性價比,需要在成本可控的前提下提供AI能力。仇肖莘認為,如何以低成本的NPU去實現(xiàn)AI的價值,是實現(xiàn)AI普惠的關(guān)鍵。

          “現(xiàn)在自動駕駛很火熱,但一個顯而易見的問題是,到底有多少車能夠用得起這個功能?如果一套解決方案花費在1萬元人民幣,可能10萬元以下的車就用不起;如果能夠把它的整個成本降到5000元以下,或者3000元,占整車成本的比例就會低很多,普及也會更快一些。”仇肖莘稱,現(xiàn)在有一些高端手機和新出的AIPC已經(jīng)搭載了NPU,但價格確實比較貴,要把NPU的成本降下來,需要達成規(guī)模效應(yīng),現(xiàn)在量沒有起來確實很難降價。

          仇肖莘認為,從今年開始,NPU的需求,或者說端側(cè)AI芯片的需求會是一個快速上漲的趨勢。“從我們自己客戶的需求來看,他們的預(yù)測都會比原來更高。”

          5.3.4國產(chǎn)芯片廠商大力布局

          目前,國內(nèi)芯片廠商正奮力自研NPU,以迎接AI浪潮。以阿里平頭哥為代表的芯片公司已推出面向數(shù)據(jù)中心AI應(yīng)用的人工智能推理芯片,其NPU含光800已成功應(yīng)用在數(shù)據(jù)中心、邊緣服務(wù)器等場景。

          NPU IP方面,芯原股份(688521.SH)2016年通過對圖芯美國的收購,獲得了圖形處理器(GPU)IP,在此基礎(chǔ)上自主開發(fā)出了NPU IP。芯原股份此前告訴第一財經(jīng),目前,在AIoT領(lǐng)域,公司用于人工智能的神經(jīng)網(wǎng)絡(luò)處理器IP已經(jīng)被50多家客戶的100多款芯片所采用,被用在物聯(lián)網(wǎng)、可穿戴設(shè)備、安防監(jiān)控、服務(wù)器、汽車電子等10個應(yīng)用領(lǐng)域。

          六、AI算力產(chǎn)業(yè)趨勢展望

          本報告所討論的CPU、GPU、FPGA、ASIC芯片,提供了當前階段的主要AI算力。但AI大算力底座的構(gòu)成并不局限于上述芯片,還包括存儲器等存力芯片、接口芯片等運力芯片、服務(wù)器等硬件集成、交換機等硬件設(shè)備、數(shù)據(jù)中心運維、通信網(wǎng)絡(luò)傳輸?shù)?,總之,AI算力發(fā)展需要全產(chǎn)業(yè)鏈的共同進步。

          第一財經(jīng)在與產(chǎn)業(yè)人士、機構(gòu)投資者、第三方分析機構(gòu)等交流探討上述AI芯片的發(fā)展現(xiàn)狀過程中,發(fā)現(xiàn)了部分行業(yè)趨勢,主要有以下幾點:

          第一,AI推理環(huán)節(jié),F(xiàn)PGA和ASIC或能爭奪更多市場。

          異構(gòu)計算趨勢下,GPU仍是當前除CPU外商用最廣泛的AI芯片。這主要是由于CPU難以高效率地勝任多個復(fù)雜的并行計算任務(wù),需要GPU等AI芯片輔助完成部分任務(wù)。GPU作為CPU的協(xié)處理器,至今已能夠在性能、成本等方面具備優(yōu)勢,更重要的是,英偉達打造的CUDA生態(tài),讓其GPU產(chǎn)品擁有較為完善的生態(tài)環(huán)境,這些都推動了GPU的商業(yè)化。

          相比GPU,F(xiàn)PGA、ASIC在性能和效率上更具優(yōu)勢,但成本更高,尤其是高端FPGA更依賴于先進制程,因此廣泛商用仍需一定時日。

          值得注意的是,CPU和GPU都屬于馮諾依曼架構(gòu),計算和存儲功能分別由芯片和存儲器完成,數(shù)據(jù)從存儲器中獲取,處理完畢后再回到存儲器,從處理單元外的存儲器提取數(shù)據(jù)所需的時間往往是運算時間的成百上千倍,即存在“存儲墻”限制。而FPGA和ASIC卻沒有這樣的限制。

          因此,GPU不適合用于AI推理。當前動輒千億參數(shù)的AI大模型需要千卡、萬卡集群算力進行訓練,而在后續(xù)的AI大模型應(yīng)用階段,AI推理將成主戰(zhàn)場,F(xiàn)PGA和ASIC或許能獲得更多市場。

          第二,存算一體或成為AI時代新選擇。

          FPGA、ASIC類似于GPU的大規(guī)模商用仍待時日,在此期間,配合GPU的廣泛應(yīng)用,存力與運力也在快速發(fā)展。

          2024年初,搭載在高端AI服務(wù)器配合GPU的HBM(High Band width Memory,高帶寬存儲器)爆火。HBM擁有超高帶寬,主要緣于其將原本在PCB板上的DDR內(nèi)存顆粒和GPU芯片同時集成到SiP封裝中,使內(nèi)存更加靠近GPU,即“近存計算”。隨著存算技術(shù)的發(fā)展,未來存內(nèi)計算、存內(nèi)邏輯,即“存算一體”,有望成為AI時代的新選擇。

          存算一體是在存儲器中嵌入計算能力,以新的運算架構(gòu)進行二維和三維矩陣乘法/加法運算。其中存內(nèi)計算的計算操作由位于存儲芯片內(nèi)部的獨立計算單元完成,存儲和計算可以是模擬的也可以是數(shù)字的,一般用于算法固定的場景算法計算;存內(nèi)邏輯通過在內(nèi)部存儲中添加計算邏輯,直接在內(nèi)部存儲執(zhí)行數(shù)據(jù)計算,這種架構(gòu)數(shù)據(jù)傳輸路徑最短,同時能滿足大模型的計算精度要求。

          此外,AI服務(wù)器內(nèi)存和硬盤也在迭代升級,已開始搭配最先進的DDR5、LPDDR5、SSD等存儲。

          第三,異構(gòu)計算時代,先進封裝戰(zhàn)略地位將突顯。

          摩爾定律已逼近物理極限,先進封裝成為系統(tǒng)級解決方案,戰(zhàn)略地位將不斷凸顯。

          AI芯片就融合了多種先進封裝技術(shù),HBM應(yīng)用TSV堆疊技術(shù)獲得超高帶寬,而為了將HBM和GPU集成,CoWoS封裝技術(shù)被深度開發(fā)。CoWoS是英偉達選擇的主流封裝技術(shù),能夠以合理的成本提供最高的互連密度和最大的封裝尺寸。人工智能加速芯片可能用到的Chiplet技術(shù)也依賴于先進封裝。

          半導(dǎo)體產(chǎn)業(yè)鏈中,我國封測環(huán)節(jié)發(fā)展已較為成熟,長電科技(600584.SH)、通富微電(002156.SZ)等企業(yè)近年來不斷加深對先進封裝的布局。

          第四,國產(chǎn)AI芯片廠商亟待構(gòu)筑護城河。

          技術(shù)不斷迭代且流片成本高昂的芯片行業(yè)存在明顯的“二八定律”。

          “芯片行業(yè)有一個非常明顯的特點,它會有一個體量巨大的老大和一個還活得不錯的老二,剩下的全都會死。”某AI算法上市公司高管此前告訴第一財經(jīng),“因為芯片的主要原材料是沙子,難的是工藝。換句話說,流水線一旦啟動,造一顆芯片和造100萬顆芯片的價格不會相差很多,所以出貨量大的企業(yè)才能盈利。很多芯片創(chuàng)業(yè)公司的經(jīng)營狀況不好,這是符合市場規(guī)律的,他們需要在殘酷的市場競爭中最少變成老二。”

          因此,先發(fā)優(yōu)勢是芯片廠商構(gòu)筑核心壁壘的關(guān)鍵因素之一,在某個細分領(lǐng)域站穩(wěn)腳跟后迭代下一代產(chǎn)品,憑借生態(tài)和口碑建立起用戶習慣,后來者分羹的難度會越來越大,英偉達就是最好的案例。

          近年我國支持自主可控的氛圍濃厚,無論是政策端還是產(chǎn)業(yè)下游客戶,都在積極配合半導(dǎo)體產(chǎn)業(yè)鏈上游和中游,國內(nèi)廠商亟待借力政策和產(chǎn)業(yè)東風,加速構(gòu)筑自身護城河。

          第五,國內(nèi)AI芯片生態(tài)構(gòu)建將加速。

          正如英偉達憑借CUDA占據(jù)全球GPU的絕對份額,英特爾憑借X86的成熟生態(tài)占據(jù)服務(wù)器CPU的絕對份額,國內(nèi)AI芯片廠商也在加速自研和生態(tài)構(gòu)建之路,如兼容CUDA的海光信息、摩爾線程等,自研架構(gòu)搭建生態(tài)的華為、燧原科技等。

          其中,華為正在通過CANN和AscendCL構(gòu)建國產(chǎn)GPU軟件生態(tài)。CANN是華為為AI場景設(shè)計的異構(gòu)計算架構(gòu),旨在為開發(fā)者提供高效、靈活且易于使用的工具和服務(wù),以便在華為昇騰AI硬件上開發(fā)和部署各種人工智能應(yīng)用。CANN對上支持多種AI框架,對下服務(wù)AI處理器與編程,這意味著無論使用哪種AI框架,CANN都能提供支持。

          軟件生態(tài)建設(shè)非一日之功。隨著政策支持下國產(chǎn)硬件數(shù)量的增加,軟件開發(fā)商將更積極地為這些平臺開發(fā)應(yīng)用,從而豐富軟件生態(tài),形成硬件發(fā)展與促進軟件生態(tài)的良性循環(huán)。

          七、結(jié)語

          整體來看,我國AI芯片產(chǎn)業(yè)發(fā)展仍將面臨多重阻力,一方面,上游EDA工具、IP、晶圓代工廠的制程進度等,給AI芯片設(shè)計廠商帶來制約;另一方面,國外企業(yè)憑借先發(fā)優(yōu)勢、技術(shù)優(yōu)勢、生態(tài)配套及用戶習慣已占據(jù)大部分市場份額,國內(nèi)廠商在打開下游市場時面臨諸多挑戰(zhàn),在產(chǎn)品研發(fā)上也需要考慮兼容路徑。

          不過,中國市場規(guī)模龐大,技術(shù)與生態(tài)百花齊放,且政策扶持力度大,產(chǎn)業(yè)鏈配合積極度高,未來隨著先進封裝、存算一體等技術(shù)的發(fā)展,推理芯片的大規(guī)模運用,中國AI芯片廠商有望走出自己的發(fā)展壯大之路。


          本報告參考資料

          [1] AI智算時代已至,算力芯片加速升級-中航證券

          [2]電子行業(yè)“FPGA五問五答”系列報告三:FPGA在各行業(yè)究竟用在哪里?未來哪個下游最有機會?-東興證券

          [3] TPU:為更專用的AI計算而生-華福證券

          [4]計算機行業(yè):重視AI芯片配套的軟件生態(tài)-國泰君安

          [5] FPGA國產(chǎn)化龍頭,鳳凰天地闊,涅槃終有時-德邦證券

          [6]計算機行業(yè)算力知識普惠系列一:AI芯片的基礎(chǔ)關(guān)鍵參數(shù)-天風證券

          [7]海外科技行業(yè):算力需求高增,AI ASIC突圍在即-國泰君安

          [8]計算機行業(yè)深度研究報告:業(yè)績拐點已至,安全可控進入新發(fā)展周期-華創(chuàng)證券

          數(shù)據(jù)說明

          數(shù)據(jù)|案例|觀點來源

          如無特殊說明,報告中數(shù)據(jù)和內(nèi)容均來自第一財經(jīng)的調(diào)研、采訪及公開資料。

          版權(quán)聲明

          本報告頁面內(nèi)容、頁面設(shè)計的所有內(nèi)容(包括但不限于文字、圖片、圖表、標志、標識、商標、商號等)版權(quán)均歸上海第一財經(jīng)傳媒有限公司(以下簡稱“我司”)所有。凡未經(jīng)我司書面授權(quán),任何單位或個人不得復(fù)制、轉(zhuǎn)載、重制、修改、展示;不得以任何形式提供給第三方使用本報告的部分或全部內(nèi)容。任何單位或個人違反前述規(guī)定的,均屬于侵犯我司知識產(chǎn)權(quán)的行為,我司將追究其法律責任,并根據(jù)實際情況追究侵權(quán)者賠償責任。

          免責聲明

          本報告中所載的內(nèi)容、資料及相關(guān)數(shù)據(jù)來源,均被視為最初發(fā)布當日作者的判斷,并不保證本報告中的內(nèi)容及觀點在將來不會發(fā)生任何變更。我們力求但不保證本報告所涉及信息的準確性和完整性。報告中所表述的觀點、信息,在任何情況下、對任何人不構(gòu)成投資建議。在任何情況下,任何人因使用本報告中的內(nèi)容所引致的后果應(yīng)自行承擔責任。

          舉報
          第一財經(jīng)廣告合作,請點擊這里
          此內(nèi)容為第一財經(jīng)原創(chuàng),著作權(quán)歸第一財經(jīng)所有。未經(jīng)第一財經(jīng)書面授權(quán),不得以任何方式加以使用,包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。第一財經(jīng)保留追究侵權(quán)者法律責任的權(quán)利。 如需獲得授權(quán)請聯(lián)系第一財經(jīng)版權(quán)部:021-22002972或021-22002335;banquan@yicai.com。
          一財最熱
          點擊關(guān)閉