分享到微信打開(kāi)微信,點(diǎn)擊底部的“發(fā)現(xiàn)”, |
第一財(cái)經(jīng) 2024-08-14 09:25:43 聽(tīng)新聞
作者:馮麗君 責(zé)編:黃宇
人工智能(AI)的爆發(fā)帶來(lái)了海量算力需求,而在后摩爾時(shí)代,芯片先進(jìn)制程逼近物理極限,存算一體有望成為未來(lái)重要技術(shù)路線之一。
存算一體,即數(shù)據(jù)存儲(chǔ)與計(jì)算融合在同一個(gè)芯片的同一片區(qū)之中。存算一體架構(gòu)芯片的性能優(yōu)勢(shì)和成本優(yōu)勢(shì)體現(xiàn)在哪些方面?目前大規(guī)模商用面臨哪些挑戰(zhàn)?存算一體會(huì)成為國(guó)內(nèi)芯片產(chǎn)業(yè)換道超車的一種可能嗎?
第一財(cái)經(jīng)近日就上述話題與億鑄科技創(chuàng)始人、董事長(zhǎng)兼CEO熊大鵬進(jìn)行了交流。在他看來(lái),存算一體技術(shù)在未來(lái)計(jì)算領(lǐng)域具有變革性潛力,將打破摩爾定律,開(kāi)啟算力第二增長(zhǎng)曲線。“特別是在AI時(shí)代,這種技術(shù)可能會(huì)成為推動(dòng)算力增長(zhǎng)的關(guān)鍵因素。”
打破馮諾依曼架構(gòu),消除三大難題
在傳統(tǒng)馮諾依曼架構(gòu)下,計(jì)算和存儲(chǔ)功能分別由計(jì)算單元(CPU、GPU等XPU)和存儲(chǔ)單元完成。數(shù)據(jù)從存儲(chǔ)器中獲取,處理完畢后再回到存儲(chǔ)器,從處理單元外的存儲(chǔ)器搬運(yùn)和讀取數(shù)據(jù)所需的時(shí)間往往是運(yùn)算時(shí)間的數(shù)倍,導(dǎo)致計(jì)算效率或有效算力的下降。
“在大模型盛行的今天,為了完成計(jì)算需要搬運(yùn)模型參數(shù),而參數(shù)量很大,所花費(fèi)的時(shí)間占比很高,甚至超過(guò)80%,部分情況下這個(gè)比例更高。因此數(shù)據(jù)帶寬限制了實(shí)際的有效性能,芯片紙面性能可能是一個(gè)P,但實(shí)際性能可能遠(yuǎn)遠(yuǎn)低于這個(gè)數(shù)。這就是所謂的‘存儲(chǔ)墻’。”熊大鵬對(duì)第一財(cái)經(jīng)表示。
伴隨著“存儲(chǔ)墻問(wèn)題”問(wèn)題同時(shí)出現(xiàn)的,是大量能耗消耗在了傳輸過(guò)程中,導(dǎo)致芯片的能效比顯著降低,即“能耗墻”問(wèn)題。
此外,還有“編譯墻”問(wèn)題——即動(dòng)態(tài)數(shù)據(jù)流調(diào)度復(fù)雜,編譯器無(wú)法在靜態(tài)、可預(yù)測(cè)情況下自動(dòng)優(yōu)化算子和可執(zhí)行程序來(lái)實(shí)現(xiàn)數(shù)據(jù)流優(yōu)化,需要依賴手動(dòng)調(diào)優(yōu)等來(lái)達(dá)到較高的有效算力,加大了實(shí)際部署和遷移的時(shí)間和人力成本。“這三點(diǎn)都極大限制了資源日益緊缺、功耗大幅增長(zhǎng)的AI產(chǎn)業(yè)的發(fā)展。”熊大鵬表示。
存算一體技術(shù)則打破馮諾依曼架構(gòu),將存儲(chǔ)功能與計(jì)算功能融合在同一個(gè)芯片上,直接利用存儲(chǔ)單元進(jìn)行數(shù)據(jù)處理——通過(guò)修改“讀”電路的存內(nèi)計(jì)算架構(gòu),可以在“讀”電路中獲取運(yùn)算結(jié)果,并將結(jié)果直接“寫”回存儲(chǔ)器的目的地址,不再需要在計(jì)算單元和存儲(chǔ)單元之間進(jìn)行頻繁的數(shù)據(jù)轉(zhuǎn)移,消除了數(shù)據(jù)搬移帶來(lái)的消耗,極大降低了功耗,大幅提升計(jì)算效率。
“存算一體技術(shù)有望成為后摩爾時(shí)代的重要技術(shù)路線之一。從有效算力的第一性原理來(lái)看,對(duì)于存算一體,數(shù)據(jù)搬運(yùn)量大幅下降,有效算力呈現(xiàn)線性增長(zhǎng)??梢哉f(shuō)存算一體將打破摩爾定律,開(kāi)啟算力第二增長(zhǎng)曲線。同時(shí),相信存算一體技術(shù)在未來(lái)計(jì)算領(lǐng)域的變革性潛力,特別是在AI時(shí)代,這種技術(shù)可能會(huì)成為推動(dòng)算力增長(zhǎng)的關(guān)鍵因素。”熊大鵬稱。
能效比與性價(jià)比更優(yōu)的解決方案
與近期爆火的高帶寬存儲(chǔ)芯片HBM相比,存算一體架構(gòu)芯片的系統(tǒng)能效比和性價(jià)比更優(yōu)。
HBM是一種高性能的內(nèi)存接口技術(shù),主要用于提升GPU和高性能計(jì)算(HPC)系統(tǒng)的數(shù)據(jù)處理能力。這種技術(shù)通過(guò)垂直堆疊DRAM芯片,并使用高速互聯(lián)將它們與處理器緊密連接,從而大幅增加帶寬。
“HBM是解決‘存儲(chǔ)墻’問(wèn)題的有效技術(shù)路線,但需要付出成本和功耗的代價(jià),因?yàn)樘峁┐髱捫枰吖模瑑r(jià)格也非常貴,遠(yuǎn)遠(yuǎn)超過(guò)傳統(tǒng)DRAM的價(jià)格。”熊大鵬表示,“本質(zhì)上來(lái)說(shuō),HBM是一個(gè)存儲(chǔ)芯片,并不具備計(jì)算功能,需要搭配GPGPU等計(jì)算芯片才能夠?qū)崿F(xiàn)計(jì)算功能。”
從系統(tǒng)成本上看,存算一體芯片可能比傳統(tǒng)GPGPU加HBM的組合更低。
一方面緣于存算一體架構(gòu)的算力密度或PPA更高。“存算一體架構(gòu)的等效數(shù)據(jù)帶寬折算下來(lái)遠(yuǎn)遠(yuǎn)超過(guò)HBM,可能是幾倍甚至十倍以上的差距,同時(shí)其算力密度更具優(yōu)勢(shì),實(shí)際有效算力、性價(jià)比、能效比都會(huì)遠(yuǎn)高于GPGPU+HBM方案。”熊大鵬表示。
另一方面,存算一體技術(shù)對(duì)先進(jìn)工藝的依賴相對(duì)較低,而GPGPU和HBM都嚴(yán)重依賴先進(jìn)制程。“HBM依賴先進(jìn)制程,有很大的供應(yīng)鏈風(fēng)險(xiǎn),而采用存算一體技術(shù)路線,即使不采用先進(jìn)制程,比如12nm、22nm,做出來(lái)的性能相比4nm甚至3nm可能并不差,這也是換道超車的概念。”
性價(jià)比方面,盡管存算一體可能需要更多的芯片數(shù)量來(lái)達(dá)到相同性能,但其高性價(jià)比和高能效比是顯著優(yōu)勢(shì)之一。
未來(lái)2-3年或在大模型領(lǐng)域大規(guī)模落地
全球范圍內(nèi)對(duì)存算一體技術(shù)的研究和應(yīng)用正在加速推進(jìn)。
目前,海外采用存算一體路線的大算力芯片企業(yè)包括AI芯片初創(chuàng)企業(yè)Groq,估值超過(guò)28億美元,被視為英偉達(dá)的強(qiáng)勁對(duì)手;d-Matrix則獲得微軟、淡馬錫、三星、Marvell、海力士、愛(ài)立信等多家企業(yè)投資。
此外,三星也已在Nature上發(fā)表了基于MRAM的存內(nèi)計(jì)算研究,并展示其AI算法的高準(zhǔn)確率。SK海力士則推出了基于GDDR接口的DRAM存內(nèi)計(jì)算產(chǎn)品,可大幅提升計(jì)算速度并降低功耗。
“據(jù)我所知,大多數(shù)海外企業(yè)是基于SRAM來(lái)實(shí)現(xiàn)存算一體,但它的容量較低、成本較高。比如Groq的完整解決方案大概需要570多顆芯片,如果采用英偉達(dá)H100所需要的芯片數(shù)量?jī)H在個(gè)位數(shù)。這主要是存儲(chǔ)密度不夠?qū)е碌摹?rdquo;熊大鵬表示,國(guó)內(nèi)有不少新興企業(yè)在存算一體技術(shù)上取得了突破,為中國(guó)芯片產(chǎn)業(yè)換道超車提供了可能性。
不過(guò),存算一體芯片的算力大規(guī)模擴(kuò)展時(shí),還面臨諸多挑戰(zhàn):一是精度不可信的問(wèn)題;二是基于模擬計(jì)算,數(shù)模模數(shù)轉(zhuǎn)換帶來(lái)了能耗、die size和性能的瓶頸;三是AI大模型對(duì)容量有要求。
“全數(shù)字化路徑能夠很好地解決這些問(wèn)題,這也是億鑄科技做AI大算力推理芯片的依據(jù)。”熊大鵬表示。
在一般模擬的存算一體系統(tǒng)中,數(shù)據(jù)以模擬信號(hào)的方式存儲(chǔ),以存儲(chǔ)單元內(nèi)不同的電壓電平來(lái)表示,基于歐姆定律和基爾霍夫定律(Kirchhoff’s Laws)執(zhí)行MAC等運(yùn)算。這種方案的最大問(wèn)題在于精度及其精度的不可信,模擬電路噪聲和各種變量是其中原因。不管是制造工藝還是工作環(huán)境,都會(huì)讓憶阻器代表的數(shù)值有誤差或漂移。數(shù)?;旌戏椒▏L試平衡效率和精度問(wèn)題,但依舊不能保證高精度及其精度可信度。
熊大鵬介紹,億鑄科技的方案是全數(shù)字化存算一體。因?yàn)槭侨珨?shù)字化,數(shù)據(jù)以二進(jìn)制的方式放進(jìn)存儲(chǔ)單元內(nèi),也就只有高低電平、高低電阻、高低電流的區(qū)別,這種情況下就能做到可靠。
此外,存算一體的發(fā)展還面臨著工程落地問(wèn)題。“作為新技術(shù)路線,如何利用現(xiàn)有生態(tài)和融入現(xiàn)有生態(tài),是一個(gè)很大的挑戰(zhàn)??删幊绦院同F(xiàn)有生態(tài)的兼容性至關(guān)重要。”熊大鵬對(duì)第一財(cái)經(jīng)表示。
綜合來(lái)看,存算一體技術(shù)在全球范圍內(nèi)被視為解決高算力需求和高能耗成本矛盾的有效手段,同時(shí)也為中國(guó)芯片產(chǎn)業(yè)提供了一次重要的趕超機(jī)會(huì)。未來(lái)幾年,隨著技術(shù)的不斷成熟和市場(chǎng)需求的增加,存算一體芯片有望在多個(gè)領(lǐng)域得到廣泛應(yīng)用,并推動(dòng)整個(gè)產(chǎn)業(yè)的創(chuàng)新發(fā)展。目前,存算一體芯片在大模型領(lǐng)域的應(yīng)用仍處于開(kāi)發(fā)階段,熊大鵬預(yù)計(jì),在未來(lái)2-3年內(nèi)會(huì)實(shí)現(xiàn)大規(guī)模落地。
家居賣場(chǎng)龍頭居然智家實(shí)控人汪林朋被武漢市江漢區(qū)監(jiān)察委員會(huì)留置,具體原因尚不明。
二季度,在企業(yè)釋放新車補(bǔ)貼、提升配置多元化競(jìng)爭(zhēng)有利因素下,車市有望迎來(lái)新一輪增長(zhǎng)。
人工智能在金融領(lǐng)域的應(yīng)用能夠提升資產(chǎn)管理和風(fēng)險(xiǎn)控制的效率與精度,為金融市場(chǎng)的健康發(fā)展提供技術(shù)支持。
商業(yè)場(chǎng)景創(chuàng)新、全球化布局提速、產(chǎn)業(yè)鏈上下游整合,正成為氫燃料電池企業(yè)的破局密碼。
雖然大眾對(duì)AI燃起的興趣能否很快催生新的商業(yè)模式仍要打個(gè)問(wèn)號(hào),但有業(yè)內(nèi)人士認(rèn)為,至少在端側(cè),AI能力增長(zhǎng)將促使落地案例很快出現(xiàn)。