分享到微信打開(kāi)微信,點(diǎn)擊底部的“發(fā)現(xiàn)”, |
第一財(cái)經(jīng)2025-02-05 15:54:28
作者:下午市場(chǎng)零距離 責(zé)編:張慜愷
春節(jié)期間,DeepSeek 成為了主導(dǎo)海外市場(chǎng)的關(guān)鍵詞。蛇年第一個(gè)交易日,DeepSeek 繼續(xù)節(jié)前的活躍態(tài)勢(shì),股價(jià)持續(xù)大漲。DeepSeek 以不到 600 萬(wàn)美元的訓(xùn)練成本,實(shí)現(xiàn)了與 GPT-4 相當(dāng)?shù)哪P托阅埽@被稱(chēng)作是中國(guó)的 ChatGPT 時(shí)刻。DeepSeek 技術(shù)上的創(chuàng)新點(diǎn)在哪里?這種低成本高效能的模式是否正在顛覆全球的 AI 行業(yè)?算力、芯片的投資邏輯是否會(huì)發(fā)生改變?全球前瞻產(chǎn)業(yè)研究院聯(lián)席院長(zhǎng)孔蓉對(duì)相關(guān)問(wèn)題進(jìn)行了詳細(xì)解讀。
問(wèn)題 1:DeepSeek 以不到 600 萬(wàn)美元的訓(xùn)練成本實(shí)現(xiàn)了與 GPT-4 相當(dāng)?shù)哪P托阅埽@被稱(chēng)作 “中國(guó)的 ChatGPT 時(shí)刻”。您認(rèn)為 DeepSeek 主要的創(chuàng)新點(diǎn)在哪里?
孔蓉:我們從技術(shù)側(cè)而非僅僅從成本側(cè)去看 DeepSeek,這個(gè)領(lǐng)域大家討論得比較多。我們認(rèn)為它在創(chuàng)新點(diǎn)方面有不少亮點(diǎn)。它采用了所謂的 MOE 架構(gòu),在算法方面提升了效率,還對(duì)推理側(cè)的效率進(jìn)行了優(yōu)化。即便與原有的 LLM 訓(xùn)練模型相比,我們使用的算力和計(jì)算卡不僅數(shù)量少,而且算力卡本身的性能與海外大廠所用的卡相比也存在差距。但即便在這種受限條件下,我們?cè)谡麄€(gè)算法層面還是做出了自身的一些創(chuàng)新。我們了解到,像 Meta 在 DeepSeek 這個(gè)模型出現(xiàn)后,其整個(gè)內(nèi)部可能都在緊急學(xué)習(xí),試圖復(fù)現(xiàn) DeepSeek 模型的能力。
如果做個(gè)比喻,原有訓(xùn)練模型時(shí)較多采用監(jiān)督學(xué)習(xí)的方式。這種方式在很多原有模型訓(xùn)練中較為常見(jiàn),即在訓(xùn)練過(guò)程中,人類(lèi)會(huì)告知模型一步步該怎么走才能到達(dá)終點(diǎn),并且在模型運(yùn)行過(guò)程中不斷給予獎(jiǎng)勵(lì),以此讓模型具備學(xué)習(xí)能力,這就是原有的監(jiān)督學(xué)習(xí)方式。然而,在 DeepSeek 模型的訓(xùn)練中,運(yùn)用的強(qiáng)化學(xué)習(xí)則有所不同。它類(lèi)似于只告訴模型最終的目的地,待模型到達(dá)該目的地后給予獎(jiǎng)勵(lì),但在這個(gè)過(guò)程中,模型需要自行探索路徑。這就是為什么海外尤其是硅谷的大佬們,以及全球眾多科技大廠,包括 OpenAI 等,極為驚訝于中國(guó) AI,特別是中國(guó)在強(qiáng)化學(xué)習(xí)能力在模型應(yīng)用方面竟如此強(qiáng)大。
問(wèn)題 2:DeepSeek 這種 “低成本高效能” 模式是否正在顛覆全球 AI 行業(yè),特別是中美 AI 的競(jìng)爭(zhēng)格局?
孔蓉:其實(shí)前面也有提到,大家一直在提的一句話 ——necessity,The model of invention。我們看到,在海外,大廠的模式就是用最強(qiáng)的算力、更多高質(zhì)量的數(shù)據(jù)以及投入更多人力,去做一個(gè)更好的模型。我們?cè)诖汗?jié)前看到,特朗普上任后的第一天,就有了所謂的 “星際之門(mén)”,他們?cè)噲D用最強(qiáng)的算力和算力資源,為未來(lái)美國(guó)的 AI 發(fā)展奠定基礎(chǔ)。這是在他們整體條件較好的狀態(tài)下采取的方式。
但是對(duì)于我們來(lái)說(shuō),更多的是在現(xiàn)有條件和基礎(chǔ)之上,做了很多算法側(cè)的優(yōu)化。所以在 DeepSeek 火了之后,在海外,包括主流的 AI 圈子里,大家都在討論一個(gè)話題:我們不一定非得用原來(lái)那種 “大力出奇跡” 的方式,能不能在算法效率上有所提升?這其實(shí)是 DeepSeek 給全球 AI 界帶來(lái)的最大啟示。所以對(duì)于未來(lái)整個(gè) AI 的發(fā)展來(lái)說(shuō),我覺(jué)得這可能是非常重要的一點(diǎn)。DeepSeek 的創(chuàng)新技術(shù)能力、強(qiáng)化學(xué)習(xí)的探索方式,會(huì)對(duì)全球未來(lái) AI,特別是大模型訓(xùn)練的技術(shù)層面產(chǎn)生影響。
另外,對(duì)于中美之間的 AI 比較,我們也一直在關(guān)注海內(nèi)外大模型的進(jìn)展,大概有兩三年時(shí)間了。原來(lái),大家可能更多關(guān)注的是,比如 OpenAI 也好,或者是 Meta 也好,他們做出什么樣的模型,不管是閉源的、開(kāi)源的,他們可能在引領(lǐng)全球 AI 的發(fā)展。但是在 DeepSeek 出現(xiàn)之后,能夠看到中國(guó)的工程化能力很強(qiáng)。所以在去年年底,包括谷歌的前 CEO 等很多 AI 大佬都在不同場(chǎng)合提到,中國(guó)的 AI 發(fā)展,包括整體技術(shù)實(shí)力,在逐漸與全球水平接近。然后這一次的 DeepSeek 模型又進(jìn)一步讓我們看到,中國(guó)的 AI,不管是工程化能力,還是整體技術(shù)實(shí)力,依然很強(qiáng)。
這不僅給了我們對(duì)中國(guó)未來(lái)大模型及 AI 產(chǎn)業(yè)發(fā)展很強(qiáng)的信心,對(duì)于海外來(lái)說(shuō),從投資角度,全球投資人也開(kāi)始更關(guān)注中國(guó) AI 技術(shù)實(shí)力帶來(lái)的機(jī)會(huì)。我覺(jué)得這一點(diǎn)從投資角度來(lái)看,是后續(xù)非常值得關(guān)注的。我們?cè)谡麄€(gè)春節(jié)期間也能看到,包括中概股,前兩天港股的整體上漲,核心還是圍繞 AI,圍繞 DeepSeek 這條主線。這是從中國(guó)資產(chǎn)的投資機(jī)會(huì)角度看到的表現(xiàn)。從海外來(lái)看,像木頭姐,她是全球比較有影響力的投資人,她在一個(gè)訪談里提到,DeepSeek 出現(xiàn)后,她會(huì)更緊密地關(guān)注中國(guó)的投資機(jī)會(huì)。我覺(jué)得這一點(diǎn)對(duì)于我們后續(xù)觀察來(lái)說(shuō)是非常值得關(guān)注的,即全球投資人未來(lái)怎么看中國(guó)的 AI 以及中國(guó) AI 帶來(lái)的整個(gè)中國(guó)資產(chǎn)的機(jī)會(huì)。
問(wèn)題 3:高盛報(bào)告指出,DeepSeek 的崛起標(biāo)志著 AI 投資邏輯從硬件轉(zhuǎn)向軟件,中概科技股因在應(yīng)用層的優(yōu)勢(shì)被超配。您是否認(rèn)同這一判斷?中國(guó)資產(chǎn)的投資價(jià)值是否會(huì)凸顯?
孔蓉:其實(shí)對(duì)于高盛這個(gè)觀點(diǎn),我們基本上也有類(lèi)似的看法。在去年,我們就不斷提到,在整個(gè)應(yīng)用時(shí)代,中國(guó)存在投資機(jī)會(huì)。原本市場(chǎng)擔(dān)憂并關(guān)注的一點(diǎn)是,我們的基礎(chǔ)模型能力究竟有多大的代表性。但是從 DeepSeek 的模型出現(xiàn)后,從全球 AI 的發(fā)展態(tài)勢(shì)來(lái)看,大家都能看到,中國(guó)的技術(shù)能力和工程化能力非常強(qiáng)。
而且,我們這次是開(kāi)源的。雖然我們的 DeepSeek 模型在推理側(cè)與 OpenAI 的模型能力相當(dāng),但是 OpenAI 是閉源的,也就是說(shuō),它以較高的 API 價(jià)格向全球開(kāi)發(fā)者銷(xiāo)售。而我們這次基本上是開(kāi)源的。開(kāi)源在歷史上有非常多成功的經(jīng)驗(yàn),它更重要的意義在于能夠讓整個(gè)開(kāi)源生態(tài)獲得全球的認(rèn)可。這對(duì)于中國(guó) AI 的發(fā)展變得極為重要。這也是 Meta 非常著急的原因,因?yàn)?Meta 也采用開(kāi)源路徑,而且一旦整個(gè)生態(tài)能夠構(gòu)建起來(lái),其帶來(lái)的整體機(jī)會(huì)、影響力以及產(chǎn)業(yè)升級(jí)的機(jī)會(huì)都會(huì)更大。
從整個(gè)投資機(jī)會(huì)來(lái)看,其實(shí)我們關(guān)注到,在過(guò)去的移動(dòng)互聯(lián)網(wǎng)時(shí)代,我們看到了許多成功案例。當(dāng)進(jìn)入比拼產(chǎn)品能力和應(yīng)用能力的階段時(shí),中國(guó)涌現(xiàn)出了許多優(yōu)秀的公司。在移動(dòng)互聯(lián)網(wǎng)時(shí)代和互聯(lián)網(wǎng)時(shí)代,我們見(jiàn)證了一眾互聯(lián)網(wǎng)巨頭的崛起,在短視頻時(shí)代,又誕生了新的互聯(lián)網(wǎng)和平臺(tái)公司。這一次,我們同樣看到了這種可能性。在基礎(chǔ)模型能力已經(jīng)呈現(xiàn)出較強(qiáng)競(jìng)爭(zhēng)力之后,對(duì)于應(yīng)用端,我們需要給予更多關(guān)注。而在應(yīng)用端,中國(guó)的應(yīng)用工程化能力和技術(shù)能力在全球相對(duì)更具優(yōu)勢(shì)。所以,無(wú)論是從目前 DeepSeek 引發(fā)的市場(chǎng)反應(yīng)來(lái)看,還是因?yàn)榛A(chǔ)模型能力得到增強(qiáng),有了更具代表性的模型之后,都意味著未來(lái)應(yīng)用落地變得更可預(yù)期,大家也會(huì)更多地將目光投向應(yīng)用端的機(jī)會(huì)。
問(wèn)題 4:DeepSeek-V3 的低成本訓(xùn)練是否將引發(fā)算力需求新變革?投資上,算力相關(guān)產(chǎn)業(yè)鏈的增長(zhǎng)預(yù)期是否會(huì)發(fā)生改變?
孔蓉:我們看到,在 DeepSeek 的技術(shù)報(bào)告里,提到其之前的模型訓(xùn)練可能只用了相對(duì)較低的成本,大概不到 600 萬(wàn)美金。如果和 LLM 相比,LLM 的整個(gè)成本可能不到 DeepSeek 的 5%。所以,節(jié)前整個(gè)市場(chǎng)對(duì)算力板塊的反應(yīng)非常大,波動(dòng)明顯。不論是 A 股還是美股,美股中的英偉達(dá)一度下跌了大概 17%。但我們必須強(qiáng)調(diào),對(duì)于未來(lái) AI 的發(fā)展,算力依然是非常重要的基石。
這里所說(shuō)的不到 600 萬(wàn)美金的數(shù)字,更多指的是單次訓(xùn)練的 GPU 成本,其中不包含原有的試錯(cuò)成本、研發(fā)成本以及數(shù)據(jù)方面的成本。所以總體成本其實(shí)并不低,只是單次訓(xùn)練成本提到的是 600 萬(wàn)美金左右的水平。另外,我們來(lái)講講第二個(gè)問(wèn)題,即對(duì)于后續(xù)整個(gè)算力需求該如何判斷。目前,大家圍繞英偉達(dá)以及整個(gè)算力板塊,更多關(guān)注的是訓(xùn)練端的算力需求情況,整個(gè)創(chuàng)業(yè)板塊的趨勢(shì)也圍繞著模型訓(xùn)練側(cè)。
不過(guò),一直有很多投資人關(guān)注未來(lái)在推理側(cè),當(dāng) AI 全面應(yīng)用起來(lái)后,推理算力的需求會(huì)是怎樣的。我認(rèn)為答案是明確的。DeepSeek 帶來(lái)了性價(jià)比很高的 API 成本,這讓很多潛在的中國(guó) AI 應(yīng)用在今年和明年有更多機(jī)會(huì)落地。如果應(yīng)用能夠落地,那就意味著可能會(huì)有更大量的算力需求,這是毫無(wú)疑問(wèn)的。
從市場(chǎng)角度來(lái)看,市場(chǎng)很敏銳。節(jié)假日期間,美股算力板塊下跌之后,后續(xù)又出現(xiàn)了補(bǔ)漲和反彈,這其實(shí)反映了一個(gè)情況,或者說(shuō)是一個(gè)悖論,即杰文斯悖論。在煤炭時(shí)代、半導(dǎo)體時(shí)代都出現(xiàn)過(guò)類(lèi)似情況:在第一階段,消耗成本(如能源成本)很高;到了第二階段,前期成本開(kāi)始下降時(shí),后期反而會(huì)有更多需求,整體總需求依然非常大。對(duì)于算力來(lái)說(shuō)也是如此,杰文斯悖論同樣會(huì)在算力板塊及投資機(jī)會(huì)中出現(xiàn)。所以,后續(xù)我們可能更多會(huì)關(guān)注兩個(gè)方面:一是推理側(cè)算力的未來(lái)機(jī)會(huì);二是國(guó)產(chǎn)算力的機(jī)會(huì)。這兩天市場(chǎng)已經(jīng)有所反映,在推理時(shí)代,國(guó)產(chǎn)的、擁有更多專(zhuān)利的相關(guān)公司,其算力機(jī)會(huì)正在顯現(xiàn)。