分享到微信打開微信,點(diǎn)擊底部的“發(fā)現(xiàn)”, |
大模型行業(yè)風(fēng)向標(biāo)快速轉(zhuǎn)動(dòng)有時(shí)令人猝不及防。去年C端大模型應(yīng)用做得聲量最大的國(guó)內(nèi)廠商中,一定有豆包和Kimi。但如果最近再去看蘋果中國(guó)區(qū)免費(fèi)版APP排行,會(huì)發(fā)現(xiàn),第一名是DeepSeek,騰訊元寶搭載DeepSeek并大方投流后,也沖到了榜單第二名。
有沒有搭上DeepSeek“概念”,成為近期C端大模型應(yīng)用火不火的重要因素。這樣一家原本鮮少出現(xiàn)在大眾視野中的公司,不僅在改變APP的排行,也在沖擊大模型競(jìng)爭(zhēng)格局。
多名受訪的AI業(yè)內(nèi)人士表示,DeepSeek的技術(shù)實(shí)力過硬且選擇開源,這對(duì)一些閉源公司造成了沖擊,一些大模型團(tuán)隊(duì)需要反思自身的做法。然而,DeepSeek的一些特質(zhì),例如未依靠外部融資、幾乎只做基礎(chǔ)研究,卻很難被其他團(tuán)隊(duì)復(fù)制。一些業(yè)內(nèi)人士近期在冷靜地評(píng)估并思考如何從這個(gè)同行身上學(xué)習(xí)。
“DeepSeek有些工作給了大家很大的啟示,例如在看得很準(zhǔn)的方向上聚焦發(fā)力,就容易有收獲。”面壁智能CEO李大海告訴第一財(cái)經(jīng)記者。但他也提到,要客觀理性地看待DeepSeek的成功,如果一個(gè)公司完全學(xué)習(xí)DeepSeek的做法,不一定意味著會(huì)取得下一次成功。
重估DeepSeek
2月26日,DeepSeek如約開源了第三個(gè)代碼庫(kù),接下來幾天還會(huì)繼續(xù)開源兩個(gè)代碼庫(kù)。開源讓業(yè)界有所受益。國(guó)內(nèi)某大模型廠商的大模型研究人員acedar告訴記者,DeepSeek的創(chuàng)新成果都很實(shí)用,其他大模型團(tuán)隊(duì)可以直接用上,這會(huì)讓國(guó)內(nèi)大模型水平全面提升。
拔高大模型整體水平的同時(shí),在業(yè)內(nèi),DeepSeek更像一個(gè)攪局者,讓其他大模型廠商顯得有些尷尬。科技大廠之外,去年,國(guó)內(nèi)站在聚光燈下的還是六家大模型創(chuàng)業(yè)公司,它們的估值可能都超200億元,而DeepSeek沒有出現(xiàn)在融資大戰(zhàn)中,也鮮有營(yíng)銷動(dòng)作,甚至有些默默無聞。正是這樣一家公司,光芒一下子蓋過了“六小龍”,給行業(yè)競(jìng)爭(zhēng)帶來了新變數(shù)。
要怎么評(píng)估這樣一個(gè)競(jìng)爭(zhēng)對(duì)手?DeepSeek是否在技術(shù)水平上也完全壓過其他廠商?除了贊賞,業(yè)界近期也出現(xiàn)了一些不同的聲音,認(rèn)為不能拋開開源的影響力,只站在技術(shù)優(yōu)勢(shì)的角度看待DeepSeek的爆火。一種看法是,DeepSeek-R1推出更像是Llama開源的時(shí)刻,而非ChatGPT面世的時(shí)刻,R1爆火很大程度上是建立在OpenAI閉源收費(fèi)的錯(cuò)誤策略上。
“如果R1是個(gè)閉源模型,一定不會(huì)達(dá)到現(xiàn)在這種‘出圈’的效果。”復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授邱錫鵬在一個(gè)線上直播中表示。“R1受關(guān)注的原因一是低成本,二是效果好,三是開源。之所以Meta的模型開源沒有DeepSeek影響力這么大,是因?yàn)樾Ч炔簧蟁1。R1大模型所在的頭部大模型陣列中,其他模型是閉源的,這種情況下,R1才會(huì)對(duì)所有大模型公司都造成巨大沖擊。”新浪微博新技術(shù)研發(fā)負(fù)責(zé)人張俊林也告訴記者。
李大海向記者分析,DeepSeek的做法成功了,背后既有必然性,也有偶然性,必然性在于復(fù)刻出了OpenAI o1模型的高階推理效果,且模型開源。同時(shí),此次DeepSeek增長(zhǎng)速度很快,與推出時(shí)間點(diǎn)也有關(guān)系,春節(jié)期間正值國(guó)內(nèi)社交性聚集高峰,傳播效應(yīng)高于平時(shí)。
從技術(shù)難度看,也有一些業(yè)界人士分析,DeepSeek能在較短的時(shí)間內(nèi)復(fù)現(xiàn)o1的水平,本身就存在一些可預(yù)見性。DeepSeek-R1并非純基座模型,而是基于DeepSeek-V3。一名國(guó)內(nèi)大模型頭部廠商研發(fā)人員告訴記者,R1的性能在較短時(shí)間內(nèi)追趕上o1背后,是o1的技術(shù)壁壘相對(duì)較小,在算法方案探索出來后,研發(fā)就變得簡(jiǎn)單。對(duì)比之下,復(fù)現(xiàn)GPT-4這種基座模型有更多影響因素,例如算力部署、數(shù)據(jù)準(zhǔn)備、工程基建等,這些因素缺一不可。在R1做出來之前,DeepSeek的基座模型已經(jīng)有了,各種基建也已經(jīng)準(zhǔn)備好了,這是R1能迅速推出的重要原因。
張俊林甚至認(rèn)為,做出R1耗時(shí)本來就不需要多,R1成本估計(jì)只是10萬(wàn)美元級(jí)別乃至更低。對(duì)比之下,復(fù)刻GPT-4這種純基座模型,大模型團(tuán)隊(duì)遇到算法變向耗時(shí)可長(zhǎng)達(dá)2個(gè)月、耗費(fèi)高達(dá)幾千萬(wàn)元。“R1主要采用的是很主流的技術(shù),這意味著大模型團(tuán)隊(duì)即便是窮舉各種主流技術(shù),也能最終試出正確路線,且單次嘗試的時(shí)間和金錢成本不高。”張俊林認(rèn)為。
認(rèn)可DeepSeek團(tuán)隊(duì)技術(shù)能力的同時(shí),一些AI領(lǐng)域從業(yè)者近期也在分析R1仍存在的缺點(diǎn)。邱錫鵬認(rèn)為,R1還存在過度優(yōu)化的問題,例如經(jīng)常會(huì)用到一些非常高端的詞匯,且R1在通用任務(wù)上的推理效果還不太理想,其背后是強(qiáng)化學(xué)習(xí)的泛化性需要進(jìn)一步研究。
記者了解到,DeepSeek掀起AI使用熱潮后,國(guó)內(nèi)一家互聯(lián)網(wǎng)公司近期在內(nèi)部舉行了一次討論,探討DeepSeek等AI技術(shù)在工作中的實(shí)際使用情況。有員工在會(huì)上就提到DeepSeek-R1的優(yōu)缺點(diǎn),稱R1適合金融、醫(yī)療、教育等要用到推理思考邏輯的場(chǎng)景,但不適合對(duì)局部進(jìn)行處理的場(chǎng)景,例如讓DeepSeek寫一段函數(shù)。在不需要上下文理解的情況下,使用非推理思考路徑的大模型反而效果更好。
DeepSeek對(duì)應(yīng)用場(chǎng)景也有所側(cè)重,這意味著,DeepSeek模型不一定適合所有場(chǎng)景。一名芯片廠商高管告訴記者,R1-671B是一個(gè)很大的模型,該公司測(cè)算下來,全量部署R1且讓R1能理解180K上下文,至少需要用到64臺(tái)機(jī)器。在部署機(jī)器量龐大、系統(tǒng)成本很高的情況下,單個(gè)用戶token成本可以做到很低,可以把并行用戶量做到非常大。他由此判斷,DeepSeek未來的商業(yè)策略將是面向To C場(chǎng)景,而非To B或私有化部署。
DeepSeek的創(chuàng)新工作并非能被其他大模型公司全部采用。李大海告訴記者,面壁智能在R1發(fā)布前就關(guān)注并學(xué)習(xí)了DeepSeek的很多工作和技術(shù)思路。然而,DeepSeek的工作主要面向云端的高并發(fā)場(chǎng)景,而面壁智能則聚焦于端側(cè)場(chǎng)景,服務(wù)單一用戶的專屬模型。端側(cè)場(chǎng)景需要解決的主要問題是功耗足夠低、響應(yīng)足夠快,這與云端場(chǎng)景有很大差別,很多DeepSeek的設(shè)計(jì)思路不能直接用。
天平往開源傾斜了
DeepSeek-R1不是大模型競(jìng)爭(zhēng)的終局,OpenAI的下一代推理模型o3計(jì)劃融入GPT-5并在幾個(gè)月內(nèi)推出,馬斯克旗下的AI公司xAI也已向OpenAI和DeepSeek發(fā)出挑戰(zhàn)。DeepSeek能否贏得下一局對(duì)弈仍存變數(shù)。但可以確定的是,它為行業(yè)競(jìng)爭(zhēng)帶來了更深遠(yuǎn)的影響,使得開閉源的天平開始向開源一側(cè)傾斜。
OpenAI CEO奧爾特曼在2月o3-mini發(fā)布當(dāng)天表示,OpenAI的開源政策站在了“歷史錯(cuò)誤的一邊”,需要想出一個(gè)不同的開源策略。有業(yè)界人士分析,OpenAI的“傲慢之罪”在于隱藏o1的思考過程并采用高收費(fèi)模式,無法讓盡可能多的人感受到深度思考的威力。
在國(guó)內(nèi),一貫堅(jiān)持閉源路線的百度也“倒戈”向開源。去年,百度董事長(zhǎng)李彥宏還表示,大模型開源的意義不大,閉源模型在能力上會(huì)持續(xù)領(lǐng)先。今年2月14日,百度就宣布將在未來幾個(gè)月陸續(xù)推出文心大模型4.5系列,并于6月30日正式開源。
從開源的沖擊看,能力不如開源模型的閉源模型面臨尷尬境地。既然開源模型可以被開發(fā)者自行下載、微調(diào)乃至私有化部署,就不需要為了使用閉源大模型付費(fèi)了。
從商業(yè)化角度,也有從業(yè)者認(rèn)為,DeepSeek證明了當(dāng)前開源的正確性。
“從商業(yè)層面看,模型行業(yè)里,如果一個(gè)技術(shù)被當(dāng)成引擎,用于讓某個(gè)業(yè)務(wù)做得好,而且這個(gè)業(yè)務(wù)有完整閉環(huán)的商業(yè)模式,那這個(gè)引擎未必需要開源。例如,谷歌搜索引擎、字節(jié)推薦系統(tǒng)作為內(nèi)生引擎不需要開源。”李大海告訴記者,如果OpenAI的商業(yè)模式是通過好的引擎更快地產(chǎn)生超級(jí)APP,而且這個(gè)邏輯走得通,大家能從這個(gè)邏輯中賺到很多錢,就會(huì)有更多人選擇閉源。
李大海告訴記者,實(shí)際情況是,現(xiàn)階段行業(yè)“卷”了一年的產(chǎn)品,還沒有看到馬上會(huì)出現(xiàn)基于大模型的超級(jí)APP出現(xiàn)的可能,不存在很適合閉源模型的商業(yè)模式,商業(yè)模式上走開源路線可能是更正確的。從另一個(gè)角度看,AGI(通用人工智能)賽道上,模型能力演進(jìn)是當(dāng)下最重要的工作,更快讓模型成為受關(guān)注的核心技術(shù)、通過模型智能的絕對(duì)提升來獲得行業(yè)認(rèn)知和更好的生態(tài),是收益更大的事,開源能讓最重要的工作更快被行業(yè)感知和接受,“這次DeepSeek的成功讓國(guó)內(nèi)更多團(tuán)隊(duì)意識(shí)到了我說的邏輯。”
李大海告訴記者,開源逐步變成一種范式,能讓整個(gè)生態(tài)的參與者產(chǎn)生信任,這種信任源于兩個(gè)方面,一是不用擔(dān)心是純PR(營(yíng)銷宣傳),二是不用擔(dān)心這個(gè)團(tuán)隊(duì)未來能否活下來,即便公司沒了,大家仍然可以基于開源生態(tài)做下一步工作。商業(yè)化上,很多開源模型也能通過API(接口)賺錢,甚至因?yàn)殚_源帶來的信任,直接拿模型賺錢可以有更大收益。
對(duì)比大模型廠商以閉源模型為基礎(chǔ)打造應(yīng)用的方式,站在大模型智能演化的角度,也有從業(yè)者認(rèn)為,當(dāng)前追求模型智力水平更重要。張俊林表示,只要提升基礎(chǔ)模型智力水平,很多應(yīng)用的壁壘會(huì)越來越薄,有一種可能是,在基座模型智力增加的情況下,只需少量某領(lǐng)域的數(shù)據(jù)就能做好該領(lǐng)域的任務(wù),那么,大模型廠商盡早做應(yīng)用、形成數(shù)據(jù)壁壘的邏輯就不成立。
DeepSeek之外,李大海告訴記者,面壁公司內(nèi)核也完全擁抱開源。還有一些廠商也傳來了開源的消息,奧爾特曼近日在社交平臺(tái)提出兩種開源模型的方向并發(fā)起投票調(diào)查,阿里巴巴2月25日晚則開源了視頻生成模型萬(wàn)相2.1。
格局未定
可見的是,DeepSeek增加了AI的滲透。月之暗面Kimi暫緩了“燒錢”投放后,知情人士回應(yīng)稱,原因是DeepSeek熱潮帶動(dòng)大眾對(duì)AI的認(rèn)知,包括Kimi在內(nèi)的幾個(gè)主要產(chǎn)品自然增長(zhǎng)實(shí)現(xiàn)翻倍。“由于DeepSeek的原因,我們看到很多還在猶豫的行業(yè)開始更積極擁抱AI了,很多客戶找到我們,這對(duì)行業(yè)來說是多贏的。”李大海告訴記者。
更難看到的是,DeepSeek如何改變業(yè)內(nèi)其他公司的處境。一名去年還在猶豫要不要投資大模型的投資人告訴記者,投資大模型廠商的風(fēng)險(xiǎn)在于高估值、哪家能跑出來具有不確定性,但目前來看,隨著DeepSeek在越來越多場(chǎng)景被使用,DeepSeek的確定性增強(qiáng)了,他認(rèn)為,大模型行業(yè)將會(huì)有互聯(lián)網(wǎng)贏家通吃的特點(diǎn),甚至未來可能只會(huì)有一個(gè)基礎(chǔ)模型, DeepSeek的出現(xiàn)和開源的做法讓大模型行業(yè)洗牌變得更快。
李大海則認(rèn)為,AI還在快速演進(jìn),AGI則是比較遠(yuǎn)的目標(biāo)。“AGI賽道的比拼是長(zhǎng)跑,是馬拉松,現(xiàn)在只跑了一段,可能跑了5公里、10公里,所以未來大家還有機(jī)會(huì)。”李大海說,在這個(gè)過程中,團(tuán)隊(duì)人才密度、對(duì)未來技術(shù)的視野都是很重要的特質(zhì)。
能否復(fù)制DeepSeek的成功,也是一個(gè)近期被熱議的話題。作為一家不依賴外部融資、以基礎(chǔ)研究為主且不著急布局商業(yè)化的公司,DeepSeek有足夠多與其他公司不同的特質(zhì)。一些分析人士認(rèn)為,在資金自有基礎(chǔ)上的技術(shù)理想主義是DeepSeek成功的重要原因,而其他公司很難擁有這種特點(diǎn)。要不要嘗試復(fù)制DeepSeek,成為擺在其他廠商面前的問題。
清華大學(xué)長(zhǎng)聘副教授劉知遠(yuǎn)在一個(gè)線上分享中表示,能感受到DeepSeek擁有一個(gè)由技術(shù)長(zhǎng)期主義推出來的結(jié)構(gòu),“中國(guó)已經(jīng)到了這樣一個(gè)階段,需要有更多像DeepSeek這樣的團(tuán)隊(duì),但是又不像DeepSeek這么有錢,能不能讓他們踏踏實(shí)實(shí)地做一些創(chuàng)新?這非常值得我們思考。”
立足現(xiàn)實(shí),acedar告訴記者,DeepSeek以研究為目的,不計(jì)較短期回報(bào),而其他創(chuàng)業(yè)公司和大型科技企業(yè)則面臨各種牽絆。DeepSeek的模式雖然帶來了沖擊,但業(yè)內(nèi)究竟有多少團(tuán)隊(duì)會(huì)付諸實(shí)踐,仍是一個(gè)疑問。
“每家公司有每家公司的稟賦,不同領(lǐng)域有不同領(lǐng)域的問題。并非完全學(xué)習(xí)DeepSeek的做法就一定會(huì)取得成功,這是刻舟求劍。”李大海則認(rèn)為,在基礎(chǔ)研究和商業(yè)應(yīng)用的優(yōu)先級(jí)上,面壁的答案是基礎(chǔ)模型,但面壁可能不會(huì)與DeepSeek完全一樣。“我們覺得商業(yè)應(yīng)用也非常重要,因?yàn)槎藗?cè)離用戶更近,應(yīng)該用商業(yè)落地去同步驗(yàn)證基礎(chǔ)模型演進(jìn)對(duì)用戶的實(shí)際效用,做端側(cè)大模型兩手都要抓。”
“回顧歷史上的創(chuàng)新,它們的模式都不一樣,本質(zhì)上都是在專注的領(lǐng)域解決一些復(fù)雜、有限制因素的問題。”李大海告訴記者,DeepSeek有很好的現(xiàn)金流,可以不斷補(bǔ)貼大模型團(tuán)隊(duì),這當(dāng)然是比較理想的狀態(tài),研究員可以更心無旁騖地做科研,但當(dāng)有更大限制、需要用更少的錢做事的時(shí)候,限制可能也會(huì)激發(fā)意想不到的創(chuàng)新,DeepSeek的創(chuàng)新從矛盾中生發(fā)的,即又要模型聰明、又不要太貴,“面壁在端側(cè)大模型也要面對(duì)很多矛盾,例如讓模型聰明、功耗還低,限制條件可能激發(fā)創(chuàng)新,我們也不認(rèn)為要像DeepSeek一樣自己有非常多錢,才能做出這樣的創(chuàng)新。”
“如果一個(gè)廠家有太多的學(xué)界、權(quán)威、層級(jí)很多,它的研發(fā)效率多半是比較慢的。”
安徽省率先在全國(guó)省級(jí)層面完成DeepSeek滿血版(671B)本地化部署,推出無差別綜窗、公文寫作、語(yǔ)音轉(zhuǎn)文字等16個(gè)典型應(yīng)用,并在全省試用推廣。
Manus目前使用的是Claude與阿里旗下Qwen微調(diào)模型。
DeepSeek最高日賺346萬(wàn)元?官方稱理論收益并非實(shí)際;清華大學(xué)2025年將適度擴(kuò)招本科生,重點(diǎn)培養(yǎng)“AI+”拔尖創(chuàng)新人才。
OpenAI 發(fā)布了昂貴的GPT-4.5,而DeepSeek進(jìn)行著最后一天的代碼開源分享。