分享到微信打開微信,點擊底部的“發(fā)現(xiàn)”, |
“所有0和1我這輩子都沒做,我做的全是看到美國人做了0和1,我做1×10、10×100的事?!遍_源中國董事長馬越對第一財經(jīng)表示。他認(rèn)為國內(nèi)的一些知名企業(yè)家做的也是類似的工作。
馬越是一位在科技領(lǐng)域闖蕩多年的老兵。DeepSeek以及人工智能的進展,讓他感慨新一代的科技創(chuàng)業(yè)者,更可能做出從無到有的創(chuàng)新性工作。
人工智能正在開啟大航海的時代,沒有人手里有明確的航海圖,但年輕創(chuàng)業(yè)者們更有冒險精神。“我們看現(xiàn)在的大模型公司,誰家的研發(fā)團隊大量聘用年輕的研究員,并給予充分的授權(quán),它的發(fā)展一定很好。如果一個廠家有太多的學(xué)界、權(quán)威、層級很多,它的研發(fā)效率多半比較慢的。”MiniMax副總裁劉華也說。
炮灰的覺悟
馬越生于中國改革開放之前,既經(jīng)歷過中國的貧困時期,也見證過中國的經(jīng)濟騰飛。
盡管他是一位連續(xù)的創(chuàng)業(yè)者,而且在科技企業(yè)里有所成就。但他回頭看自己的過往,他這一輩人從小受的教育的經(jīng)歷等,塑造了他的工作方式。馬越自我調(diào)侃“也就這么點出息,沒有想象能力”。
在科技領(lǐng)域,想象力與創(chuàng)造力緊密相關(guān)。那些科技發(fā)展歷程中顛覆性的創(chuàng)新,比如半導(dǎo)體、計算機圖形界面、智能手機以及大模型等,都是從美國市場上走出來的。
馬越認(rèn)為,一些國內(nèi)知名的企業(yè)家,做出的也不是開創(chuàng)性的工作,而是摸著石頭過河。過去二十年間,中國市場上風(fēng)生水起的搜索、電商、云計算等概莫能外。
這一輪的大模型浪潮,OpenAI珠玉在前,但DeepSeek是中國創(chuàng)業(yè)者帶來的驚奇。
DeepSeek一夜之間給美國股市造成萬億美元的蒸發(fā)。它以史上最快的速度觸達了上億用戶,B端的企業(yè)投入開源模型的懷抱。它也改變了很多大模型企業(yè)的發(fā)展道路。
OpenAI在考慮某種形式的開源,百度也摒棄閉源道路,轉(zhuǎn)而選擇開源其最新的大模型產(chǎn)品。
一些初創(chuàng)型科技企業(yè),此前融資數(shù)億,購買算力卡,訓(xùn)練自己的模型,在尚未成功之際發(fā)現(xiàn)DeepSeek以一種更具性價比的方式實現(xiàn)了更優(yōu)的模型性能。關(guān)鍵是,DeepSeek開源,任何企業(yè)都可以學(xué)習(xí)模仿,并在此基礎(chǔ)上二次開發(fā)。
大模型公司的估值和融資機會,因此受到DeepSeek的壓制。
“過去的估值都建立在做這件事必須投大錢的基礎(chǔ)上,因為起手的目標(biāo)融資10億美金,你不給我100億美金估值都不行?!币患彝顿Y機構(gòu)的合伙人認(rèn)為,現(xiàn)在融資會變得更難了,“大家覺得你不需要幾十億美金,10億美金是不是就行了,幾億美金是不是也能干得不錯?!?/p>
科技創(chuàng)新的代價一直很高。一些大模型企業(yè)此前為研發(fā)、預(yù)訓(xùn)練而做的巨大投資,面臨迅速貶值。
“中國本身這種沉沒成本就是巨高?!瘪R越說:“今天的積累都是給年輕人做土壤,我們變成炮灰。產(chǎn)業(yè)燒了幾百億,可能最終成就的是DeepSeek這樣的公司。沒有一點問題,我樂見其成。”
OpenAI沒有出現(xiàn)在谷歌,也不是誕生于亞馬遜。DeepSeek并非產(chǎn)生于騰訊或者阿里巴巴。
馬越認(rèn)為,顛覆式的創(chuàng)新,大廠很難。國內(nèi)大廠習(xí)慣了拿來主義的路徑依賴,內(nèi)部是職業(yè)經(jīng)理人的思維,“我完成 KPI還不簡單,寫PPT就完了,我跟自己較什么勁?徹底的創(chuàng)新這件事兒,大廠員工背著免責(zé)盾牌搞創(chuàng)新,拳頭根本揮不開。”
新一代的科技創(chuàng)業(yè)者,更可能做出0-1的、從無到有的創(chuàng)新性工作。
“至少比我們這代人靠譜得多了?!瘪R越表示:“因為我們窮,沒想象力。年輕人現(xiàn)在不應(yīng)該這樣了。”
大模型創(chuàng)新靠誰
中國大模型向前發(fā)展,推動力是什么?
“我們認(rèn)為依賴于高度組織化精細(xì)化的研發(fā)團隊,它絕對不僅僅依賴于學(xué)界權(quán)威、院士、教授、博導(dǎo)?!眲⑷A說。
MiniMax是大模型六小虎之一,它的產(chǎn)品已經(jīng)開始落地海外20多個國家,是中國地域覆蓋范圍最廣的大模型開放平臺。
2017年,谷歌幾位員工提出Transformer架構(gòu)。大模型剛出現(xiàn)的時候,是以Transformer為底層架構(gòu)的稠密模型。但是經(jīng)過八年發(fā)展,企業(yè)界認(rèn)為Transformer碰到了它的瓶頸。現(xiàn)在企業(yè)在探索非Transformer架構(gòu),稠密模型已經(jīng)被逐漸放棄,MoE(混合專家模型)成了共同的選擇。
“Transformer處理任務(wù)的長度跟它的算力消耗程度是成平方的關(guān)系。比如我現(xiàn)在處理100Token任務(wù)的算力消耗是一個恒定值。如果處理10000Token的任務(wù),處理的任務(wù)增加100倍,算力消耗要增加100的平方,一萬倍?!眲⑷A說。
隨著多模態(tài)的發(fā)展,大模型處理Token的規(guī)模遠不止百倍增長,將來可能是萬倍。大模型解決超長文本處理能力,需要研發(fā)新的模型底層架構(gòu),MiniMax選擇的是線性注意力機制,其新一代的MiniMax-01模型,可以做到基本性能和GPT4o、Claude3.5齊平,但是能夠處理400萬Token的長文本,是4o和Claude3.5的20倍、30倍。
MiniMax在2023年擁抱MoE架構(gòu)。大模型研發(fā)的底層框架迭代,MiniMax的經(jīng)驗是,要去聘用年輕的研究員,給予充分的授權(quán),讓他們敢于嘗試新的思路,讓他們用充沛的算力做大量的實驗,才可以敏銳地捕捉到大模型迭代的方向。
劉華表示:“現(xiàn)在的大模型公司,如果誰家的研發(fā)團隊是大量聘用年輕的研究員,并給予充分的授權(quán),它的發(fā)展一定很好。如果一個廠家有太多的學(xué)界權(quán)威、層級很多,它的研發(fā)效率多半是比較慢的?!?/p>
馬越認(rèn)為,中國傳統(tǒng)文化里缺少對年輕人的尊敬,更不必提敬畏了。老一輩的人都是基于功利主義,而年輕人的價值觀跟過去不一樣了。
“DeepSeek是一個年輕的團隊打造的,少年強則中國強。我們這種年過半百的封建殘余,滿腦子的舊認(rèn)知,一天到晚吹牛也好,抱大腿也好。”馬越說,“你得有覺悟,我們這一輩子到今天是給年輕人當(dāng)梯子的。”
人工智能拉開了一個大航海的時代,年輕人是更好的冒險者。
“新大陸在哪兒,我們不知道,每條海岸線都是迷霧。所有的舊認(rèn)知都沒價值,我們沒有羅盤,也不知道自己的方向在哪里,也不知道終點在哪里,所以它才有意思?!瘪R越表示。
安徽省率先在全國省級層面完成DeepSeek滿血版(671B)本地化部署,推出無差別綜窗、公文寫作、語音轉(zhuǎn)文字等16個典型應(yīng)用,并在全省試用推廣。
通過專業(yè)機構(gòu)以DeepSeek為基礎(chǔ)進行ESG垂直模型的訓(xùn)練,是DeepSeek應(yīng)用于ESG領(lǐng)域更為高效的路徑。
電力便宜,中國制造起來了。AI只有便宜了,才能像電一樣無處不在。
在能力較突出的視頻生成大模型中,開源模型已占有一席之地。
DeepSeek最高日賺346萬元?官方稱理論收益并非實際;清華大學(xué)2025年將適度擴招本科生,重點培養(yǎng)“AI+”拔尖創(chuàng)新人才。