分享到微信打開微信,點擊底部的“發(fā)現(xiàn)”, |
國內大模型創(chuàng)業(yè)公司已經走出六家獨角獸,即便頭部已清晰,關于創(chuàng)業(yè)公司哪家的路線更好、未來誰能留在牌桌上的討論仍未停止。
12月初,第一財經記者在上海見到了MiniMax副總裁劉華,他給出的判斷是,基礎大模型賽道將會局限在個位數的企業(yè),其中包括大廠和創(chuàng)業(yè)公司,除此之外,很多人要轉去做AI應用。
MiniMax是六家獨角獸之一。布局上看,如今已有獨角獸舍棄做視頻模型,有的在B端和C端應用間做出了選擇,MiniMax則涉獵較廣,布局了語言、視頻大模型以及面向B端和C端的產品,其中包括海螺AI、Talkie及對應的國內版產品星野。
MiniMax此前較少面對媒體,在這次一個多小時的采訪中,劉華談到創(chuàng)業(yè)公司商業(yè)化的思路、對o1路線的判斷和現(xiàn)下的行業(yè)格局,就算力需求變化,他和算力提供方騰訊云北區(qū)云原生總經理田豐都認為并非所有模型訓練都需要10萬卡集群。
“前提是比Meta的開源模型更好”
“國內AI產業(yè)總體上沒有太多泡沫。”劉華告訴記者,此前之所以行業(yè)存在一些資源浪費,是因為太多企業(yè)認為自己能做基礎大模型。泡沫撇去,更好的情況將是大家認識到能做基礎模型的企業(yè)不多,更多人有志于做大模型應用。
近一年間,大模型的浪潮從文本涌向多模態(tài),除了有能力多個領域同步出擊的大廠,要不要做視頻大模型、要聚焦哪類應用,六家獨角獸需要量力而行,其中一些已做出選擇。其中,月之暗面是聚焦C端應用的代表,智譜AI對B端應用相對側重,百川智能已決定不跟進Sora視頻大模型的路線。MiniMax則同時跨進文本和視頻大模型領域,應用上布局C端和B端,其中C端產品進入超180個國家和地區(qū)。據AI產品榜數據,11月AI社交產品Talkie的全球月活躍用戶量2519萬,在全球榜單中排第9名。
劉華告訴記者,對創(chuàng)業(yè)公司而言,比較好的路線是把大模型做好,并做更多B端標準化產品,C端只做少量應用。做To B和To C產品是為了讓大模型技術觸達更多用戶,通過用戶反饋知道如何改進模型,盈利問題則還要慢慢看。公司會對產品做少量推廣宣傳,但目前單純以擴大用戶規(guī)模的投流價值不大,這種方式獲得的用戶黏性差,僅30天留存率就“沒法看”。
應用變現(xiàn)上,劉華判斷,中國市場的優(yōu)勢在于用戶規(guī)模大,國內做C端產品最終要靠流量變現(xiàn),廣告是一種方式,海外C端用戶的付費習慣比較好,付費會員也是合適的方式。
關于B端應用大模型定制更好還是標準化更好,業(yè)內目前則存在爭論。有大模型定制化廠商負責人告訴記者,定制模型推理成本更低,客戶也能完全控制并調整模型。劉華的判斷則是,創(chuàng)業(yè)公司做B端產品較好的方式是標準化。
“國內做AI定制項目快的半年,慢的一年多,如果要花一年半時間做定制化項目,說不定我們的模型迭代兩個版本就能滿足(要求)了,那還不如花更多時間迭代模型。”劉華解釋,至于客戶對數據安全的疑慮,能通過與騰訊云開創(chuàng)云上專區(qū)的方式保證企業(yè)數據的安全,預計國內會有更多企業(yè)接受標準化調API(接口)的方式。
基于公司商業(yè)化以及獲得大廠支持兩種方式,劉華認為創(chuàng)業(yè)公司能留在大模型賽道內并繼續(xù)迭代模型的可能性還是很大。
在做應用和做大模型之間,劉華還認為,大模型玩家要提供商業(yè)化服務并形成營收,意味著要為客戶提供其他廠商提供不了的服務,特別是要與開源模型拉開差距?!氨乳_源模型更好是一個最基本的門檻,如果基礎大模型做不到這一點就可以不用玩了,可以轉做AI應用了。在國內做商業(yè)化一個最基本的前提就是比現(xiàn)在Meta的Llama模型更好,否則別人可以用Llama,為什么花錢用你的模型?這很現(xiàn)實?!眲⑷A表示。
“o系列的方向能降低模型錯誤率”
技術路徑上,大模型業(yè)內也在迭代。北京時間周五凌晨,OpenAI推出了“滿血版”推理模型o1,這款在今年9月以預覽版上線的模型已在AI業(yè)界掀起波瀾。國內多家大模型創(chuàng)業(yè)廠商紛紛表態(tài),月之暗面創(chuàng)始人楊植麟稱o1標志著AI范式遷移,百川智能創(chuàng)始人王小川認為標志著范式升級。不過,o1指出AI新路徑的同時,并非所有大模型廠商都在改變自身的研發(fā)范式。
“o系列模型是一個能降低模型錯誤率,讓大模型能被嚴肅的生產、研發(fā)、科研、設計領域應用的重要發(fā)展方向,這與我們降低模型錯誤率的目標相通。”劉華告訴記者,上一代GPT系列模型的一個問題是錯誤率偏高,在30%左右,而要進入這些嚴肅領域,錯誤率至少要降到2%~3%。
不過,劉華認為,o系列模型僅僅是開辟了一個方向,未來可能導向一些場景,例如大模型對一個問題思考幾周、幾個月,來解答人類社會的重大問題。而就MiniMax而言,公司不會受其他廠商的影響輕易調整發(fā)展模式或技術路線,除了降低錯誤率,公司研發(fā)方向還包括做多模態(tài)、確保大模型能以較低的輸入輸出成本處理復雜計算。
大模型廠商技術迭代的同時,算力方也在適應大模型提出的新要求。田華告訴記者,MiniMax早期用到幾千卡集群,現(xiàn)在要大幾千卡、上萬卡,后續(xù)還會有更大規(guī)模的算力需求,這對算力提供方的組網、集群運維能力提出了高要求。以網絡為例,萬億參數大模型下,訓練通訊占比基本能達50%,傳統(tǒng)的網絡協(xié)議容易造成擁堵,導致訓練效率下降。騰訊云為此優(yōu)化了星脈網絡,使之能支持10萬卡超大規(guī)模訓練集群。
海外廠商也在布局大規(guī)模算力集群。此前,特斯拉CEO馬斯克旗下的AI公司xAI初步建成了具備10萬張H100 GPU算力的超級AI訓練集群 Colossus,當地時間12月5日,大孟菲斯商會表示,xAI計劃將Colossus算力再擴大十倍。
從1萬卡到10萬卡集群,田豐告訴記者,除了模型本身,更多還需解決集群的網絡和運維問題,并不是所有的訓練廠商都需要1萬卡或10萬卡規(guī)模,同一個模型用10萬卡的效率也不一定就大于1萬卡,這并非正向疊加的過程。
劉華則告訴記者,10萬卡集群目前還是美國極少數企業(yè)的追求。
一些人形機器人廠商此前走上與大模型公司合作的道路。
OpenAI CEO奧爾特曼于2月3日抵達東京與孫正義會面,他們還將共同與日本首相石破茂會面。
數據蒸餾是一種業(yè)內常見的技術做法,是指通過一系列算法和策略,將原始的、復雜的數據進行去噪、降維、提煉等操作,從而得到更為精煉、有用的數據。
DeepSeek用更少的成本,訓練出了媲美Open AI o1的性能,這對大規(guī)模的AI算力投入提出了質疑
當開源模型能力趕上最新的閉源模型,閉源模型是否還有競爭力?