分享到微信打開微信,點(diǎn)擊底部的“發(fā)現(xiàn)”, |
自今年2月OpenAI的Sora首次公開展示以來,視頻生成經(jīng)歷了從備受期待到遭受質(zhì)疑的過程。在這大約10個(gè)月里,Sora遲遲未開放給公眾使用,國(guó)內(nèi)百川智能創(chuàng)始人兼CEO王小川則基于AI的路線判斷 “摁死”了公司跟進(jìn)Sora的想法,另一些互聯(lián)網(wǎng)大廠和大模型創(chuàng)業(yè)公司還在陸續(xù)跟進(jìn)推出視頻生成模型,但對(duì)外的發(fā)聲表態(tài)也漸趨冷靜。
12月3日,騰訊混元大模型上線了視頻生成能力,并開源了這個(gè)參數(shù)量130億的視頻生成大模型HunYuan-Vieo。據(jù)稱該模型是業(yè)界參數(shù)最大的開源視頻模型,可生成5秒視頻。據(jù)混元團(tuán)隊(duì)公布的文生視頻模型效果評(píng)估,混元視頻生成模型總體評(píng)分41.3%,高于未公開名稱的國(guó)內(nèi)模型A和B以及海外的GEN-3 alpha和Luma1.6。這項(xiàng)評(píng)估參照持續(xù)時(shí)間、文本對(duì)齊、運(yùn)動(dòng)質(zhì)量、視覺質(zhì)量幾個(gè)維度,顯示五個(gè)模型評(píng)分都不高,最低的Luma1.6評(píng)分僅24.8%。
接受第一財(cái)經(jīng)等媒體采訪時(shí),騰訊混元多模態(tài)生成技術(shù)負(fù)責(zé)人凱撒直言,文生視頻還不處于很成熟的階段,各模型成功率都不高,至少文生視頻的技術(shù)程度在混元內(nèi)部的評(píng)估中,還沒有到大規(guī)模商業(yè)化的程度,而是在技術(shù)打磨階段。
從開源生態(tài)看,凱撒認(rèn)為,現(xiàn)在視頻生成開源生態(tài)也不是很成氣候,最大的問題是開源的視頻生成底模(基底模型)跟閉源差距太大?,F(xiàn)在視頻生成所需的算力、數(shù)據(jù)消耗量和圖像生成相比是數(shù)量級(jí)的差距,業(yè)內(nèi)不太想把自己花大成本做出來的模型開源出來。在這種閉門造車的情況下,最好的模型很多人也沒有用起來,于是混元開源了自己的視頻生成模型。
記者用混元大模型視頻生成功能分別生成“三只黑貓?jiān)谘┲型嫠?,留下腳印”“三只黑貓?jiān)谘┲凶分穑粝履_印”和“一只戴著黃色圍巾的企鵝在故宮門口吃冰糖葫蘆”的視頻。第一個(gè)視頻生成三只黑貓?jiān)谘┲?,沒有生成明顯的腳印,但黑貓主體完整,腳踩在坑洼不平的雪地上時(shí)產(chǎn)生了正常的視線遮擋。第二個(gè)視頻中,貓?jiān)谘┑厣喜瘸隹?,有與物理環(huán)境的真實(shí)互動(dòng),但有兩只黑貓融合成了一只。第三個(gè)視頻場(chǎng)景正確且皮毛清晰,但冰糖葫蘆會(huì)自己移動(dòng)。記者此前嘗試使用過一些主流的免費(fèi)視頻生成模型也發(fā)現(xiàn),很多模型已能做到畫面細(xì)膩真實(shí),但運(yùn)動(dòng)規(guī)律或物理規(guī)律還不能很好體現(xiàn)。
從文生視頻的具體難點(diǎn)看,凱撒告訴記者,對(duì)比文生圖模型一次出一張圖,這個(gè)視頻生成模型要生成129幀畫面,每一幀都正確非常難。視頻生成算力會(huì)隨著時(shí)間延長(zhǎng)而呈平方級(jí)上升,且時(shí)長(zhǎng)越長(zhǎng),畫面退化越嚴(yán)重,業(yè)界目前主流都是五六秒。如果類比文生圖模型,現(xiàn)在視頻生成的水平就像兩年前SD(Stable Diffusion)還沒面世時(shí)的水平。此外,視頻模型無法足夠真實(shí)地模擬世界的物理規(guī)律,例如掉下的杯子不碎,要改變這一點(diǎn),背后涉及難度非常大的數(shù)據(jù)處理、清洗以及物理規(guī)律引入工作,后續(xù)混元將給視頻模型引入真實(shí)世界的知識(shí)。
此外,記者了解到,視頻生成模型的技術(shù)路徑也還未完全清晰。凱撒表示,業(yè)界此前未解答“Scaling Law(縮放定律)在視頻領(lǐng)域存不存在”的問題,混元只能從頭做,把視頻的Scaling Law走了一遍,驗(yàn)證圖像和視頻DiT(Diffusion with Transformer,兩者融合)也存在Scaling Law,后續(xù)Scaling Law還會(huì)進(jìn)一步往下走。
業(yè)內(nèi)其他廠商也對(duì)視頻生成模型的進(jìn)展和難點(diǎn)提出了新判斷。11月,生數(shù)科技發(fā)布Vidu 1.5版本,優(yōu)化多主體一致性、上下文記憶方面表現(xiàn)。隨后生數(shù)科技聯(lián)合創(chuàng)始人鮑凡稱,關(guān)于Scaling Law是否“撞墻”,業(yè)內(nèi)沒有標(biāo)準(zhǔn)答案,存在Scaling Law從數(shù)學(xué)理論上“撞墻”的可能,業(yè)內(nèi)也在尋找新方法。架構(gòu)上,業(yè)內(nèi)架構(gòu)已在一邊收斂一邊創(chuàng)新,此前業(yè)內(nèi)有自回歸和融合的架構(gòu)之爭(zhēng),實(shí)際效果顯示Diffusion和Transformer融合架構(gòu)更優(yōu),于是包括OpenAI等公司都在順延采用這種結(jié)構(gòu),同時(shí)業(yè)內(nèi)也探索在新方法,例如解決DiT處理上下文能力欠缺的問題。而Vidu1.5的推出已表明這種Diffusion和Transformer的架構(gòu)并非最優(yōu),接下來架構(gòu)路線可能進(jìn)一步調(diào)整。
從這次推出的Sora來看,視頻生成賽道還未拉開差距。
10個(gè)月前掀起視頻生成熱潮的Sora開放使用了,現(xiàn)在它要面對(duì)近20個(gè)競(jìng)爭(zhēng)對(duì)手。
新版工具Sora Turbo可以生成最長(zhǎng)達(dá)20秒的視頻,并且可以提供這些視頻的多種變體。
視頻可能不是OpenAI當(dāng)下的第一優(yōu)先級(jí),但國(guó)產(chǎn)視頻大模型忙著降低門檻、讓人人用上。
汽車零部件概念股金麒麟5連板,車聯(lián)網(wǎng)概念股飛天誠信4連板。