亚洲中文字乱码免费播放,精品国产日韩专区欧美第一页,亚洲中文有码字幕青青,亚洲综合另类专区在线

首頁 > 新聞 > 科技

分享到微信

打開微信，點擊底部的“發(fā)現(xiàn)”，
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。

不想“閉門造車”，騰訊混元開源130億參數(shù)視頻模型

第一財經(jīng) 2024-12-04 15:01:43 聽新聞

作者：鄭栩彤責編：寧佳彥

各文生視頻模型成功率都不高，視頻模型還不能很快進入商業(yè)化階段。

自今年2月OpenAI的Sora首次公開展示以來，視頻生成經(jīng)歷了從備受期待到遭受質(zhì)疑的過程。在這大約10個月里，Sora遲遲未開放給公眾使用，國內(nèi)百川智能創(chuàng)始人兼CEO王小川則基于AI的路線判斷 “摁死”了公司跟進Sora的想法，另一些互聯(lián)網(wǎng)大廠和大模型創(chuàng)業(yè)公司還在陸續(xù)跟進推出視頻生成模型，但對外的發(fā)聲表態(tài)也漸趨冷靜。

12月3日，騰訊混元大模型上線了視頻生成能力，并開源了這個參數(shù)量130億的視頻生成大模型HunYuan-Vieo。據(jù)稱該模型是業(yè)界參數(shù)最大的開源視頻模型，可生成5秒視頻。據(jù)混元團隊公布的文生視頻模型效果評估，混元視頻生成模型總體評分41.3%，高于未公開名稱的國內(nèi)模型A和B以及海外的GEN-3 alpha和Luma1.6。這項評估參照持續(xù)時間、文本對齊、運動質(zhì)量、視覺質(zhì)量幾個維度，顯示五個模型評分都不高，最低的Luma1.6評分僅24.8%。

接受第一財經(jīng)等媒體采訪時，騰訊混元多模態(tài)生成技術(shù)負責人凱撒直言，文生視頻還不處于很成熟的階段，各模型成功率都不高，至少文生視頻的技術(shù)程度在混元內(nèi)部的評估中，還沒有到大規(guī)模商業(yè)化的程度，而是在技術(shù)打磨階段。

從開源生態(tài)看，凱撒認為，現(xiàn)在視頻生成開源生態(tài)也不是很成氣候，最大的問題是開源的視頻生成底模（基底模型）跟閉源差距太大?，F(xiàn)在視頻生成所需的算力、數(shù)據(jù)消耗量和圖像生成相比是數(shù)量級的差距，業(yè)內(nèi)不太想把自己花大成本做出來的模型開源出來。在這種閉門造車的情況下，最好的模型很多人也沒有用起來，于是混元開源了自己的視頻生成模型。

記者用混元大模型視頻生成功能分別生成“三只黑貓在雪中玩耍，留下腳印”“三只黑貓在雪中追逐，留下腳印”和“一只戴著黃色圍巾的企鵝在故宮門口吃冰糖葫蘆”的視頻。第一個視頻生成三只黑貓在雪中，沒有生成明顯的腳印，但黑貓主體完整，腳踩在坑洼不平的雪地上時產(chǎn)生了正常的視線遮擋。第二個視頻中，貓在雪地上踩出坑，有與物理環(huán)境的真實互動，但有兩只黑貓融合成了一只。第三個視頻場景正確且皮毛清晰，但冰糖葫蘆會自己移動。記者此前嘗試使用過一些主流的免費視頻生成模型也發(fā)現(xiàn)，很多模型已能做到畫面細膩真實，但運動規(guī)律或物理規(guī)律還不能很好體現(xiàn)。

從文生視頻的具體難點看，凱撒告訴記者，對比文生圖模型一次出一張圖，這個視頻生成模型要生成129幀畫面，每一幀都正確非常難。視頻生成算力會隨著時間延長而呈平方級上升，且時長越長，畫面退化越嚴重，業(yè)界目前主流都是五六秒。如果類比文生圖模型，現(xiàn)在視頻生成的水平就像兩年前SD（Stable Diffusion）還沒面世時的水平。此外，視頻模型無法足夠真實地模擬世界的物理規(guī)律，例如掉下的杯子不碎，要改變這一點，背后涉及難度非常大的數(shù)據(jù)處理、清洗以及物理規(guī)律引入工作，后續(xù)混元將給視頻模型引入真實世界的知識。

此外，記者了解到，視頻生成模型的技術(shù)路徑也還未完全清晰。凱撒表示，業(yè)界此前未解答“Scaling Law（縮放定律）在視頻領(lǐng)域存不存在”的問題，混元只能從頭做，把視頻的Scaling Law走了一遍，驗證圖像和視頻DiT（Diffusion with Transformer，兩者融合）也存在Scaling Law，后續(xù)Scaling Law還會進一步往下走。

業(yè)內(nèi)其他廠商也對視頻生成模型的進展和難點提出了新判斷。11月，生數(shù)科技發(fā)布Vidu 1.5版本，優(yōu)化多主體一致性、上下文記憶方面表現(xiàn)。隨后生數(shù)科技聯(lián)合創(chuàng)始人鮑凡稱，關(guān)于Scaling Law是否“撞墻”，業(yè)內(nèi)沒有標準答案，存在Scaling Law從數(shù)學理論上“撞墻”的可能，業(yè)內(nèi)也在尋找新方法。架構(gòu)上，業(yè)內(nèi)架構(gòu)已在一邊收斂一邊創(chuàng)新，此前業(yè)內(nèi)有自回歸和融合的架構(gòu)之爭，實際效果顯示Diffusion和Transformer融合架構(gòu)更優(yōu)，于是包括OpenAI等公司都在順延采用這種結(jié)構(gòu)，同時業(yè)內(nèi)也探索在新方法，例如解決DiT處理上下文能力欠缺的問題。而Vidu1.5的推出已表明這種Diffusion和Transformer的架構(gòu)并非最優(yōu)，接下來架構(gòu)路線可能進一步調(diào)整。

舉報

第一財經(jīng)廣告合作，請點擊這里

此內(nèi)容為第一財經(jīng)原創(chuàng)，著作權(quán)歸第一財經(jīng)所有。未經(jīng)第一財經(jīng)書面授權(quán)，不得以任何方式加以使用，包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。第一財經(jīng)保留追究侵權(quán)者法律責任的權(quán)利。
如需獲得授權(quán)請聯(lián)系第一財經(jīng)版權(quán)部：banquan@yicai.com

文章作者

鄭栩彤

相關(guān)閱讀

生數(shù)科技朱軍：視頻模型更期待“ChatGPT時刻”

廠商期待視頻模型更加可控與好用，步入視頻領(lǐng)域的“ChatGPT時刻”。

AI進化速遞丨騰訊混元自研深度思考模型「T1」正式發(fā)布

騰訊混元自研深度思考模型「T1」正式發(fā)布；宇樹旗下人形機器人G1實拍展示“鯉魚打挺”；上海交大發(fā)布大模型Venus，可讓蛋白質(zhì)“定向進化”。

為Sora氪金200美元后，AI創(chuàng)作者們后悔嗎？

從這次推出的Sora來看，視頻生成賽道還未拉開差距。

508 2024-12-19 10:54

AI周報| OpenAI最大“期貨”Sora開放使用；谷歌發(fā)布量子芯片突破

中央經(jīng)濟工作會議提“人工智能+”，全球首個AI程序員Devin全面開放。

156 2024-12-15 10:28

OpenAI最大“期貨”Sora開放使用，面臨近20個競爭對手挑戰(zhàn)

10個月前掀起視頻生成熱潮的Sora開放使用了，現(xiàn)在它要面對近20個競爭對手。

458 2024-12-10 11:42

一財最熱

點擊關(guān)閉