亚洲中文字乱码免费播放,精品国产日韩专区欧美第一页,亚洲中文有码字幕青青,亚洲综合另类专区在线

<menuitem id="s2qou"><rt id="s2qou"></rt></menuitem>

首頁 > 新聞 > 科技

分享到微信

打開微信，點擊底部的“發(fā)現(xiàn)”，
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。

MiniMax加入視頻生成混戰(zhàn)，大模型的盡頭是做視頻？

第一財經(jīng) 2024-09-01 19:05:52 聽新聞

作者：劉曉潔責(zé)編：寧佳彥

大模型有很多非共識，但視頻生成或許是今年各大模型廠商的共識。

又一家國內(nèi)獨角獸加入視頻生成模型的混戰(zhàn)。

8月31日，一向低調(diào)的“AI六小龍” 之一——MiniMax第一次正式對外，在上海辦了場“MiniMax Link伙伴日”活動。在會上，MiniMax創(chuàng)始人閆俊杰宣布推出視頻生成模型和音樂模型。此外，他預(yù)告，新?版能從速度和效果都對標(biāo)GPT-4o的大模型abab7，會在未來?周內(nèi)發(fā)布。

這一視頻生成模型的對外名稱為video-1，在具體參數(shù)上MiniMax并未有太多介紹。閆俊杰提到，相比市面上的視頻模型，video-1具有壓縮率高、文本響應(yīng)好和風(fēng)格多樣的特點，可生成原生高分辨率、高幀率視頻。目前video-1只提供了文生視頻，在未來產(chǎn)品會迭代圖生視頻、可編輯、可控性等功能。

閆俊杰在活動現(xiàn)場介紹MiniMax的大模型產(chǎn)品

目前所有用戶都可以登錄海螺AI官網(wǎng)體驗video-1的視頻生成功能，記者在現(xiàn)場體驗了一下，輸入一段簡單的提示詞，大概等待1-2分鐘，可生成6秒的視頻。從輸出效果來看，畫面基本覆蓋了提示詞說到的點，高清、色調(diào)審美合格，可以改進(jìn)的地方是人物面部細(xì)節(jié)。

在大會討論環(huán)節(jié)，閆俊杰提到一個點是，大模型是一個看起來很熱，但是也有很多非共識的領(lǐng)域，“到底要做2B還是2C，到底做國內(nèi)還是做海外，Scaling law到底能不能延續(xù)……”等等。

盡管有這么多非共識，但視頻生成或許是今年各大模型廠商的共識。

自今年2月OpenAI發(fā)布視頻大模型Sora后，行業(yè)叫得上名字的發(fā)布不少，4月生數(shù)科技發(fā)布視頻大模型Vidu，6月快手發(fā)布AI視頻生成大模型可靈，一周后Luma AI發(fā)布文生視頻模型Dream Machine，Runway在7月初宣布，文生視頻模型Gen-3 Alpha向所有用戶開放使用，在世界人工智能大會期間阿里達(dá)摩院推出尋光，7月底，愛詩科技發(fā)布PixVerse V2，隨后智譜正式發(fā)布清影視頻，8月初，字節(jié)即夢AI上架應(yīng)用商店……

一年前市面上還很少有面向公眾的文生視頻模型，短短幾個月內(nèi)我們目睹了幾十款視頻生成模型的問世，一位行業(yè)人士感慨，過去一年對于AI視頻生成來說是一個歷史性的時刻。

在采訪中，第一財經(jīng)記者問及MiniMax布局視頻生成的必要性，閆俊杰表示，本質(zhì)原因是，人類社會的信息更多體現(xiàn)在多模態(tài)內(nèi)容上，“我們每天看的大部分內(nèi)容，都不是文字，都是一些動態(tài)的內(nèi)容。你打開小紅書都是圖文，打開抖音都是視頻，甚至打開拼多多買東西，大部分時候也是圖片。”?活中，?字交互只是很?的?部分，更多的是語?和視頻交互。

因此，為了能夠有非常高的用戶覆蓋度，以及更高的使用深度，作為大模型廠商，唯一的辦法是能夠輸出多模態(tài)的內(nèi)容，而不是只是輸出單純的基于文字的內(nèi)容，閆俊杰解釋，這是一個核心的判斷。

“只是在之前我們先做出來文字，又做出來聲音，很早做出來了圖片，現(xiàn)在技術(shù)變得更強(qiáng)，（可以）把視頻也做出來。這個路線是一以貫之的，一定要能做多模態(tài)。” 閆俊杰說。

但視頻生成賽道很難，僅看OpenAI在年初發(fā)布Sora后，至今沒有正式對外，也可以窺見行業(yè)的一些挑戰(zhàn)。

一方面，目前的視頻生成結(jié)果遠(yuǎn)遠(yuǎn)達(dá)不到用戶的預(yù)期，模型并不懂物理規(guī)則，同時生成過程很難控制。視頻、圖像、三維的生成類算法會遇到很多結(jié)構(gòu)性和細(xì)節(jié)性問題，如通常會多長出一樣?xùn)|西或者少一樣?xùn)|西，或者手穿模到人身體里，精細(xì)化的視頻、尤其是具有物理規(guī)則的視頻目前很難生成。

在采訪中，閆俊杰也表示“這件事還挺難的”，否則如此多號稱做這個事的公司早做出來了。視頻的工作復(fù)雜度比做文本更難，因為視頻的上下文文本天然很長。例如，一個視頻是千萬的輸入和輸出，天然就是一個很難的處理。其次，視頻量很大，看一個5秒的視頻就有幾M，但是5秒看的文字大概100個字，可能都不到1K的數(shù)據(jù)量，這是幾千倍的存儲差距。

“這里面的挑戰(zhàn)在于，之前基于文本建的這套底層基礎(chǔ)設(shè)施怎么來處理數(shù)據(jù)，怎么來清洗數(shù)據(jù)，以及怎么來標(biāo)注，對視頻上都不太適用。”閆俊杰認(rèn)為，基礎(chǔ)設(shè)施需要升級，其次就是耐心，做文字有很多開源，如果基于開源來做，自己研發(fā)會更快，如果做視頻，開源內(nèi)容沒那么多，很多內(nèi)容做出來也會發(fā)現(xiàn)需要重做，需要付出的耐心更大。

此前有行業(yè)從業(yè)者對記者表示，目前的視頻生成有點像圖像生成的2022年前夕，2022年8月Stable Diffusion開源后，AIGC圖像生成開始爆發(fā)，但視頻生成領(lǐng)域目前還沒有一個特別厲害的“開源Sora”發(fā)布，大家還需要探路。

啟明創(chuàng)投在7月發(fā)布了 “2024生成式AI十大展望”，其中一條是，3年內(nèi)視頻生成將全面爆發(fā)，他們認(rèn)為，結(jié)合3D能力，可控的視頻生成將對影視、動畫、短片的生產(chǎn)模式帶來變革。未來圖像和視頻隱空間表示的壓縮率提升五倍以上，從而使生成速度提升五倍以上。

舉報

第一財經(jīng)廣告合作，請點擊這里

此內(nèi)容為第一財經(jīng)原創(chuàng)，著作權(quán)歸第一財經(jīng)所有。未經(jīng)第一財經(jīng)書面授權(quán)，不得以任何方式加以使用，包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。第一財經(jīng)保留追究侵權(quán)者法律責(zé)任的權(quán)利。如需獲得授權(quán)請聯(lián)系第一財經(jīng)版權(quán)部：021-22002972或021-22002335；banquan@yicai.com。

文章作者

劉曉潔

相關(guān)閱讀

Figure AI與OpenAI“分手”，人形機(jī)器人公司與大模型公司重新劃定邊界

一些人形機(jī)器人廠商此前走上與大模型公司合作的道路。

276 02-05 11:40

DeepSeek繁榮了歐洲AI生態(tài)，有初創(chuàng)公司已棄用ChatGPT

DeepSeek的出現(xiàn)正在改變?nèi)斯ぶ悄艿母窬?，讓公司能夠以極低的成本使用該技術(shù)，并可能推動其他人工智能公司改進(jìn)他們的模型并降低價格。

296 02-04 16:13

DeepSeek的“蒸餾模型”超越原創(chuàng)？美國要對“蒸餾技術(shù)”下手

數(shù)據(jù)蒸餾是一種業(yè)內(nèi)常見的技術(shù)做法，是指通過一系列算法和策略，將原始的、復(fù)雜的數(shù)據(jù)進(jìn)行去噪、降維、提煉等操作，從而得到更為精煉、有用的數(shù)據(jù)。

1092 01-30 12:40

OpenAI發(fā)布能訂餐、購物的Operator，高管稱智能體之年來了

OpenAI CEO山姆·奧爾特曼認(rèn)為，2025年人們將會看到第一批AI智能體“加入勞動力大軍”。

171 01-24 11:39

國內(nèi)大模型春節(jié)前迎來密集發(fā)布周，一手追趕OpenAI一手尋找新方向

這些大模型企業(yè)年初釋放的信號可能指明了今年大模型領(lǐng)域的競爭方向。

190 01-22 07:39

一財最熱

點擊關(guān)閉