亚洲中文字乱码免费播放,精品国产日韩专区欧美第一页,亚洲中文有码字幕青青,亚洲综合另类专区在线

          首頁 > 新聞 > 科技

          分享到微信

          打開微信,點擊底部的“發(fā)現(xiàn)”,
          使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。

          MiniMax加入視頻生成混戰(zhàn),大模型的盡頭是做視頻?

          第一財經(jīng) 2024-09-01 19:05:52 聽新聞

          作者:劉曉潔    責(zé)編:寧佳彥

          大模型有很多非共識,但視頻生成或許是今年各大模型廠商的共識。

          又一家國內(nèi)獨角獸加入視頻生成模型的混戰(zhàn)。

          8月31日,一向低調(diào)的“AI六小龍” 之一——MiniMax第一次正式對外,在上海辦了場“MiniMax Link伙伴日”活動。在會上,MiniMax創(chuàng)始人閆俊杰宣布推出視頻生成模型和音樂模型。此外,他預(yù)告,新?版能從速度和效果都對標(biāo)GPT-4o的大模型abab7,會在未來?周內(nèi)發(fā)布。

          這一視頻生成模型的對外名稱為video-1,在具體參數(shù)上MiniMax并未有太多介紹。閆俊杰提到,相比市面上的視頻模型,video-1具有壓縮率高、文本響應(yīng)好和風(fēng)格多樣的特點,可生成原生高分辨率、高幀率視頻。目前video-1只提供了文生視頻,在未來產(chǎn)品會迭代圖生視頻、可編輯、可控性等功能。

          閆俊杰在活動現(xiàn)場介紹MiniMax的大模型產(chǎn)品

          目前所有用戶都可以登錄海螺AI官網(wǎng)體驗video-1的視頻生成功能,記者在現(xiàn)場體驗了一下,輸入一段簡單的提示詞,大概等待1-2分鐘,可生成6秒的視頻。從輸出效果來看,畫面基本覆蓋了提示詞說到的點,高清、色調(diào)審美合格,可以改進(jìn)的地方是人物面部細(xì)節(jié)。

          在大會討論環(huán)節(jié),閆俊杰提到一個點是,大模型是一個看起來很熱,但是也有很多非共識的領(lǐng)域,“到底要做2B還是2C,到底做國內(nèi)還是做海外,Scaling law到底能不能延續(xù)……”等等。

          盡管有這么多非共識,但視頻生成或許是今年各大模型廠商的共識。

          自今年2月OpenAI發(fā)布視頻大模型Sora后,行業(yè)叫得上名字的發(fā)布不少,4月生數(shù)科技發(fā)布視頻大模型Vidu,6月快手發(fā)布AI視頻生成大模型可靈,一周后Luma AI發(fā)布文生視頻模型Dream Machine,Runway在7月初宣布,文生視頻模型Gen-3 Alpha向所有用戶開放使用,在世界人工智能大會期間阿里達(dá)摩院推出尋光,7月底,愛詩科技發(fā)布PixVerse V2,隨后智譜正式發(fā)布清影視頻,8月初,字節(jié)即夢AI上架應(yīng)用商店……

          一年前市面上還很少有面向公眾的文生視頻模型,短短幾個月內(nèi)我們目睹了幾十款視頻生成模型的問世,一位行業(yè)人士感慨,過去一年對于AI視頻生成來說是一個歷史性的時刻。

          在采訪中,第一財經(jīng)記者問及MiniMax布局視頻生成的必要性,閆俊杰表示,本質(zhì)原因是,人類社會的信息更多體現(xiàn)在多模態(tài)內(nèi)容上,“我們每天看的大部分內(nèi)容,都不是文字,都是一些動態(tài)的內(nèi)容。你打開小紅書都是圖文,打開抖音都是視頻,甚至打開拼多多買東西,大部分時候也是圖片。”?活中,?字交互只是很?的?部分,更多的是語?和視頻交互。

          因此,為了能夠有非常高的用戶覆蓋度,以及更高的使用深度,作為大模型廠商,唯一的辦法是能夠輸出多模態(tài)的內(nèi)容,而不是只是輸出單純的基于文字的內(nèi)容,閆俊杰解釋,這是一個核心的判斷。

          “只是在之前我們先做出來文字,又做出來聲音,很早做出來了圖片,現(xiàn)在技術(shù)變得更強(qiáng),(可以)把視頻也做出來。這個路線是一以貫之的,一定要能做多模態(tài)。” 閆俊杰說。

          但視頻生成賽道很難,僅看OpenAI在年初發(fā)布Sora后,至今沒有正式對外,也可以窺見行業(yè)的一些挑戰(zhàn)。

          一方面,目前的視頻生成結(jié)果遠(yuǎn)遠(yuǎn)達(dá)不到用戶的預(yù)期,模型并不懂物理規(guī)則,同時生成過程很難控制。視頻、圖像、三維的生成類算法會遇到很多結(jié)構(gòu)性和細(xì)節(jié)性問題,如通常會多長出一樣?xùn)|西或者少一樣?xùn)|西,或者手穿模到人身體里,精細(xì)化的視頻、尤其是具有物理規(guī)則的視頻目前很難生成。

          在采訪中,閆俊杰也表示“這件事還挺難的”,否則如此多號稱做這個事的公司早做出來了。視頻的工作復(fù)雜度比做文本更難,因為視頻的上下文文本天然很長。例如,一個視頻是千萬的輸入和輸出,天然就是一個很難的處理。其次,視頻量很大,看一個5秒的視頻就有幾M,但是5秒看的文字大概100個字,可能都不到1K的數(shù)據(jù)量,這是幾千倍的存儲差距。

          “這里面的挑戰(zhàn)在于,之前基于文本建的這套底層基礎(chǔ)設(shè)施怎么來處理數(shù)據(jù),怎么來清洗數(shù)據(jù),以及怎么來標(biāo)注,對視頻上都不太適用。”閆俊杰認(rèn)為,基礎(chǔ)設(shè)施需要升級,其次就是耐心,做文字有很多開源,如果基于開源來做,自己研發(fā)會更快,如果做視頻,開源內(nèi)容沒那么多,很多內(nèi)容做出來也會發(fā)現(xiàn)需要重做,需要付出的耐心更大。

          此前有行業(yè)從業(yè)者對記者表示,目前的視頻生成有點像圖像生成的2022年前夕,2022年8月Stable Diffusion開源后,AIGC圖像生成開始爆發(fā),但視頻生成領(lǐng)域目前還沒有一個特別厲害的“開源Sora”發(fā)布,大家還需要探路。

          啟明創(chuàng)投在7月發(fā)布了 “2024生成式AI十大展望”,其中一條是,3年內(nèi)視頻生成將全面爆發(fā),他們認(rèn)為,結(jié)合3D能力,可控的視頻生成將對影視、動畫、短片的生產(chǎn)模式帶來變革。未來圖像和視頻隱空間表示的壓縮率提升五倍以上,從而使生成速度提升五倍以上。

          舉報
          第一財經(jīng)廣告合作,請點擊這里
          此內(nèi)容為第一財經(jīng)原創(chuàng),著作權(quán)歸第一財經(jīng)所有。未經(jīng)第一財經(jīng)書面授權(quán),不得以任何方式加以使用,包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。第一財經(jīng)保留追究侵權(quán)者法律責(zé)任的權(quán)利。 如需獲得授權(quán)請聯(lián)系第一財經(jīng)版權(quán)部:021-22002972或021-22002335;banquan@yicai.com。

          文章作者

          一財最熱
          點擊關(guān)閉