分享到微信打開微信,點擊底部的“發(fā)現(xiàn)”, |
Sora還未開放公測,視頻生成領(lǐng)域迎來了新的競爭者。當(dāng)?shù)貢r間6月12日,AI初創(chuàng)公司Luma AI發(fā)布視頻生成模型Dream Machine,該視頻生成模型支持文生視頻和圖生視頻模式,目前可免費試用?;蚴且驗榫W(wǎng)站涌入用戶量過多,記者看到,其官網(wǎng)顯示“因需求量大,請求將排隊”。
從Luma AI官方放出的視頻看,Dream Machine生成視頻的質(zhì)量頗高。例如,眼部特寫可看清眼球中變幻的色彩,老虎在雪地中行走動作自然,臉部特寫光影斑駁、鏡頭移動自然,人物動作銜接流暢。已有網(wǎng)友在社交平臺上放出用Dream Machine制作的視頻,畫面看上去頗為真實,例如,北極熊在野外行走時毛發(fā)自然,沙漠中的汽車揚(yáng)起沙粒。
記者將“In Japanese comic style, a girl stands in a train, gazing out at the autumn scenery outside the window”(日本漫畫風(fēng)格,一個女孩站在列車中望向窗外的秋景)提示詞輸入Pika和Dream Machine,從生成的視頻看,后者更勝一籌。Pika的視頻3秒,視頻中的女孩站在列車外而不是列車內(nèi),列車經(jīng)過時圖像有所變形,且風(fēng)格不符合描述。Dream Machine單個視頻時長5秒,人物位于列車內(nèi),風(fēng)格更貼切。
據(jù)Luma AI官網(wǎng)介紹,Dream Machine可生成120秒120幀的視頻。Luma AI同時指出Dream Machine的限制所在,包括畫面中動作還會變形,主體運(yùn)動動作不夠合理等,例如一條狗在路上行走時腳不沾地、北極熊的頭更換了位置。目前,免費用戶每個月可生成30次視頻,付費用戶一個月有120~2000次機(jī)會生成視頻,一個月收費29.99~499.99美元。
Luma AI成立于2021年,創(chuàng)始人兼CEO Amit Jain曾是蘋果計算機(jī)視覺工程師,聯(lián)合創(chuàng)始人Alex Yu畢業(yè)于加州大學(xué)伯克利分校。Luma AI經(jīng)歷多輪融資,A輪融資籌集了2000萬美元,英偉達(dá)投資部門參與了此輪融資。B輪融資籌集金額4300萬美元,英偉達(dá)、風(fēng)投機(jī)構(gòu)Andreessen Horowitz參與了此輪融資。2023年,Luma AI曾推出一款名為Genie的工具,用于將2D圖片生成3D模型。
文生視頻、文生圖領(lǐng)域進(jìn)展近日有所加快。當(dāng)?shù)貢r間6月12日,Stability AI開源了Stable Diffusion 3 Medium。Stability AI稱,該模型是Stable Diffusion 3系列中最新、最先進(jìn)的文本轉(zhuǎn)圖像模型,有20億參數(shù),在非商業(yè)情況下可免費試用,商用場景下面向藝術(shù)家、設(shè)計師等提供創(chuàng)作者許可證。Stable Diffusion 3采用與Sora相同的底層架構(gòu)DiT(融合了Transformer和Diffusion)。
記者了解到,文生圖和視頻生成模型邁向成熟的一個關(guān)鍵是,技術(shù)路線都朝著Transformer+Diffusion的方向演進(jìn),相比Diffusion,Transformer+Diffusion可實現(xiàn)較好的擴(kuò)展性。從文生圖到視頻生成模型則存在一定的演進(jìn)關(guān)系。
與Luma AI相似,國內(nèi)AI創(chuàng)業(yè)企業(yè)生數(shù)科技在進(jìn)入視頻生成領(lǐng)域前聚焦的方向也是3D,其選擇的技術(shù)路徑也是融合Transformer和Diffusion的U-ViT框架。除了Stable Diffusion 3 Medium開源,5月騰訊也開源了DiT架構(gòu)的混元文生圖模型Hunyuan-DiT。一名資深視頻生成行業(yè)人士告訴記者,業(yè)內(nèi)Trnsformer+Diffusion的路徑相對比較成熟,但視頻生成算法成熟度仍有限,廠商間技術(shù)方向彼此沒有太大的差別,差別可能在于所能投入的資金。
火山引擎除了推出視覺理解模型之外,還發(fā)布、升級了多個其他模型。
10個月前掀起視頻生成熱潮的Sora開放使用了,現(xiàn)在它要面對近20個競爭對手。
新版工具Sora Turbo可以生成最長達(dá)20秒的視頻,并且可以提供這些視頻的多種變體。
各文生視頻模型成功率都不高,視頻模型還不能很快進(jìn)入商業(yè)化階段。
汽車零部件概念股金麒麟5連板,車聯(lián)網(wǎng)概念股飛天誠信4連板。