亚洲中文字乱码免费播放,精品国产日韩专区欧美第一页,亚洲中文有码字幕青青,亚洲综合另类专区在线

          首頁(yè) > 新聞 > 科技

          分享到微信

          打開(kāi)微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
          使用“掃一掃”即可將網(wǎng)頁(yè)分享至朋友圈。

          OpenAI最大“期貨”Sora開(kāi)放使用,面臨近20個(gè)競(jìng)爭(zhēng)對(duì)手挑戰(zhàn)

          第一財(cái)經(jīng) 2024-12-10 11:51:17 聽(tīng)新聞

          作者:鄭栩彤    責(zé)編:劉佳

          10個(gè)月前掀起視頻生成熱潮的Sora開(kāi)放使用了,現(xiàn)在它要面對(duì)近20個(gè)競(jìng)爭(zhēng)對(duì)手。

          當(dāng)?shù)貢r(shí)間周一,OpenAI宣布正式向用戶(hù)開(kāi)放AI視頻生成模型Sora,此時(shí)距離OpenAI首次公開(kāi)展示Sora已過(guò)去大約10個(gè)月。據(jù)介紹,Sora將于當(dāng)天晚些時(shí)候向美國(guó)及其他市場(chǎng)的ChatGPT付費(fèi)用戶(hù)開(kāi)放Sora Turbo版本,這是一個(gè)生成速度更快的版本。

          “Sora為模型理解和模擬現(xiàn)實(shí)世界提供了一個(gè)基礎(chǔ),我們相信這個(gè)能力將是實(shí)現(xiàn)AGI(通用人工智能)路上的一個(gè)重要里程碑。”OpenAI表示。有用戶(hù)則在社交媒體上表示,Sora的服務(wù)器已經(jīng)太過(guò)繁忙,出現(xiàn)無(wú)法注冊(cè)的情況。

          此次Sora新增了一些功能,讓用戶(hù)有更多工具來(lái)控制視頻。不過(guò),此次公開(kāi)給付費(fèi)用戶(hù)使用的Sora Turbo版本生成時(shí)長(zhǎng)最多20秒,而非Sora首次公開(kāi)展示時(shí)的1分鐘。記者了解到,視頻時(shí)長(zhǎng)較短還是視頻模型面臨的一個(gè)難點(diǎn),其背后與視頻延續(xù)性能力不足有關(guān)。

          Sora新增功能

          此次Sora展示了一些新功能,包括用戶(hù)可使用Remix工具,替換、刪除或重新設(shè)計(jì)視頻中的元素。此外,用戶(hù)還可以找到最佳的幀并在此基礎(chǔ)上擴(kuò)展成一個(gè)場(chǎng)景(Re-cut),還可以在時(shí)間軸上編輯視頻的獨(dú)特序列(Storyboard)、使用Loop工具剪輯并要求Sora生成無(wú)縫銜接的重復(fù)視頻、將兩個(gè)視頻合并為一個(gè)無(wú)縫銜接的視頻(Blend)、創(chuàng)建獨(dú)特風(fēng)格(Style Presets)。

          這些新功能讓Sora在用戶(hù)手中變得更加可控。據(jù)OpenAI展示的案例,用戶(hù)可以要求視頻中的門(mén)打開(kāi)、將圖書(shū)館替換成宇宙飛船;將一個(gè)飄雪的視頻和一個(gè)花朵降落的視頻合并在一起,就會(huì)出現(xiàn)花朵與雪花同時(shí)降落、最后變成只有花朵降落的一段視頻,過(guò)渡自然;將花朵開(kāi)放閉合的視頻重復(fù),花朵將會(huì)持續(xù)重復(fù)開(kāi)放閉合的動(dòng)作,將翻滾海浪的視頻重復(fù),則會(huì)出現(xiàn)一個(gè)不斷涌動(dòng)的海浪,這些重復(fù)的視頻不會(huì)出現(xiàn)視頻間機(jī)械拼接的跡象;將大象和犀牛行走的畫(huà)面換個(gè)風(fēng)格,則能變成黑白風(fēng)格,或者變成紙工藝大象和犀牛行走的畫(huà)面,或者更換它們所處的背景。

          OpenAI展示的Sora案例。

          OpenAI表示,Sora Turbo還是一個(gè)早期版本,它可以通過(guò)輸入文本、圖像和視頻轉(zhuǎn)化為視頻輸出,視頻分辨率可達(dá)1080p,最長(zhǎng)生成時(shí)長(zhǎng)是20秒。技術(shù)上,Sora是一個(gè)Diffusion(擴(kuò)散)模型,被賦予了許多幀的預(yù)見(jiàn)能力,OpenAI表示,現(xiàn)在已經(jīng)解決了一個(gè)具有挑戰(zhàn)性的問(wèn)題,即當(dāng)某個(gè)主題暫時(shí)消失在畫(huà)面中時(shí),視頻主題依然不變。

          Sora與GPT模型類(lèi)似,也采用了Transformer架構(gòu)。此外,Sora還使用了DALL·E 3的重現(xiàn)技術(shù),該技術(shù)能為視覺(jué)訓(xùn)練數(shù)據(jù)生成高度描述性的詞,使模型能更貼合用戶(hù)的文字指令。OpenAI表示,當(dāng)Sora基于一個(gè)靜止圖像生成視頻時(shí),能精確地將圖像內(nèi)容動(dòng)畫(huà)化,并關(guān)注里面的小細(xì)節(jié),也能獲取現(xiàn)有的視頻并填充視頻中缺失的幀。

          “正如我們?cè)?月的技術(shù)報(bào)告中描述的,Sora從大語(yǔ)言模型中獲得靈感,這些模型通過(guò)在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)基礎(chǔ)上訓(xùn)練來(lái)獲得能力。大語(yǔ)言模型的成功一定程度上得益于用token(詞元)統(tǒng)一了各種數(shù)據(jù)形式,在Sora中,我們也考慮了視覺(jué)生成模型如何繼承以上優(yōu)點(diǎn),類(lèi)似于大語(yǔ)言模型預(yù)測(cè)下一個(gè)token,Sora能生成visual patches(視覺(jué)補(bǔ)丁)。我們先將視頻壓縮到一個(gè)較低維的空間,將其分解為時(shí)空補(bǔ)丁,再將視頻轉(zhuǎn)化為補(bǔ)丁。”就技術(shù)原理,OpenAI解釋。

          OpenAI還介紹了Sora訓(xùn)練的數(shù)據(jù)來(lái)源。來(lái)源包括公開(kāi)可用的數(shù)據(jù),主要來(lái)自機(jī)器學(xué)習(xí)數(shù)據(jù)集和通過(guò)網(wǎng)絡(luò)爬蟲(chóng)技術(shù)收集的數(shù)據(jù),此外,OpenAI還與Shutterstock$Pond5等廠商合作以獲取非公開(kāi)數(shù)據(jù),并用到了來(lái)自AI訓(xùn)練者、紅隊(duì)測(cè)試成員和員工的反饋數(shù)據(jù)。

          當(dāng)?shù)貢r(shí)間周一晚些時(shí)候,Sora Turbo版本已開(kāi)放給付費(fèi)用戶(hù)使用。目前已有OpenAI員工在社交媒體上展示了自己創(chuàng)作的視頻,例如生成古人騎馬打戰(zhàn)、古代黑白街景的20秒視頻,這些畫(huà)面看起來(lái)有足夠的細(xì)膩度,也有特寫(xiě)、中景和遠(yuǎn)景的鏡頭切換,不過(guò),仍有一些不合理之處。

          以古人騎馬打戰(zhàn)的視頻為例,一開(kāi)始畫(huà)面還比較合理,人物身著古代服飾并舉著劍,馬匹奔跑前進(jìn),不過(guò),到第11秒時(shí)突然有一個(gè)人無(wú)緣由地從馬上摔下,畫(huà)面上還出現(xiàn)了一個(gè)人騎馬往另一個(gè)方向走。

          OpenAI員工在社交平臺(tái)上展示用Sora生成的視頻截圖。

          藝術(shù)家Boris Eldagsen也在社交媒體上展示了他此前測(cè)試Sora時(shí)制作的視頻。視頻中梳著油頭的人物一邊跳舞一邊用量尺丈量東西,鏡頭語(yǔ)言豐富,量尺則出現(xiàn)了各種姿態(tài),有時(shí)會(huì)長(zhǎng)在人物的身上,該藝術(shù)家說(shuō)視頻有“對(duì)商業(yè)術(shù)語(yǔ)的卡夫卡式解構(gòu)”。

          也有用戶(hù)在社交平臺(tái)上分享了他如何使用Sora將兩個(gè)視頻融合在一起的功能。該用戶(hù)用了一個(gè)俯拍城堡的視頻和一個(gè)人物在林間奔跑的視頻,融合后,可以看到鏡頭下降到一條林間小路上,遠(yuǎn)處看得到城堡,近處看得到人物在奔跑,過(guò)渡真實(shí),不足之處則在于人物的身高一開(kāi)始與樹(shù)木幾乎齊平,然后迅速下降,有墜落的感覺(jué)。

          用戶(hù)在社交平臺(tái)上展示用Sora生成的視頻。

          其他模型與Sora差距多大?

          推出這些方便用戶(hù)編輯的工具背后,OpenAI表示,今年2月以來(lái),OpenAI就與來(lái)自60多個(gè)國(guó)家的數(shù)百名視覺(jué)藝術(shù)家、設(shè)計(jì)師和電影制作人合作,以便獲得關(guān)于如何改進(jìn)視頻、幫助創(chuàng)意行業(yè)專(zhuān)業(yè)人士創(chuàng)作的反饋。不過(guò),記者留意到,此前Sora展示的視頻出現(xiàn)了對(duì)物理規(guī)律的違背,例如酒杯摔下并不會(huì)碎,而此次Sora更新并未專(zhuān)門(mén)談及在遵循物理規(guī)律方面的改進(jìn)。

          從時(shí)長(zhǎng)上看,相比今年2月Sora首次公開(kāi)展示時(shí)的1分鐘生成視頻時(shí)長(zhǎng),此次公開(kāi)給付費(fèi)用戶(hù)使用的Sora Turbo版本可生成的最長(zhǎng)時(shí)長(zhǎng)則是20秒。能使用Sora Turbo的用戶(hù)是ChatGPT Plus訂閱用戶(hù)和ChatGPT Pro訂閱用戶(hù),其中ChatGPT Plus訂閱用戶(hù)可以每月生成50個(gè)低分辨率視頻,單個(gè)視頻時(shí)長(zhǎng)最長(zhǎng)5秒,只有ChatGPT Pro訂閱用戶(hù)才能無(wú)限制生成高分辨率視頻,時(shí)長(zhǎng)最長(zhǎng)20秒。而ChatGPT Pro的訂閱費(fèi)頗高,達(dá)到每月200美元。

          此次Sora Turbo沒(méi)有開(kāi)放很長(zhǎng)的生成時(shí)長(zhǎng),且收費(fèi)較高,可能是算力成本的因素。一名視頻生成業(yè)內(nèi)人士告訴記者,Sora此前公開(kāi)展示后之所以沒(méi)有很快開(kāi)放公眾使用,一個(gè)可能原因就是推理成本太高,視頻生成模型不能跟文本模型一樣公開(kāi)給用戶(hù)免費(fèi)使用,同時(shí),視頻生成模型訓(xùn)練成本也比文本模型高數(shù)倍以上,商業(yè)模式還待完全打通。

          此外,記者了解到,視頻生成模型要生成效果較好、時(shí)長(zhǎng)較長(zhǎng)的視頻,技術(shù)上也存在卡點(diǎn)。“將視頻生成時(shí)長(zhǎng)做長(zhǎng)是一個(gè)純算力和數(shù)據(jù)問(wèn)題,當(dāng)時(shí)長(zhǎng)增加一倍時(shí),算力呈現(xiàn)平方級(jí)上升,所以將時(shí)長(zhǎng)做太長(zhǎng)并不劃算。如果不考慮算力原因,視頻時(shí)長(zhǎng)可以做得很長(zhǎng),但視頻效果退化會(huì)越來(lái)越嚴(yán)重,業(yè)界主流的模型時(shí)長(zhǎng)都是五六秒。”另有視頻大模型技術(shù)人員告訴記者。

          Sora今年2月公開(kāi)展示Sora后,在業(yè)界引起了視頻大模型熱潮。從Sora的競(jìng)爭(zhēng)產(chǎn)品上看,據(jù)12月初騰訊混元團(tuán)隊(duì)展示的一張文生視頻模型效果評(píng)估表,包括騰訊混元視頻生成、Luma1.6、GEN-3 alpha和2個(gè)國(guó)內(nèi)模型在內(nèi),這5個(gè)模型的效果總體評(píng)分都在24%~42%之間,得分都不算高。業(yè)界已有的其他產(chǎn)品與Sora之間,差距有多大?

          “我看了一些Sora的視頻案例,效果比較好,但貌似與其他視頻模型之間的距離也沒(méi)有大到代際差距。”新浪微博新技術(shù)研發(fā)負(fù)責(zé)人張俊林告訴記者,目前視頻模型的難點(diǎn)還是長(zhǎng)視頻的一致性,就是時(shí)間長(zhǎng)了之后如何讓角色和背景表現(xiàn)一致。據(jù)不完全統(tǒng)計(jì),目前已發(fā)布或已在內(nèi)測(cè)的國(guó)內(nèi)外視頻生成產(chǎn)品已有Sora、Gen3、Luma、Pika、即夢(mèng)、可靈、混元、通義萬(wàn)相、video-1、清影、PixVerse、Vidu等近20個(gè)。

          從技術(shù)路線上看,多名視頻模型業(yè)內(nèi)人士都告訴記者,包括Sora在內(nèi),業(yè)內(nèi)的視頻生成路徑基本收斂到Transformer+Diffusion,表現(xiàn)為這兩種架構(gòu)融合的DiT架構(gòu)或類(lèi)DiT架構(gòu)。有業(yè)內(nèi)人士認(rèn)為,沿著這條路徑走下去,要做出效果更好的模型需要比拼資金實(shí)力,除此之外,算法本身不算成熟,也有繼續(xù)創(chuàng)新的空間。

          舉報(bào)
          第一財(cái)經(jīng)廣告合作,請(qǐng)點(diǎn)擊這里
          此內(nèi)容為第一財(cái)經(jīng)原創(chuàng),著作權(quán)歸第一財(cái)經(jīng)所有。未經(jīng)第一財(cái)經(jīng)書(shū)面授權(quán),不得以任何方式加以使用,包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。第一財(cái)經(jīng)保留追究侵權(quán)者法律責(zé)任的權(quán)利。
          如需獲得授權(quán)請(qǐng)聯(lián)系第一財(cái)經(jīng)版權(quán)部:banquan@yicai.com

          文章作者

          一財(cái)最熱
          點(diǎn)擊關(guān)閉