分享到微信打開(kāi)微信,點(diǎn)擊底部的“發(fā)現(xiàn)”, |
第一財(cái)經(jīng) 2024-10-05 16:38:14 聽(tīng)新聞
作者:劉曉潔 責(zé)編:李娜
在9月底的開(kāi)發(fā)者大會(huì)上,Meta剛剛炸場(chǎng),發(fā)布了十年磨一劍的產(chǎn)品——全息AR眼鏡Orion,號(hào)稱“至今為止最先進(jìn)的眼鏡”,拉動(dòng)股價(jià)至歷史新高。北京時(shí)間10月4日晚,Meta再次投下重磅炸彈,發(fā)布類Sora的視頻生成模型Movie Gen,官方稱這是“迄今為止最先進(jìn)的媒體基礎(chǔ)模型”。
截至10月5日收盤,Meta漲2.26%,股價(jià)達(dá)到595.94美元的歷史新高。自今年年初以來(lái),Meta股價(jià)已上漲超過(guò)70%,目前最新總市值來(lái)到了1.51萬(wàn)億美元。隨著Meta股價(jià)的持續(xù)攀升,其CEO馬克·扎克伯格(Mark Zuckerberg)首次超越亞馬遜創(chuàng)始人貝索斯,成為全球第二大富豪,僅次于馬斯克。
在官方博客中,Meta表示,全新發(fā)布的 Meta Movie Gen是先進(jìn)的沉浸式敘事模型系列,擁有視頻生成、個(gè)性化視頻生成、精確視頻編輯和音頻生成四大功能。從Meta演示的視頻來(lái)看,其在畫面美感、細(xì)節(jié)、人物動(dòng)作流暢度、物理規(guī)律等方面都做到了不錯(cuò)的效果。
在具體功能方面,用戶可以通過(guò)上傳圖片,利用 Meta Movie Gen 生成既個(gè)性化但又保持人物特征和動(dòng)作的視頻。用戶也可以通過(guò)提供視頻文件或文本內(nèi)容,讓 Meta Movie Gen 生成相對(duì)應(yīng)的音頻。Movie Gen支持生成 1080P、16 秒、每秒 16 幀的高清長(zhǎng)視頻,以及能夠生成最長(zhǎng) 45 秒的高質(zhì)量音頻。
不過(guò),如同Sora一樣,Movie Gen也是“期貨”產(chǎn)品,目前尚未對(duì)外開(kāi)放,也沒(méi)有明確的時(shí)間表。官方稱正在積極地與娛樂(lè)行業(yè)的專業(yè)人士和創(chuàng)作者進(jìn)行溝通和合作,預(yù)計(jì)將在明年某個(gè)時(shí)候?qū)⑵湔系?Meta 自己的產(chǎn)品和服務(wù)中。
據(jù)外媒,Meta 副總裁 Connor Hayes 透露了延遲推出的重要原因,他表示Meta Movie Gen 當(dāng)前使用文本提示詞生成一個(gè)視頻往往需要等待數(shù)十分鐘,極大影響了用戶的體驗(yàn)。Meta 希望進(jìn)一步提高視頻生成的效率,以及實(shí)現(xiàn)盡快在移動(dòng)端上推出該視頻服務(wù),以便能更好地滿足消費(fèi)者的需求。
Meta稱Movie Gen是在授權(quán)和公開(kāi)數(shù)據(jù)集的組合上訓(xùn)練。對(duì)于背后的技術(shù)細(xì)節(jié),Meta AI 研究團(tuán)隊(duì)也在社交媒體上公開(kāi)了一份長(zhǎng)達(dá) 92 頁(yè)的論文。據(jù)介紹,Meta 的 AI 研究團(tuán)隊(duì)主要使用兩個(gè)基礎(chǔ)模型來(lái)實(shí)現(xiàn)這些廣泛的功能,包括Movie Gen Video 以及 Movie Gen Audio 模型。
Movie Gen Video 是一個(gè) 30B 參數(shù)的基礎(chǔ)模型,用于文本到視頻的生成,能夠生成高質(zhì)量的高清視頻,最長(zhǎng)可達(dá) 16 秒。而 Movie Gen Audio 模型則是一個(gè) 13B 參數(shù)的模型,用于視頻和文本到音頻的生成,能夠生成長(zhǎng)達(dá) 45 秒的高質(zhì)量和高保真的音頻,包括聲音效果和音樂(lè),并與視頻同步。
據(jù)悉,模型預(yù)訓(xùn)練階段使用了大量的圖像和視頻數(shù)據(jù),能夠理解視覺(jué)世界的各種概念,包括物體運(yùn)動(dòng)、交互、幾何、相機(jī)運(yùn)動(dòng)和物理規(guī)律。為了提高視頻生成的質(zhì)量,模型還進(jìn)行了監(jiān)督微調(diào)(SFT),使用了一小部分精心挑選的高質(zhì)量視頻和文本標(biāo)題。報(bào)告顯示,后訓(xùn)練(Post-training)過(guò)程則是 Movie Gen Video 模型訓(xùn)練的重要階段,能夠進(jìn)一步提高視頻生成的質(zhì)量,尤其是針對(duì)圖像和視頻的個(gè)性化和編輯功能。
在技術(shù)論文中,研究團(tuán)隊(duì)公布了 Movie Gen Video 模型與主流視頻生成模型的對(duì)比數(shù)據(jù)。由于 Sora 目前尚未開(kāi)放,研究人員只能使用其公開(kāi)發(fā)布的視頻和提示來(lái)進(jìn)行比較。對(duì)于其他模型,如 Runway Gen3、LumaLabs 和可靈 1.5,研究人員選擇通過(guò) API 接口來(lái)自行生成視頻。
通過(guò)進(jìn)行勝率比較,Movie Gen Video 在整體質(zhì)量上顯著優(yōu)于 Runway Gen3和 LumaLabs,對(duì) OpenAI Sora有輕微的優(yōu)勢(shì),與國(guó)內(nèi)的可靈 1.5 相當(dāng)。
一度在元宇宙領(lǐng)域遭遇困境的Meta,在2024年憑借生成式AI成功逆轉(zhuǎn)命運(yùn)。在8月初,摩根大通發(fā)表報(bào)告將Meta目標(biāo)價(jià)由480美元升至610美元,報(bào)告指出,Meta近期表現(xiàn)良好,相信已在關(guān)鍵的長(zhǎng)遠(yuǎn)計(jì)劃上適當(dāng)投資,尤其是AI。9月底,摩根大通再次宣布看好Meta,將其目標(biāo)價(jià)從610美元上調(diào)至640美元。
今年8月,Meta發(fā)布的2024年Q2財(cái)報(bào)顯示,公司營(yíng)收為390.71億美元,同比增長(zhǎng)22%,凈利潤(rùn)為134.65億美元,同比增長(zhǎng)73%,均超出華爾街分析師預(yù)期。Meta表示,公司在人工智能方面的巨額投資有助于提高其在線廣告平臺(tái)的表現(xiàn),這是營(yíng)收增長(zhǎng)的一大原因。
目前Meta已連續(xù)四個(gè)季度收入增幅超過(guò)20%。Meta預(yù)計(jì),2024年第三季度該公司的總營(yíng)收將可達(dá)到385億美元至410億美元之間,這一展望同樣超出分析師預(yù)期。
DeepSeek通過(guò)重塑開(kāi)源大模型生態(tài),吸引了更多開(kāi)發(fā)者和企業(yè)參與到開(kāi)源大模型的建設(shè)和應(yīng)用中。
通用人工智能(AGI)的發(fā)展仍面臨諸多挑戰(zhàn),盡管大模型被視為實(shí)現(xiàn)AGI的可能路徑,但其推理能力尚不足以完全理解知識(shí)點(diǎn)或靈活運(yùn)用因果邏輯。當(dāng)前大模型的多任務(wù)處理和語(yǔ)言交互能力雖有顯著提升,但其在應(yīng)用中仍需解決事實(shí)偏差和興趣繭房等問(wèn)題。面對(duì)AI技術(shù)的快速發(fā)展,人類需要不斷提升自身能力,積極擁抱新技術(shù),以適應(yīng)未來(lái)的工作和社會(huì)變化。
Meta公司表示,此舉是為了減少由于核查員的偏見(jiàn)和過(guò)多內(nèi)容被核查帶來(lái)的問(wèn)題。
o3模型的能力具體如何,還要等OpenAI正式發(fā)布和上線。
中央經(jīng)濟(jì)工作會(huì)議提“人工智能+”,全球首個(gè)AI程序員Devin全面開(kāi)放。