分享到微信打開(kāi)微信,點(diǎn)擊底部的“發(fā)現(xiàn)”, |
第一財(cái)經(jīng) 2024-09-19 19:03:33 聽(tīng)新聞
作者:言嘉寧 責(zé)編:高莉珊
9月19日云棲大會(huì)上,阿里發(fā)布通義萬(wàn)相視頻生成大模型。和諸多同行的限次試用和催你付費(fèi)相比,阿里頗有誠(chéng)意——只需登錄通義萬(wàn)相官網(wǎng)及通義APP,即可免費(fèi)體驗(yàn)生成影視級(jí)高清視頻,APP端更是開(kāi)放每日不限次使用,為一眾影視創(chuàng)作、動(dòng)畫(huà)設(shè)計(jì)、廣告設(shè)計(jì)等領(lǐng)域工作者再添生產(chǎn)“利器”。
PC制作網(wǎng)頁(yè)
手機(jī)端入口:
后發(fā)先至,引領(lǐng)國(guó)風(fēng)傳承
自O(shè)penAI推出Sora以來(lái),不少科技公司都紛紛推出類(lèi)似產(chǎn)品,但國(guó)人要想輕松愉快地上手使用還需要跨過(guò)頗高的學(xué)習(xí)門(mén)檻,甚至在ChatGPT上都有人專(zhuān)門(mén)開(kāi)發(fā)智能體定向完善Stable Diffusion的文生視頻大模型的提示詞,只為了盡快生成想要的視頻效果。
針對(duì)這樣的用戶(hù)痛點(diǎn),“后發(fā)”的通義萬(wàn)相除了主打免費(fèi)的誠(chéng)意“先至”,推出三招直擊人心:原生支持中文長(zhǎng)文本提示詞,具備復(fù)雜語(yǔ)義理解和概念組合生成能力,將文字創(chuàng)意精準(zhǔn)呈現(xiàn),對(duì)畫(huà)面內(nèi)容、空間構(gòu)圖、運(yùn)動(dòng)過(guò)程、運(yùn)鏡方式等指令均有良好支持,讓視頻制作更合本心;配合提示詞“靈感擴(kuò)寫(xiě)”功能,哪怕只有關(guān)鍵詞,但還沒(méi)想好具體如何描述元素關(guān)系和場(chǎng)景也能一句話生成視頻,通過(guò)風(fēng)格提示詞生成相應(yīng)的視頻畫(huà)面,減少操心;還能夠?qū)D片作為視頻首幀延續(xù)生成一段視頻,實(shí)現(xiàn)生成更可控,畫(huà)面更精準(zhǔn),讓人看了更動(dòng)心。
筆者以“一個(gè)亞洲女孩坐在龍背上從右至左飛過(guò),帶有春節(jié)的美好祝愿”為例進(jìn)行了“靈感擴(kuò)寫(xiě)”,通義萬(wàn)相立刻描繪了更為具體的場(chǎng)景“一個(gè)亞洲女孩兒身著傳統(tǒng)服飾,興奮地坐在一條栩栩如生的龍背上,從畫(huà)面右側(cè)向左側(cè)飛行,龍身蜿蜒了三層,女孩兒的長(zhǎng)發(fā)隨風(fēng)飄揚(yáng),臉上洋溢著幸福的笑容,仿佛在傳達(dá)著春節(jié)的美好祝愿,整個(gè)場(chǎng)景充滿了歡樂(lè)和祥和的氣氛”,5分鐘的等待生成了5秒的視頻,女孩的笑容富有感染力,色彩以紅、黃、綠為主色調(diào),背景的點(diǎn)點(diǎn)雪花和大紅燈籠渲染出冬日春節(jié)的氛圍。
對(duì)于國(guó)內(nèi)的創(chuàng)作者來(lái)說(shuō),體現(xiàn)國(guó)風(fēng)內(nèi)容的表達(dá)并不容易。“如果你想的是東方龍,就一定要在提示詞里清楚表示,不然就是西方龍的畫(huà)面。”一位AI視頻制作者說(shuō),為了生成想要的圖像和視頻需要耗費(fèi)大量的時(shí)間,并且很難保持風(fēng)格的一致。即便是同一表述如“龍”,東西方語(yǔ)境下就是截然不同的文化符號(hào),訓(xùn)練時(shí)采用的數(shù)據(jù)集和應(yīng)用時(shí)的提示詞都會(huì)影響生成的效果。以前在海外的大模型里,中國(guó)風(fēng)還很容易顯現(xiàn)其他亞洲文化的影子。而在通義萬(wàn)相的視頻里,龍透露著喜慶,女孩明眸善睞,發(fā)絲隨風(fēng)拂動(dòng),絕對(duì)符合國(guó)人心目中對(duì)國(guó)風(fēng)的期待。
模擬世界,未來(lái)任重道遠(yuǎn)
人們對(duì)大模型的期許是要聽(tīng)話,但不能太聽(tīng)話,還要有良好的“想象力”,這就涉及到復(fù)雜語(yǔ)義理解和概念組合生成,既要能準(zhǔn)確呈現(xiàn)提示詞中描述的復(fù)雜元素,還要在涉及到多個(gè)不同元素時(shí),能準(zhǔn)確、有機(jī)地結(jié)合在一起,核心就是再保證指令遵循能力之后再去發(fā)揮大模型的涌現(xiàn)能力。不要小瞧這個(gè)順序,這可關(guān)系到大模型是有“think outside of the box”(不落窠臼)的創(chuàng)意巧思還是在“一本正經(jīng)地胡說(shuō)八道”。
用戶(hù)期望模型能生成多樣化的圖像風(fēng)格同時(shí)保持一致性,這對(duì)算法提出了更高的要求。有視頻創(chuàng)作者表示,今年年初最常使用的工具還是Pika,現(xiàn)在則主要用Runway Gen-3與Dream Machine。在他眼中,RunwayGen-2、Pika可以認(rèn)為是上一代模型,從Runway Gen-3開(kāi)始已逐漸走向新一代視頻生成模型,新模型的動(dòng)態(tài)效果明顯更佳,通義萬(wàn)相出現(xiàn)在了市場(chǎng)對(duì)用戶(hù)教育基本完成的階段,需要比拼的是特色和好用。
不過(guò),視頻模型的發(fā)展仍面臨一些共性問(wèn)題,需要賽道上的選手們努力解決。
首先是生成的時(shí)長(zhǎng)仍受限制。從時(shí)長(zhǎng)來(lái)看,Pika、Runway Gen2、Dream Machine、Dreamina、Vidu一次生成的視頻時(shí)長(zhǎng)分別為3秒、4秒、5秒、3秒和16秒,通義萬(wàn)相的視頻在5秒左右,還不具備時(shí)長(zhǎng)上的碾壓性?xún)?yōu)勢(shì)。
其次是對(duì)真實(shí)物理世界的模擬能力有待提升。為測(cè)試物理規(guī)律合理性,筆者將提示詞設(shè)置為“A glass filled with red wine fell off the table, broke the glass, and spilled the red wine”(一個(gè)裝滿紅酒的杯子從桌上掉下來(lái),砸碎了杯子,紅酒灑了出來(lái)),此前Pika顯示了桌上的碎片,但杯子看上去沒(méi)有碎,Runway Gen2和Dream Machine的杯子則沒(méi)有摔下或碎掉。而通義萬(wàn)相顯示的是紅酒傾倒而下,成為了砸碎杯子的外力,杯子在紅酒中化為齏粉。
從綜合表現(xiàn)來(lái)看,通義萬(wàn)相推出視頻生成功能的速度不是最快的,但以“聽(tīng)懂中國(guó)話、最懂中國(guó)風(fēng)”做到了差異化,憑借全新發(fā)布自研AI視頻生成大模型具備強(qiáng)大的畫(huà)面視覺(jué)動(dòng)態(tài)生成能力,擅長(zhǎng)概念理解與組合生成,能夠輕松駕馭多種藝術(shù)風(fēng)格,優(yōu)化中式元素表現(xiàn),帶來(lái)影視級(jí)畫(huà)面質(zhì)感,同時(shí)支持多語(yǔ)言與可變分辨率生成。
生成視頻追求的是完美的視聽(tīng)體驗(yàn)。此前Pika上線唇形同步功能Lip Sync,只要上傳文本或音頻,就能讓視頻人物發(fā)聲且嘴型完全同步,由AI語(yǔ)音克隆創(chuàng)企ElevenLabs提供技術(shù)支持。通義萬(wàn)相還能生成與視覺(jué)內(nèi)容高度匹配的聲音特效,實(shí)現(xiàn)音畫(huà)一致,增強(qiáng)視聽(tīng)一體的沉浸感。誰(shuí)能成為創(chuàng)意工作者最常打開(kāi)的軟件,誰(shuí)才能成為“笑到最后”的優(yōu)勝者,留給通義萬(wàn)相的機(jī)會(huì)和挑戰(zhàn)一樣多。
新版工具Sora Turbo可以生成最長(zhǎng)達(dá)20秒的視頻,并且可以提供這些視頻的多種變體。
大模型如今在工業(yè)領(lǐng)域尚不算很“大”,獲取數(shù)據(jù)不足、多模態(tài)大模型還未突破限制了工業(yè)AI的想象力。
數(shù)字人效果類(lèi)似于過(guò)去用真實(shí)員工發(fā)傳單,但現(xiàn)在換成成本更低的數(shù)字人去執(zhí)行。
自今年年初以來(lái),Meta股價(jià)已上漲超過(guò)70%。
AI的算力難題,可以在云上解決