分享到微信打開微信,點(diǎn)擊底部的“發(fā)現(xiàn)”, |
9月19日云棲大會(huì)上,阿里發(fā)布通義萬相視頻生成大模型。和諸多同行的限次試用和催你付費(fèi)相比,阿里頗有誠意——只需登錄通義萬相官網(wǎng)及通義APP,即可免費(fèi)體驗(yàn)生成影視級(jí)高清視頻,APP端更是開放每日不限次使用,為一眾影視創(chuàng)作、動(dòng)畫設(shè)計(jì)、廣告設(shè)計(jì)等領(lǐng)域工作者再添生產(chǎn)“利器”。
PC制作網(wǎng)頁
手機(jī)端入口:
后發(fā)先至,引領(lǐng)國風(fēng)傳承
自O(shè)penAI推出Sora以來,不少科技公司都紛紛推出類似產(chǎn)品,但國人要想輕松愉快地上手使用還需要跨過頗高的學(xué)習(xí)門檻,甚至在ChatGPT上都有人專門開發(fā)智能體定向完善Stable Diffusion的文生視頻大模型的提示詞,只為了盡快生成想要的視頻效果。
針對(duì)這樣的用戶痛點(diǎn),“后發(fā)”的通義萬相除了主打免費(fèi)的誠意“先至”,推出三招直擊人心:原生支持中文長文本提示詞,具備復(fù)雜語義理解和概念組合生成能力,將文字創(chuàng)意精準(zhǔn)呈現(xiàn),對(duì)畫面內(nèi)容、空間構(gòu)圖、運(yùn)動(dòng)過程、運(yùn)鏡方式等指令均有良好支持,讓視頻制作更合本心;配合提示詞“靈感擴(kuò)寫”功能,哪怕只有關(guān)鍵詞,但還沒想好具體如何描述元素關(guān)系和場(chǎng)景也能一句話生成視頻,通過風(fēng)格提示詞生成相應(yīng)的視頻畫面,減少操心;還能夠?qū)D片作為視頻首幀延續(xù)生成一段視頻,實(shí)現(xiàn)生成更可控,畫面更精準(zhǔn),讓人看了更動(dòng)心。
筆者以“一個(gè)亞洲女孩坐在龍背上從右至左飛過,帶有春節(jié)的美好祝愿”為例進(jìn)行了“靈感擴(kuò)寫”,通義萬相立刻描繪了更為具體的場(chǎng)景“一個(gè)亞洲女孩兒身著傳統(tǒng)服飾,興奮地坐在一條栩栩如生的龍背上,從畫面右側(cè)向左側(cè)飛行,龍身蜿蜒了三層,女孩兒的長發(fā)隨風(fēng)飄揚(yáng),臉上洋溢著幸福的笑容,仿佛在傳達(dá)著春節(jié)的美好祝愿,整個(gè)場(chǎng)景充滿了歡樂和祥和的氣氛”,5分鐘的等待生成了5秒的視頻,女孩的笑容富有感染力,色彩以紅、黃、綠為主色調(diào),背景的點(diǎn)點(diǎn)雪花和大紅燈籠渲染出冬日春節(jié)的氛圍。
對(duì)于國內(nèi)的創(chuàng)作者來說,體現(xiàn)國風(fēng)內(nèi)容的表達(dá)并不容易。“如果你想的是東方龍,就一定要在提示詞里清楚表示,不然就是西方龍的畫面。”一位AI視頻制作者說,為了生成想要的圖像和視頻需要耗費(fèi)大量的時(shí)間,并且很難保持風(fēng)格的一致。即便是同一表述如“龍”,東西方語境下就是截然不同的文化符號(hào),訓(xùn)練時(shí)采用的數(shù)據(jù)集和應(yīng)用時(shí)的提示詞都會(huì)影響生成的效果。以前在海外的大模型里,中國風(fēng)還很容易顯現(xiàn)其他亞洲文化的影子。而在通義萬相的視頻里,龍透露著喜慶,女孩明眸善睞,發(fā)絲隨風(fēng)拂動(dòng),絕對(duì)符合國人心目中對(duì)國風(fēng)的期待。
模擬世界,未來任重道遠(yuǎn)
人們對(duì)大模型的期許是要聽話,但不能太聽話,還要有良好的“想象力”,這就涉及到復(fù)雜語義理解和概念組合生成,既要能準(zhǔn)確呈現(xiàn)提示詞中描述的復(fù)雜元素,還要在涉及到多個(gè)不同元素時(shí),能準(zhǔn)確、有機(jī)地結(jié)合在一起,核心就是再保證指令遵循能力之后再去發(fā)揮大模型的涌現(xiàn)能力。不要小瞧這個(gè)順序,這可關(guān)系到大模型是有“think outside of the box”(不落窠臼)的創(chuàng)意巧思還是在“一本正經(jīng)地胡說八道”。
用戶期望模型能生成多樣化的圖像風(fēng)格同時(shí)保持一致性,這對(duì)算法提出了更高的要求。有視頻創(chuàng)作者表示,今年年初最常使用的工具還是Pika,現(xiàn)在則主要用Runway Gen-3與Dream Machine。在他眼中,RunwayGen-2、Pika可以認(rèn)為是上一代模型,從Runway Gen-3開始已逐漸走向新一代視頻生成模型,新模型的動(dòng)態(tài)效果明顯更佳,通義萬相出現(xiàn)在了市場(chǎng)對(duì)用戶教育基本完成的階段,需要比拼的是特色和好用。
不過,視頻模型的發(fā)展仍面臨一些共性問題,需要賽道上的選手們努力解決。
首先是生成的時(shí)長仍受限制。從時(shí)長來看,Pika、Runway Gen2、Dream Machine、Dreamina、Vidu一次生成的視頻時(shí)長分別為3秒、4秒、5秒、3秒和16秒,通義萬相的視頻在5秒左右,還不具備時(shí)長上的碾壓性優(yōu)勢(shì)。
其次是對(duì)真實(shí)物理世界的模擬能力有待提升。為測(cè)試物理規(guī)律合理性,筆者將提示詞設(shè)置為“A glass filled with red wine fell off the table, broke the glass, and spilled the red wine”(一個(gè)裝滿紅酒的杯子從桌上掉下來,砸碎了杯子,紅酒灑了出來),此前Pika顯示了桌上的碎片,但杯子看上去沒有碎,Runway Gen2和Dream Machine的杯子則沒有摔下或碎掉。而通義萬相顯示的是紅酒傾倒而下,成為了砸碎杯子的外力,杯子在紅酒中化為齏粉。
從綜合表現(xiàn)來看,通義萬相推出視頻生成功能的速度不是最快的,但以“聽懂中國話、最懂中國風(fēng)”做到了差異化,憑借全新發(fā)布自研AI視頻生成大模型具備強(qiáng)大的畫面視覺動(dòng)態(tài)生成能力,擅長概念理解與組合生成,能夠輕松駕馭多種藝術(shù)風(fēng)格,優(yōu)化中式元素表現(xiàn),帶來影視級(jí)畫面質(zhì)感,同時(shí)支持多語言與可變分辨率生成。
生成視頻追求的是完美的視聽體驗(yàn)。此前Pika上線唇形同步功能Lip Sync,只要上傳文本或音頻,就能讓視頻人物發(fā)聲且嘴型完全同步,由AI語音克隆創(chuàng)企ElevenLabs提供技術(shù)支持。通義萬相還能生成與視覺內(nèi)容高度匹配的聲音特效,實(shí)現(xiàn)音畫一致,增強(qiáng)視聽一體的沉浸感。誰能成為創(chuàng)意工作者最常打開的軟件,誰才能成為“笑到最后”的優(yōu)勝者,留給通義萬相的機(jī)會(huì)和挑戰(zhàn)一樣多。
刻意營造的復(fù)古風(fēng)潮面臨商業(yè)挑戰(zhàn),而從底層生發(fā)的原生態(tài)市場(chǎng)被監(jiān)管整治。
在能力較突出的視頻生成大模型中,開源模型已占有一席之地。
政府、企業(yè)、公眾等各方主體正在面對(duì)的AI大模型“幻覺”問題,應(yīng)如何解決?
研發(fā)感認(rèn)知-決策-控制一體化的具身智能大模型,增強(qiáng)機(jī)器人的場(chǎng)景理解、邏輯推理、任務(wù)規(guī)劃、行為控制、人機(jī)交互、自主學(xué)習(xí)等核心能力。
李振宇乘飛機(jī)都會(huì)做好計(jì)劃,研究飛機(jī)航向與空中視角,上鬧鐘秒殺角度最好的靠窗座位。他自稱擁有“三流的攝影技術(shù),二流的想法”,一流的則是堅(jiān)持。