亚洲中文字乱码免费播放,精品国产日韩专区欧美第一页,亚洲中文有码字幕青青,亚洲综合另类专区在线

<span id="p5jtk"><cite id="p5jtk"><label id="p5jtk"></label></cite></span>

首頁 > 新聞 > 產(chǎn)經(jīng)

分享到微信

打開微信，點(diǎn)擊底部的“發(fā)現(xiàn)”，
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。

千呼萬喚始出來，國風(fēng)愛好者等到了通義萬相的視頻生成大模型

第一財(cái)經(jīng) 2024-09-19 19:03:33 聽新聞

作者：言嘉寧責(zé)編：高莉珊

9月19日云棲大會(huì)上，阿里發(fā)布通義萬相視頻生成模型。

9月19日云棲大會(huì)上，阿里發(fā)布通義萬相視頻生成大模型。和諸多同行的限次試用和催你付費(fèi)相比，阿里頗有誠意——只需登錄通義萬相官網(wǎng)及通義APP，即可免費(fèi)體驗(yàn)生成影視級(jí)高清視頻，APP端更是開放每日不限次使用，為一眾影視創(chuàng)作、動(dòng)畫設(shè)計(jì)、廣告設(shè)計(jì)等領(lǐng)域工作者再添生產(chǎn)“利器”。

PC制作網(wǎng)頁

手機(jī)端入口：

后發(fā)先至，引領(lǐng)國風(fēng)傳承

自O(shè)penAI推出Sora以來，不少科技公司都紛紛推出類似產(chǎn)品，但國人要想輕松愉快地上手使用還需要跨過頗高的學(xué)習(xí)門檻，甚至在ChatGPT上都有人專門開發(fā)智能體定向完善Stable Diffusion的文生視頻大模型的提示詞，只為了盡快生成想要的視頻效果。

針對(duì)這樣的用戶痛點(diǎn)，“后發(fā)”的通義萬相除了主打免費(fèi)的誠意“先至”，推出三招直擊人心：原生支持中文長文本提示詞，具備復(fù)雜語義理解和概念組合生成能力，將文字創(chuàng)意精準(zhǔn)呈現(xiàn)，對(duì)畫面內(nèi)容、空間構(gòu)圖、運(yùn)動(dòng)過程、運(yùn)鏡方式等指令均有良好支持，讓視頻制作更合本心；配合提示詞“靈感擴(kuò)寫”功能，哪怕只有關(guān)鍵詞，但還沒想好具體如何描述元素關(guān)系和場(chǎng)景也能一句話生成視頻，通過風(fēng)格提示詞生成相應(yīng)的視頻畫面，減少操心；還能夠?qū)D片作為視頻首幀延續(xù)生成一段視頻，實(shí)現(xiàn)生成更可控，畫面更精準(zhǔn)，讓人看了更動(dòng)心。

筆者以“一個(gè)亞洲女孩坐在龍背上從右至左飛過，帶有春節(jié)的美好祝愿”為例進(jìn)行了“靈感擴(kuò)寫”，通義萬相立刻描繪了更為具體的場(chǎng)景“一個(gè)亞洲女孩兒身著傳統(tǒng)服飾，興奮地坐在一條栩栩如生的龍背上，從畫面右側(cè)向左側(cè)飛行，龍身蜿蜒了三層，女孩兒的長發(fā)隨風(fēng)飄揚(yáng)，臉上洋溢著幸福的笑容，仿佛在傳達(dá)著春節(jié)的美好祝愿，整個(gè)場(chǎng)景充滿了歡樂和祥和的氣氛”，5分鐘的等待生成了5秒的視頻，女孩的笑容富有感染力，色彩以紅、黃、綠為主色調(diào)，背景的點(diǎn)點(diǎn)雪花和大紅燈籠渲染出冬日春節(jié)的氛圍。

對(duì)于國內(nèi)的創(chuàng)作者來說，體現(xiàn)國風(fēng)內(nèi)容的表達(dá)并不容易。“如果你想的是東方龍，就一定要在提示詞里清楚表示，不然就是西方龍的畫面。”一位AI視頻制作者說，為了生成想要的圖像和視頻需要耗費(fèi)大量的時(shí)間，并且很難保持風(fēng)格的一致。即便是同一表述如“龍”，東西方語境下就是截然不同的文化符號(hào)，訓(xùn)練時(shí)采用的數(shù)據(jù)集和應(yīng)用時(shí)的提示詞都會(huì)影響生成的效果。以前在海外的大模型里，中國風(fēng)還很容易顯現(xiàn)其他亞洲文化的影子。而在通義萬相的視頻里，龍透露著喜慶，女孩明眸善睞，發(fā)絲隨風(fēng)拂動(dòng)，絕對(duì)符合國人心目中對(duì)國風(fēng)的期待。

模擬世界，未來任重道遠(yuǎn)

人們對(duì)大模型的期許是要聽話，但不能太聽話，還要有良好的“想象力”，這就涉及到復(fù)雜語義理解和概念組合生成，既要能準(zhǔn)確呈現(xiàn)提示詞中描述的復(fù)雜元素，還要在涉及到多個(gè)不同元素時(shí)，能準(zhǔn)確、有機(jī)地結(jié)合在一起，核心就是再保證指令遵循能力之后再去發(fā)揮大模型的涌現(xiàn)能力。不要小瞧這個(gè)順序，這可關(guān)系到大模型是有“think outside of the box”（不落窠臼）的創(chuàng)意巧思還是在“一本正經(jīng)地胡說八道”。

用戶期望模型能生成多樣化的圖像風(fēng)格同時(shí)保持一致性，這對(duì)算法提出了更高的要求。有視頻創(chuàng)作者表示，今年年初最常使用的工具還是Pika，現(xiàn)在則主要用Runway Gen-3與Dream Machine。在他眼中，RunwayGen-2、Pika可以認(rèn)為是上一代模型，從Runway Gen-3開始已逐漸走向新一代視頻生成模型，新模型的動(dòng)態(tài)效果明顯更佳，通義萬相出現(xiàn)在了市場(chǎng)對(duì)用戶教育基本完成的階段，需要比拼的是特色和好用。

不過，視頻模型的發(fā)展仍面臨一些共性問題，需要賽道上的選手們努力解決。

首先是生成的時(shí)長仍受限制。從時(shí)長來看，Pika、Runway Gen2、Dream Machine、Dreamina、Vidu一次生成的視頻時(shí)長分別為3秒、4秒、5秒、3秒和16秒，通義萬相的視頻在5秒左右，還不具備時(shí)長上的碾壓性優(yōu)勢(shì)。

其次是對(duì)真實(shí)物理世界的模擬能力有待提升。為測(cè)試物理規(guī)律合理性，筆者將提示詞設(shè)置為“A glass filled with red wine fell off the table, broke the glass, and spilled the red wine”（一個(gè)裝滿紅酒的杯子從桌上掉下來，砸碎了杯子，紅酒灑了出來），此前Pika顯示了桌上的碎片，但杯子看上去沒有碎，Runway Gen2和Dream Machine的杯子則沒有摔下或碎掉。而通義萬相顯示的是紅酒傾倒而下，成為了砸碎杯子的外力，杯子在紅酒中化為齏粉。

從綜合表現(xiàn)來看，通義萬相推出視頻生成功能的速度不是最快的，但以“聽懂中國話、最懂中國風(fēng)”做到了差異化，憑借全新發(fā)布自研AI視頻生成大模型具備強(qiáng)大的畫面視覺動(dòng)態(tài)生成能力，擅長概念理解與組合生成，能夠輕松駕馭多種藝術(shù)風(fēng)格，優(yōu)化中式元素表現(xiàn)，帶來影視級(jí)畫面質(zhì)感，同時(shí)支持多語言與可變分辨率生成。

生成視頻追求的是完美的視聽體驗(yàn)。此前Pika上線唇形同步功能Lip Sync，只要上傳文本或音頻，就能讓視頻人物發(fā)聲且嘴型完全同步，由AI語音克隆創(chuàng)企ElevenLabs提供技術(shù)支持。通義萬相還能生成與視覺內(nèi)容高度匹配的聲音特效，實(shí)現(xiàn)音畫一致，增強(qiáng)視聽一體的沉浸感。誰能成為創(chuàng)意工作者最常打開的軟件，誰才能成為“笑到最后”的優(yōu)勝者，留給通義萬相的機(jī)會(huì)和挑戰(zhàn)一樣多。

舉報(bào)

文章作者

言嘉寧

相關(guān)閱讀

愛好、情懷與市場(chǎng)對(duì)撞之下，“懷舊”還是一門好生意嗎？

刻意營造的復(fù)古風(fēng)潮面臨商業(yè)挑戰(zhàn)，而從底層生發(fā)的原生態(tài)市場(chǎng)被監(jiān)管整治。

196 03-23 21:44

騰訊、阿里、階躍星辰入局，視頻生成模型掀起開源潮

在能力較突出的視頻生成大模型中，開源模型已占有一席之地。

190 03-06 20:47

內(nèi)容生成時(shí)代已來，AI大模型出現(xiàn)“幻覺”該怎么辦？

政府、企業(yè)、公眾等各方主體正在面對(duì)的AI大模型“幻覺”問題，應(yīng)如何解決？

533 02-28 18:47

北京：研發(fā)具身智能“大腦”大模型

研發(fā)感認(rèn)知-決策-控制一體化的具身智能大模型，增強(qiáng)機(jī)器人的場(chǎng)景理解、邏輯推理、任務(wù)規(guī)劃、行為控制、人機(jī)交互、自主學(xué)習(xí)等核心能力。

一位建筑師的業(yè)余愛好，乘飛機(jī)拍照20多年“空中讀城”

李振宇乘飛機(jī)都會(huì)做好計(jì)劃，研究飛機(jī)航向與空中視角，上鬧鐘秒殺角度最好的靠窗座位。他自稱擁有“三流的攝影技術(shù)，二流的想法”，一流的則是堅(jiān)持。

102 02-25 17:52

一財(cái)最熱

點(diǎn)擊關(guān)閉

<li id="pfnsc"><th id="pfnsc"><track id="pfnsc"></track></th></li>

<source id="pfnsc"><del id="pfnsc"></del></source>

<rt id="pfnsc"><del id="pfnsc"><p id="pfnsc"></p></del></rt>