分享到微信

打開微信，點(diǎn)擊底部的“發(fā)現(xiàn)”，
使用“掃一掃”即可將網(wǎng)頁(yè)分享至朋友圈。

Pika融資、快手上線可靈，蘋果的AI產(chǎn)品為何“燒冷灶”？

第一財(cái)經(jīng) 2024-06-11 18:25:03 聽新聞

作者：呂倩責(zé)編：寧佳彥

蘋果聚焦AI文字而非視頻領(lǐng)域的整合。

蘋果公司（AAPL.US）WWDC開發(fā)者大會(huì)上推出了名為Apple Intelligence的AI產(chǎn)品，然而當(dāng)日股價(jià)收盤跌1.91%。有趣的是，6月11日Wind數(shù)據(jù)中的Sora指數(shù)（8841756.WI）漲1.55%。

為什么會(huì)有這樣的區(qū)別？

蘋果選擇了避開當(dāng)下正熱的視頻大模型，推出的AI相關(guān)更新更多側(cè)重文字領(lǐng)域，而國(guó)內(nèi)概念股的漲幅與近期文生視頻大模型熱度又起緊密相關(guān)。國(guó)外如明星AI視頻生成公司Pika完成新一輪融資，總額8000萬(wàn)美元的B輪融資后，公司估值將超過(guò)4.7億美元。國(guó)內(nèi)如快手（1024.HK）“可靈”視頻生成大模型正式上線，采用了與Sora相似的技術(shù)路線。

在多位行業(yè)人士看來(lái)，蘋果聚焦AI文字而非視頻領(lǐng)域的整合，更多出于成本與實(shí)用性等方面的考量。

蘋果避開Sora“戰(zhàn)局”

蘋果推出的內(nèi)置大語(yǔ)言模型可讓iPhone、iPad和Mac理解并生成語(yǔ)言和圖像。Siri通過(guò)接入ChatGPT，具有了語(yǔ)義檢索功能，可以智能搜索照片、日歷、文件和郵件等內(nèi)容，還可以免注冊(cè)使用大部分ChatGPT的功能。

天風(fēng)國(guó)際證券分析師郭明錤發(fā)布簡(jiǎn)評(píng)稱，蘋果新發(fā)布的Apple Intelligence套件展現(xiàn)了生態(tài)整合與界面設(shè)計(jì)優(yōu)勢(shì)，對(duì)使用者很實(shí)用，但對(duì)投資人只是錦上添花，后者期待看到原創(chuàng)且非用不可的功能。

面壁智能首席研究員韓旭對(duì)記者表示，從接入操作系統(tǒng)的角度來(lái)看，蘋果主要需要AI來(lái)理解人的意圖和調(diào)用系統(tǒng)層面的接口，這些需求和Sora的出發(fā)點(diǎn)不完全一致，但與多模態(tài)輸入文本輸出的大模型較為匹配。Sora這類生成圖片或視頻的模型，目前還是和軟件尤其是視覺處理軟件結(jié)合比較合適。

為什么蘋果沒有加入Sora的“戰(zhàn)局”？

一位AIGC視頻應(yīng)用廠商人員對(duì)記者表示，從產(chǎn)品思維和經(jīng)營(yíng)角度來(lái)講，蘋果只會(huì)落地相對(duì)比較成熟，且投入產(chǎn)出比能見度更加可觀的領(lǐng)域。在手機(jī)硬件交互的層面，文字的使用場(chǎng)景更多，從研發(fā)投入到實(shí)際推理成本方面來(lái)講，該領(lǐng)域?qū)μO果目前的技術(shù)積累而言也相對(duì)更有性價(jià)比。

另一位行業(yè)技術(shù)人員表示，今天的LLM服務(wù)（大型語(yǔ)言模型服務(wù)）在文字領(lǐng)域基本實(shí)現(xiàn)保本，文生圖領(lǐng)域不一定，文生視頻領(lǐng)域一定會(huì)虧損。這也是這次蘋果WWDC大會(huì)暫時(shí)沒有整合視頻AIGC能力的重要原因。

相對(duì)于蘋果公司的動(dòng)作，國(guó)內(nèi)大模型賽道目前對(duì)視頻領(lǐng)域寄予厚望。今年4月，清華大學(xué)人工智能研究院副院長(zhǎng)、生數(shù)科技聯(lián)合創(chuàng)始人兼首席科學(xué)家朱軍教授代表清華大學(xué)與生數(shù)科技，發(fā)布中國(guó)首個(gè)視頻大模型Vidu，不久前，快手上線的視頻大模型“可靈”也引發(fā)了一定程度的熱議。

記者將Sora代表視頻文案作為提示詞，輸入快手“可靈”，進(jìn)行生成視頻對(duì)比，以“東京街頭女郎漫步”為例，當(dāng)時(shí)Sora視頻存在女郎走路過(guò)程中存在腿部變形、腿部交叉換位時(shí)錯(cuò)亂、右腿連續(xù)兩次在前方邁步等錯(cuò)誤?？焓?ldquo;可靈”也存在類似問題。

天風(fēng)證券認(rèn)為，快手3D VAE+DiT架構(gòu)對(duì)算力、模型和數(shù)據(jù)質(zhì)量的提升已展現(xiàn)出能夠?qū)崿F(xiàn)商用的結(jié)果，同時(shí)時(shí)長(zhǎng)、比例的自定義使得生成素材的可用性大幅加強(qiáng)，盡管在一些復(fù)雜語(yǔ)義理解上遜色于Sora，但在稍簡(jiǎn)單的場(chǎng)景下已差距不大。

多模態(tài)成中國(guó)大模型賽道機(jī)會(huì)

一個(gè)優(yōu)秀的視頻生成模型需要考慮四大核心要素——模型設(shè)計(jì)、數(shù)據(jù)保障、計(jì)算效率，以及模型能力的擴(kuò)展。

針對(duì)Sora存在的不成熟之處，OpenAI曾表示，Sora可能難以準(zhǔn)確模擬復(fù)雜場(chǎng)景的物理原理，可能無(wú)法理解因果關(guān)系，可能混淆提示的空間細(xì)節(jié)，可能難以精確描述隨著時(shí)間推移發(fā)生的事件，如遵循特定的相機(jī)軌跡等。

但這更像是一個(gè)普遍存在的問題。愛詩(shī)科技創(chuàng)始人王長(zhǎng)虎此前表示，目前的視頻大模型都是直接從視頻數(shù)據(jù)里學(xué)習(xí)物理知識(shí)，但真實(shí)視頻中往往包含很多信息，很難分別把每個(gè)物理規(guī)律精確地學(xué)習(xí)好。在給模型輸入視覺畫面的同時(shí)，單獨(dú)加入人手、動(dòng)物尾巴等3D建模信息作為約束，可以輔助大模型學(xué)習(xí)，也能優(yōu)化效果。

可靈大模型采用的是原生文生視頻技術(shù)路線，替代了圖像生成+時(shí)序模塊的組合。目前，在隱空間編/解碼上，主流的視頻生成模型通常采用Stable Diffusion的2D VAE進(jìn)行空間壓縮，但這對(duì)于視頻而言存在明顯的信息冗余。因此，快手大模型團(tuán)隊(duì)自研了3D VAE網(wǎng)絡(luò)，試圖尋找訓(xùn)練性能和效果之間的平衡。另外在時(shí)序信息建模上，快手大模型團(tuán)隊(duì)設(shè)計(jì)了一款全注意力機(jī)制（3D Attention）作為時(shí)空建模模塊。

生數(shù)科技CEO唐家渝提到，多模態(tài)大模型的研究仍處于起步階段，技術(shù)成熟度還不高。這一點(diǎn)不同于火熱的語(yǔ)言模型，國(guó)外已經(jīng)領(lǐng)先了一個(gè)時(shí)代。因此，相比于在語(yǔ)言模型上“卷”，唐家渝認(rèn)為多模態(tài)更是國(guó)內(nèi)團(tuán)隊(duì)搶占大模型賽道的一個(gè)重要機(jī)會(huì)。這一點(diǎn)與啟明創(chuàng)投合伙人周志峰有相同之處，他也認(rèn)為如今的大模型已從原來(lái)的純語(yǔ)言模態(tài)逐步走向多模態(tài)的探索。

北京智源人工智能研究院副院長(zhǎng)兼總工程師林詠華對(duì)第一財(cái)經(jīng)記者表示，中國(guó)在多模態(tài)領(lǐng)域彎道超車是有一定可能性的，但多模態(tài)模型的成功要素依然是算力、算法和數(shù)據(jù)。目前算法層面，中美團(tuán)隊(duì)之間差異沒有那么大，行業(yè)也仍有辦法去解決算力問題，但要獲取海量高質(zhì)量數(shù)據(jù)，依然難度很大。

舉報(bào)

第一財(cái)經(jīng)廣告合作，請(qǐng)點(diǎn)擊這里

此內(nèi)容為第一財(cái)經(jīng)原創(chuàng)，著作權(quán)歸第一財(cái)經(jīng)所有。未經(jīng)第一財(cái)經(jīng)書面授權(quán)，不得以任何方式加以使用，包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。第一財(cái)經(jīng)保留追究侵權(quán)者法律責(zé)任的權(quán)利。如需獲得授權(quán)請(qǐng)聯(lián)系第一財(cái)經(jīng)版權(quán)部：021-22002972或021-22002335；banquan@yicai.com。