分享到微信打開微信,點擊底部的“發(fā)現(xiàn)”, |
本文作者尹燁,華大集團CEO
在美國當?shù)貢r間2024年2月15日,OpenAI發(fā)布了Sora。簡單理解就是,可以直接通過人工智能,由文字或者語言直接生成的視頻大模型。OpenAI官方并沒有單純地把它叫做視頻模型,而是稱為“世界模擬器”。也就是說從這一刻,可擬合更多真實物理定律的數(shù)字孿生世界走進了人類社會。我愿意將其類比為,開啟了AI發(fā)展的牛頓時代。
1894年,當北洋水師輸給了日本海軍,清朝的覆滅幾成定局,其主因固然是綜合的戰(zhàn)斗素質(zhì),但就主力艦艇的參數(shù)來講,它主要輸在了速度上。日本海軍的主力戰(zhàn)艦,吉野號的航速達到了23節(jié),致遠艦為18.5節(jié),而定遠、鎮(zhèn)遠二艦僅僅為15節(jié)左右。
1945年,日本最大,也是人類史上最大的一級戰(zhàn)列艦大和號,這艘滿載排水量超過了7萬噸的怪獸,僅僅參戰(zhàn)數(shù)次就被轟沉。美軍的航空母艦,從空中對其進行了圍剿,這是一種降維打擊,它輸在了Z軸的維度上,而大艦巨炮的戰(zhàn)列艦時代從此也就結(jié)束了。
兩年前我的確認為扎克伯格的“元宇宙”忽悠得太早太過了,但一年多前ChatGPT出臺以后,我跟很多朋友們對話都認為,這一波AI的機遇是不容錯過的,應(yīng)當積極擁抱技術(shù)變化,加大開放交流。
而就在正月初七的這一天,OpenAI的Sora橫空出世,以Photoshop等設(shè)計軟件而聞名于世的Adobe公司可能做夢也沒有想到,股價會是這樣一個走勢。確實,如果一句話就能生成視頻,美工或者視頻剪輯師的前途又在哪里?正如結(jié)束方便面的,是外賣或者預(yù)制菜,而不是更好的方便面。
朋友們可以看看這些視頻,在官網(wǎng)上都有。當我看著這一個個真假難辨的demo視頻的時候,我更加清醒地明白了,我們遇到的不是一個周期,而是一個時代。周期還會回歸,科技卻只會呼嘯而過,一個真正的、可以用真實物理定律孿生的數(shù)字世界,已經(jīng)開始了它的時代。
為什么在ChatGPT3.5發(fā)布的時候,我們都覺得尚能一戰(zhàn)呢?因為這個時候的競爭,主要依然是在語言和文本的一維層面,而Sora的到來,讓我們看到了二維,乃至多維世界的模擬可能性。
雖然此時的Sora仍不完美,其依然是以二維為主的、真實世界模擬的展現(xiàn)。比如我們剛才看到的,這些以假亂真的視頻,你仔細看,它里面都有很多的瑕疵。比如東京視頻當中的左腿右腿的錯誤,就非常明顯。但此時再去看看它的競品,確實已經(jīng)是一種石器時代的觀感了。
推特上一位名叫GaborCsellev的博主,給Sora、Pika、Runway和StableVideo四個模型,輸入了相同的prompt,就是提示語,那么我簡單地翻譯一下,他輸?shù)奶崾菊Z是,“美麗而繁華的東京正在下雪,這個鏡頭要穿過繁忙的城市街道,跟隨著幾個正在享受著美麗雪景,并且在附近購物的人們,而盛開的櫻花花瓣隨風起舞,落英繽紛”。
我們可以看一看,這四個軟件不同的生成效果,雖然漫天飄雪和櫻花盛開,在真實世界當中,幾乎不會同時出現(xiàn)。但這組簡單的效果對比,我們已經(jīng)足以看到,Sora性能的遙遙領(lǐng)先。
就怕學霸還謙虛,OpenAI在其技術(shù)報告當中,毫不掩飾地承認了它的眾多不足,Sora在很多方面還不能契合真實世界的物理特性,但這有什么關(guān)系呢,誰會要求一個幼兒剛學算術(shù),就要求他會懂方程,重要的是,他已經(jīng)做好了持續(xù)學習并應(yīng)用微積分的準備。
正如牛頓時代的物理建構(gòu)并不完美,愛因斯坦量子力學在不斷地對其補充,但1687年牛頓的《自然哲學的數(shù)學原理》一經(jīng)問世,人類的科學革命由此高潮迭起。在疫情前的那幾年,人類遇到了科技瓶頸的說法,不絕于耳,似乎我們已經(jīng)被“智子”鎖死,然而就在這短短四年,無論是生命時空組學技術(shù)的突破、mRNA疫苗的突破、可控核聚變的突破、超導材料的突破、量子計算的突破,特別是人工智能的突破,讓我們又一次看到了,人類文明快速演進的可能。
在樂觀之余,我們更要冷靜地反觀自身,這里面來自中國的原創(chuàng)貢獻有多少?而在“脫鉤斷鏈”的不利大背景下,留給我們的機會和時間,真的足夠嗎?特朗普上臺就開始打中美貿(mào)易戰(zhàn),打了幾年發(fā)現(xiàn)傷敵一千、自損一千二,拜登雖然不斷地被質(zhì)疑身體健康有問題,尤其是腦健康問題,但不得不服氣,他跟他的團隊一出手就是王炸,直接打到了要害。
今天的芯片,不再僅僅只是一種電子元器件、一種商品,它是一種基礎(chǔ)設(shè)施的提供者,如果把人類已經(jīng)存在的語言、圖像、音頻、視頻等這些資料庫看成是人類文明的金礦,但是你已經(jīng)有挖掘機了,我卻被限制只能用鐵鍬,長此以往會是什么樣的結(jié)果?
我們在芯片的問題上,可能犯了刻舟求劍的錯誤。比如總有一種聲音,認為我們能夠突破14納米,甚至認為如果我們能追趕到7納米,我們就會贏,但這個前提是我們的競爭對手就不進步了,就在原地等著。我并不是說,你追趕到14納米、7納米不重要,而是你要明白,競爭對手會在同樣的時間,實現(xiàn)3納米、2納米,甚至1納米。
我們可以在戰(zhàn)略上藐視,但不能不在戰(zhàn)術(shù)上重視,科技界、產(chǎn)業(yè)界、資本界,更不能揣著糊涂裝明白,而我們在大模型的問題上,則可能陷入了一個概念炒作的資本套路。當下?lián)煌耆y(tǒng)計,國內(nèi)號稱有大模型的公司,已經(jīng)有300多家,相信大部分還是“多小散亂”,面對GPT在簡體中文的世界里,似乎尚能一戰(zhàn),但面對Sora的橫空出世,可有一個能打的,甚至是接近的嗎?
這就比如說在爬山,領(lǐng)先的一直在上面等你,好不容易氣喘吁吁地快接近了,領(lǐng)先者再閑庭信步地,往上慢慢走一段,這就從心理上從體力上,不斷地去消耗和打擊你。
我講這一段不是悲觀,更不是長他人志氣,滅自己威風,我是想說,知道落后不可怕,怕的是知道落后還不承認,那只會越拉越遠。
1448年,當?shù)聡橙斯诺潜ぐl(fā)明了他的印刷術(shù)后,歐洲大量的書籍得以普及,學術(shù)思想交流加速,文學作品的范圍擴大,文藝復(fù)興開始加速,并逐漸催化出了科學革命。類似的,電報、廣播、電視、互聯(lián)網(wǎng)到移動互聯(lián)網(wǎng),大大加速了信息的對稱,而人工智能則會以史無前例的速度,來促使人類的智力和知識平權(quán)。
在碳硅融合的重要關(guān)口,我們的科技,特別是我們的教育,又該何去何從?一味地做小鎮(zhèn)做題家,還會有出路和未來嗎?從李約瑟之問,到錢學森之問的尷尬,還要持續(xù)多久?這個問題就留給諸君共同考慮。
莊子在《齊物論》中云:“莊周夢為胡蝶,栩栩然胡蝶也,自喻適志與,不知周也……不知周之夢為胡蝶與,胡蝶之夢為周與?”劉慈欣《三體》當中,最著名的一句莫過于:“物理學不存在了。”Sora的問世,也讓很多業(yè)內(nèi)人士驚呼,“現(xiàn)實不存在了”。那么,不妨更大膽地想一步,如果我們已經(jīng)可以模擬真實世界了,又焉知如今的真實世界,不是模擬的?
(本文僅代表作者個人觀點)
從這次推出的Sora來看,視頻生成賽道還未拉開差距。
中央經(jīng)濟工作會議提“人工智能+”,全球首個AI程序員Devin全面開放。
10個月前掀起視頻生成熱潮的Sora開放使用了,現(xiàn)在它要面對近20個競爭對手。
新版工具Sora Turbo可以生成最長達20秒的視頻,并且可以提供這些視頻的多種變體。
OpenAI研究員演示,強化微調(diào)后的o1 mini測試通過率甚至比正式版o1高24%,比未強化微調(diào)的o1 mini提高了82%。