分享到微信打開微信,點(diǎn)擊底部的“發(fā)現(xiàn)”, |
本文作者尹燁,華大集團(tuán)CEO
山姆·奧特曼,OpenAI的創(chuàng)始人,他不愧是全球頂級的PR高手+產(chǎn)品經(jīng)理,我不知道他會不會打麻將,但如果會,一定是一個(gè)好手,因?yàn)槿思視?ldquo;截胡”。
比如,Google其實(shí)早早就宣布,他們會在15號舉辦開發(fā)者大會,結(jié)果OpenAI就把發(fā)布會從9號推遲到14號,也就是放到了Google的前一天。我相信Google的產(chǎn)品團(tuán)隊(duì)壓力巨大,前一晚應(yīng)該注定無眠。
好多朋友跟我一樣都會去看發(fā)布會,雖然在半夜,但實(shí)際上很短,也就半個(gè)多小時(shí),奧特曼自己并沒有上,由他的CTO Murati 穆姐做了一個(gè)簡單介紹,然后是現(xiàn)場實(shí)時(shí)演示。
但恰恰就因?yàn)榘l(fā)布會上出現(xiàn)的是一位女性,把我?guī)胍粋€(gè)著名的科幻電影《her》。
OpenAI到底發(fā)布了啥?核心就是它的新模型:GPT-4o,以及基于GPT-4o打造的一個(gè)全新的ChatGPT。注意,這個(gè)不是4.0,而是4“O”,字母O。這個(gè)O實(shí)際上代表著Omni,它是個(gè)拉丁語的詞根,意思就是全體或者全面。比如我經(jīng)常講的這句話,“學(xué)習(xí)不會讓您變成全知全能”,英文翻譯用的就是“omni-scient”。
這個(gè)模型憑啥敢叫全能?我們知道,之前的ChatGPT主要是文字,今年大年初七發(fā)布的Sora是視頻,這次它把相關(guān)的輸入一鍋燴了。GPT-4o是把文字、語音、圖片甚至視頻全部包容在內(nèi)的一個(gè)模型,跟以前的完全不同,也應(yīng)該算是首個(gè)原生的多模態(tài)模型。
你可能會說:明白了,又能看字,又能聽聲,還能夠看視頻,但這有什么了不起的呢?我說一個(gè)大家熟悉的場景,比如這段電影,流浪地球里面的Moss。
你琢磨一下,咱們?nèi)撕腿酥g,除了身體接觸以外的、人類主要的智能交流,不都在這個(gè)模型里了嗎?更要命的是,如果說Moss在交互的時(shí)候還有比較生硬的機(jī)械感,這次的模型至少在發(fā)布會上實(shí)現(xiàn)的效果已經(jīng)妥妥地接近人類,達(dá)到人類,甚至很多方面已經(jīng)是超越人類的存在。
不管是你輸入的硬件(包括攝像頭、麥克風(fēng)等),甚至你的喘息聲、你的呼吸,它都考慮在內(nèi),都可以用自己的方式去讀懂人的情緒,并且經(jīng)過計(jì)算,它還可以設(shè)定自己的情緒跟你交互,跟真人幾乎一致,這個(gè)細(xì)思極恐!
要知道在ChatGPT出來的時(shí)候,我們都認(rèn)為它大概率是讀不懂話外音的,現(xiàn)在是時(shí)候收回這句話了。目前我們已經(jīng)看到了,只要你的輸入是恰當(dāng)?shù)?,甚至都不用充分,它就會用一個(gè)不同于人類的思維方式,直接進(jìn)行人類能夠理解的共情!它沒有神經(jīng)元,但這種方式我們居然也可以理解。所以這就是為什么,當(dāng)我看到發(fā)布會演示錄像的時(shí)候直接就倒吸一口涼氣了。
我看了個(gè)參數(shù),這個(gè)模型對于音頻輸入的響應(yīng)時(shí)間短至0.232秒,平均大概是0.32秒,和我們?nèi)祟惾粘=徽劦臅r(shí)序非常接近,而且它可以更快,但我們?nèi)祟惖纳窠?jīng)信號傳導(dǎo)速度可能已經(jīng)沒有太多進(jìn)步空間。
這還都是常規(guī)內(nèi)容,如果是復(fù)雜點(diǎn)的,比如說幾十種語言無縫切換,高位的計(jì)算,包括知識檢索呢?如果限定時(shí)間,真的就比任何一個(gè)人類,甚至所有人類,都厲害多了。
這應(yīng)該算是人類歷史上最強(qiáng)大的語音合成,我們叫TTS軟件,尹哥最早接觸還是在2000年初,微軟當(dāng)時(shí)就有,更不用說今天的Siri或者Claude。我也不知道,會不會有很多高級接線員或者資深客服經(jīng)理被“豪替”而不是“平替”。你甚至可以想象,以后輸入一本《西游記》或者《紅樓夢》,它分析完了,可以直接分角色進(jìn)行朗讀,聽聲音就知道誰在講,那么配音師的職業(yè)是不是也岌岌可危?
當(dāng)然也有評論說:發(fā)布會就是樣板間,實(shí)際使用不可能這么絲滑。確實(shí),有一些已經(jīng)試用的網(wǎng)友說了:目前還不能實(shí)現(xiàn)發(fā)布會上可以隨時(shí)打斷它說話的功能。所以GPT-4o至少在當(dāng)下版本還是一個(gè)“話嘮”,再加一個(gè)“麥霸”。
還有很多理工科的媽媽問我,這個(gè)能體會情緒的GPT-4o以后是不是能替代她們,去遠(yuǎn)程輔導(dǎo)作業(yè)?從而解決從母慈子孝到雞飛狗跳的窘境,以及隨時(shí)心梗的風(fēng)險(xiǎn)……我估計(jì)吧,人類畢竟還是有同理心的,如果孩子知道你在偷懶,而輔導(dǎo)他的又只是個(gè)程序的話,這個(gè)逆反效果可能更顯著……教育上目前你是偷不了懶的。
再就是尹哥身邊一群IT宅男們也紛紛咨詢,說GPT-4o如果真的和《her》一樣,提供情緒價(jià)值,再整合到膚白貌美大長腿的機(jī)械模型中,就別找女朋友了……我直接反問道,人家女生就更沒有找你們的必要了,“直男”往往連情緒價(jià)值都提供不了……
講真,如果AI這么體貼,年輕人會不會更不想去戀愛、結(jié)婚、生娃了,幾代人以后機(jī)器人都自己玩了?而且都是智性戀?這一刻我只能說,兒孫自有兒孫福,碳基退場硅基接??铸垈冏匀粺o法預(yù)計(jì)今天哺乳動物的迷惑行為,我們也放寬心吧,別為未來的人類操心了,先想想當(dāng)下的事兒,主要咱也沒有這個(gè)預(yù)測能力。
此刻再回憶1962年,亞瑟·克拉克的這句話,“任何足夠先進(jìn)的技術(shù),其實(shí)都與魔法無異”。奧特曼也在未來系列的GPT預(yù)告當(dāng)中多次用了“magic”這個(gè)詞,我相信他還有很多大招沒出,比如說Sora,三維模型的整合都還沒有放進(jìn)去。
這次的GPT-4o,進(jìn)一步強(qiáng)化了“免費(fèi)+收費(fèi)”的商業(yè)模型,免費(fèi)的人人都能用,收費(fèi)的功能就強(qiáng)大。我相信在維持它商業(yè)收益的同時(shí),會極大且很快地增加它的市場滲透率。在全球使用者享受“免費(fèi)午餐”時(shí),也源源不斷地為它提供了新語料去完善它的模型,進(jìn)而也不斷加強(qiáng)。它設(shè)定了“開源+閉源”的技術(shù)框架壁壘,開源的是較落后的,但還有一個(gè)好的在閉源。
所以我不止一次地講過,AI是一個(gè)時(shí)代,不僅僅是一個(gè)周期,周期還會回歸,而時(shí)代卻只能呼嘯而過。面對新技術(shù)的這種紛至沓來,是勇敢面對、積極擁抱,還是因循守舊、刻舟求劍,這將決定企業(yè)、民族、國家,甚至人類的命運(yùn)。
就在5月2日,由陶哲軒領(lǐng)銜發(fā)布的一個(gè)62頁的美國AI“登月報(bào)告”,非常有料。對于AI的應(yīng)用,他在宏觀層面上強(qiáng)調(diào),“使用AI不是作弊,但需要注明哪一部分是AI做的”。我覺得這是很好的擁抱技術(shù)的態(tài)度,是真正的管促結(jié)合。不能因?yàn)锳I是新技術(shù),你沒見過就說是作弊。如果這個(gè)算作弊,那使用搜索引擎就算是對翻紙質(zhì)書的作弊了,用計(jì)算器算不算是對用算盤的作弊,用算盤的又算不算是對用結(jié)繩計(jì)數(shù)、用石子計(jì)數(shù)的作弊,甚至騎自行車就是對走步的作弊了……五十步笑百步,大抵如此。
技術(shù)一直前進(jìn),只是我們每一代人都在變老,當(dāng)你不接受新技術(shù)時(shí),你就變老了。
最后,想問一句,什么時(shí)候咱們也能用上GPT-4o?國內(nèi)的大模型,什么時(shí)候能夠迎頭趕上呢?
(本文僅代表作者個(gè)人觀點(diǎn))
因服務(wù)器資源緊張,DeepSeek已暫停API服務(wù)充值
抄底英偉達(dá)與否并非核心問題,關(guān)鍵在于技術(shù)的發(fā)展將加速“模型平價(jià)”(model parity),這將惠及更多消費(fèi)者。
第一財(cái)經(jīng)星翼大模型以DeepSeek V2.5為基座模型,結(jié)合多模態(tài)能力和財(cái)經(jīng)專業(yè)數(shù)據(jù),提供智能化財(cái)經(jīng)信息服務(wù)。
惠州石化“95+高效超凈工業(yè)爐技術(shù)升級改造”“蒸汽壓縮提級利用”兩項(xiàng)技術(shù)創(chuàng)新,成功入選國家能源局煉油行業(yè)節(jié)能降碳典型案例。
2024年我國貨物貿(mào)易進(jìn)出口總值43.85萬億元,同比增長5%,規(guī)模再創(chuàng)歷史新高。