分享到微信

打開微信，點擊底部的“發(fā)現(xiàn)”，
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。

全能模型GPT-4o驚艷發(fā)布！AI可提供情緒價值，還結(jié)婚么？

2024-05-16 17:24:50 聽新聞

作者：尹燁責(zé)編：蔡嘉誠

這次的GPT-4o，進一步強化了“免費+收費”的商業(yè)模型，免費的人人都能用，收費的功能就強大。

本文作者尹燁，華大集團CEO

山姆·奧特曼，OpenAI的創(chuàng)始人，他不愧是全球頂級的PR高手+產(chǎn)品經(jīng)理，我不知道他會不會打麻將，但如果會，一定是一個好手，因為人家會“截胡”。

比如，Google其實早早就宣布，他們會在15號舉辦開發(fā)者大會，結(jié)果OpenAI就把發(fā)布會從9號推遲到14號，也就是放到了Google的前一天。我相信Google的產(chǎn)品團隊壓力巨大，前一晚應(yīng)該注定無眠。

好多朋友跟我一樣都會去看發(fā)布會，雖然在半夜，但實際上很短，也就半個多小時，奧特曼自己并沒有上，由他的CTO Murati 穆姐做了一個簡單介紹，然后是現(xiàn)場實時演示。

但恰恰就因為發(fā)布會上出現(xiàn)的是一位女性，把我?guī)胍粋€著名的科幻電影《her》。

OpenAI到底發(fā)布了啥？核心就是它的新模型：GPT-4o，以及基于GPT-4o打造的一個全新的ChatGPT。注意，這個不是4.0，而是4“O”，字母O。這個O實際上代表著Omni，它是個拉丁語的詞根，意思就是全體或者全面。比如我經(jīng)常講的這句話，“學(xué)習(xí)不會讓您變成全知全能”，英文翻譯用的就是“omni-scient”。

這個模型憑啥敢叫全能？我們知道，之前的ChatGPT主要是文字，今年大年初七發(fā)布的Sora是視頻，這次它把相關(guān)的輸入一鍋燴了。GPT-4o是把文字、語音、圖片甚至視頻全部包容在內(nèi)的一個模型，跟以前的完全不同，也應(yīng)該算是首個原生的多模態(tài)模型。

你可能會說：明白了，又能看字，又能聽聲，還能夠看視頻，但這有什么了不起的呢？我說一個大家熟悉的場景，比如這段電影，流浪地球里面的Moss。

你琢磨一下，咱們?nèi)撕腿酥g，除了身體接觸以外的、人類主要的智能交流，不都在這個模型里了嗎？更要命的是，如果說Moss在交互的時候還有比較生硬的機械感，這次的模型至少在發(fā)布會上實現(xiàn)的效果已經(jīng)妥妥地接近人類，達到人類，甚至很多方面已經(jīng)是超越人類的存在。

不管是你輸入的硬件（包括攝像頭、麥克風(fēng)等），甚至你的喘息聲、你的呼吸，它都考慮在內(nèi)，都可以用自己的方式去讀懂人的情緒，并且經(jīng)過計算，它還可以設(shè)定自己的情緒跟你交互，跟真人幾乎一致，這個細思極恐！

要知道在ChatGPT出來的時候，我們都認(rèn)為它大概率是讀不懂話外音的，現(xiàn)在是時候收回這句話了。目前我們已經(jīng)看到了，只要你的輸入是恰當(dāng)?shù)?，甚至都不用充分，它就會用一個不同于人類的思維方式，直接進行人類能夠理解的共情！它沒有神經(jīng)元，但這種方式我們居然也可以理解。所以這就是為什么，當(dāng)我看到發(fā)布會演示錄像的時候直接就倒吸一口涼氣了。

我看了個參數(shù)，這個模型對于音頻輸入的響應(yīng)時間短至0.232秒，平均大概是0.32秒，和我們?nèi)祟惾粘＝徽劦臅r序非常接近，而且它可以更快，但我們?nèi)祟惖纳窠?jīng)信號傳導(dǎo)速度可能已經(jīng)沒有太多進步空間。

這還都是常規(guī)內(nèi)容，如果是復(fù)雜點的，比如說幾十種語言無縫切換，高位的計算，包括知識檢索呢？如果限定時間，真的就比任何一個人類，甚至所有人類，都厲害多了。

這應(yīng)該算是人類歷史上最強大的語音合成，我們叫TTS軟件，尹哥最早接觸還是在2000年初，微軟當(dāng)時就有，更不用說今天的Siri或者Claude。我也不知道，會不會有很多高級接線員或者資深客服經(jīng)理被“豪替”而不是“平替”。你甚至可以想象，以后輸入一本《西游記》或者《紅樓夢》，它分析完了，可以直接分角色進行朗讀，聽聲音就知道誰在講，那么配音師的職業(yè)是不是也岌岌可危？

當(dāng)然也有評論說：發(fā)布會就是樣板間，實際使用不可能這么絲滑。確實，有一些已經(jīng)試用的網(wǎng)友說了：目前還不能實現(xiàn)發(fā)布會上可以隨時打斷它說話的功能。所以GPT-4o至少在當(dāng)下版本還是一個“話嘮”，再加一個“麥霸”。

還有很多理工科的媽媽問我，這個能體會情緒的GPT-4o以后是不是能替代她們，去遠程輔導(dǎo)作業(yè)？從而解決從母慈子孝到雞飛狗跳的窘境，以及隨時心梗的風(fēng)險……我估計吧，人類畢竟還是有同理心的，如果孩子知道你在偷懶，而輔導(dǎo)他的又只是個程序的話，這個逆反效果可能更顯著……教育上目前你是偷不了懶的。

再就是尹哥身邊一群IT宅男們也紛紛咨詢，說GPT-4o如果真的和《her》一樣，提供情緒價值，再整合到膚白貌美大長腿的機械模型中，就別找女朋友了……我直接反問道，人家女生就更沒有找你們的必要了，“直男”往往連情緒價值都提供不了……

講真，如果AI這么體貼，年輕人會不會更不想去戀愛、結(jié)婚、生娃了，幾代人以后機器人都自己玩了？而且都是智性戀？這一刻我只能說，兒孫自有兒孫福，碳基退場硅基接?？铸垈冏匀粺o法預(yù)計今天哺乳動物的迷惑行為，我們也放寬心吧，別為未來的人類操心了，先想想當(dāng)下的事兒，主要咱也沒有這個預(yù)測能力。

此刻再回憶1962年，亞瑟·克拉克的這句話，“任何足夠先進的技術(shù)，其實都與魔法無異”。奧特曼也在未來系列的GPT預(yù)告當(dāng)中多次用了“magic”這個詞，我相信他還有很多大招沒出，比如說Sora，三維模型的整合都還沒有放進去。

這次的GPT-4o，進一步強化了“免費+收費”的商業(yè)模型，免費的人人都能用，收費的功能就強大。我相信在維持它商業(yè)收益的同時，會極大且很快地增加它的市場滲透率。在全球使用者享受“免費午餐”時，也源源不斷地為它提供了新語料去完善它的模型，進而也不斷加強。它設(shè)定了“開源+閉源”的技術(shù)框架壁壘，開源的是較落后的，但還有一個好的在閉源。

所以我不止一次地講過，AI是一個時代，不僅僅是一個周期，周期還會回歸，而時代卻只能呼嘯而過。面對新技術(shù)的這種紛至沓來，是勇敢面對、積極擁抱，還是因循守舊、刻舟求劍，這將決定企業(yè)、民族、國家，甚至人類的命運。

就在5月2日，由陶哲軒領(lǐng)銜發(fā)布的一個62頁的美國AI“登月報告”，非常有料。對于AI的應(yīng)用，他在宏觀層面上強調(diào)，“使用AI不是作弊，但需要注明哪一部分是AI做的”。我覺得這是很好的擁抱技術(shù)的態(tài)度，是真正的管促結(jié)合。不能因為AI是新技術(shù)，你沒見過就說是作弊。如果這個算作弊，那使用搜索引擎就算是對翻紙質(zhì)書的作弊了，用計算器算不算是對用算盤的作弊，用算盤的又算不算是對用結(jié)繩計數(shù)、用石子計數(shù)的作弊，甚至騎自行車就是對走步的作弊了……五十步笑百步，大抵如此。

技術(shù)一直前進，只是我們每一代人都在變老，當(dāng)你不接受新技術(shù)時，你就變老了。

最后，想問一句，什么時候咱們也能用上GPT-4o？國內(nèi)的大模型，什么時候能夠迎頭趕上呢？

（本文僅代表作者個人觀點）