亚洲中文字乱码免费播放,精品国产日韩专区欧美第一页,亚洲中文有码字幕青青,亚洲综合另类专区在线

          首頁 > 新聞 > 閱讀周刊

          分享到微信

          打開微信,點擊底部的“發(fā)現(xiàn)”,
          使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。

          為什么AI本質(zhì)上就是個“壓縮機”?

          第一財經(jīng) 2025-04-25 11:21:41 聽新聞

          作者:畢席    責編:李剛

          “我們當下生活在其中的這個計算世界,完全建立在數(shù)據(jù)壓縮算法之上?!?

          谷歌最近發(fā)了篇論文,重申了一個來自信息論的觀點——“壓縮即智能”。當然,論文的新意,在于通過對“壓縮率”的定義并提出相關(guān)計算方法,從而可以嘗試對“壓縮即智能”給出一個定量的解釋,并將其與人工智能大模型聯(lián)系起來。

          所謂“壓縮”,全稱當然是“數(shù)據(jù)壓縮”。正如一本寫得相當生動有趣的普及讀物《數(shù)據(jù)壓縮入門》所指出的:

          “我們需要知道這樣一件事:我們當下生活在其中的這個計算世界,完全建立在數(shù)據(jù)壓縮算法之上。

          是的,每個部分都是如此。

          每個網(wǎng)頁、每個圖像、每首歌、每個關(guān)于貓的視頻、每部流媒體網(wǎng)絡(luò)電影、每張自拍照、每次電子游戲下載、每個微型交易,甚至是操作系統(tǒng)的每次更新,所有這一切都得益于壓縮算法。事實上,哪怕只是想通過互聯(lián)網(wǎng)傳輸一個二進制位的數(shù)據(jù),也離不開壓縮的內(nèi)容。

          數(shù)據(jù)壓縮技術(shù)最讓人驚異之處在于,它與過去40年里個人計算的很多重大改變有關(guān),但很少有人知道這一點。”

          信息論創(chuàng)始人克勞德·香農(nóng)在為傳輸信息進行壓縮編碼的過程中,意識到這種壓縮是有一個極限閾值的,超過這個閾值,被壓縮編碼的信息就無法通過解碼,復原為原始信息了,而是有相當一部分信息就此被損失掉,比如作為“有損壓縮”的MP3音樂格式,聽上去效果就要比CD差不少。這個閾值被命名為“香農(nóng)熵”。相應(yīng)地,“無損壓縮”就是壓縮率控制在“香農(nóng)熵”以下,比如解碼后可以比較好地恢復到CD音質(zhì)的APE、FLAC等格式。所有的現(xiàn)代壓縮算法,可以說都是在頑強地與“香農(nóng)熵”作斗爭,希望開發(fā)出以盡可能高的壓縮率來“高保真”地保存、傳輸和復制信息的技術(shù)。

          但其實數(shù)據(jù)壓縮遠不只是算法問題,而是涉及人類對世界根本的認知方式。

          我們且撇開數(shù)據(jù)壓縮算法中的數(shù)學原理,單就“壓縮即智能”這一觀點,其實和我在某篇機器學筆記里所說的“模型即智能”,完全是等價的,因為所謂模型,就是給無限變量的復雜世界建一個有限變量的模,通過被大大壓縮的變量數(shù)量,及其相互作用的結(jié)構(gòu),來有效模擬復雜世界在某一特定時空中的運作模式(用本屆諾獎得主杰弗里·辛頓的術(shù)語來說,就叫做“泛化”,即通過少量已知數(shù)據(jù)準確預知大量未知數(shù)據(jù)),從而讓我們可以作出預測和決策。

          事實上,所有的科學公式都不外乎是一種模型,因此也不外乎是一種數(shù)據(jù)壓縮方式。模型總是只能在一定時空中起作用,哪怕它是牛頓定律,因為模型對數(shù)據(jù)的壓縮根本來說總是為了擬合眼前的“事實”——這正是“實驗科學”的本質(zhì)。更高的壓縮率一般意味著更好的模型,也就意味著更高的智能,就好比萬有引力定律對近代的觀測宇宙有最高的壓縮率(也就是用最精煉的公式定義了這一宇宙的運作方式),因此牛頓不僅比絕大多數(shù)人,而且比絕大多數(shù)科學家有更高的智能。

          為什么我們可以說“壓縮即智能”或“模型即智能”?因為壓縮變量數(shù)據(jù)或者建模,就意味著“主動”地挑選出一部分被認為是關(guān)鍵的變量,而舍棄絕大多數(shù)被認為是冗余的信息,來為這個看上去無比復雜的世界建模,這種認知的“主動性”、這種應(yīng)對世界的“主動性”——而不是像(我們所以為的)石頭那樣被動接受一切——不正是當我們談及“智能”的時候,真正讓我們感覺make sense的東西嗎?

          并且智能和學習能力高度相關(guān)。什么是學習?無論人的學習還是機器學習,本質(zhì)不都是學習用建立在有限數(shù)據(jù)集基礎(chǔ)上的模型去應(yīng)對這個無限世界,并在應(yīng)對的過程中根據(jù)反饋不斷調(diào)整以至迭代模型嗎?所以“學習即智能”很大程度上也與“壓縮即智能”等價,人工智能大語言模型,正如“GPT之父”伊爾亞·蘇茨克維多次強調(diào)的,本質(zhì)上就是個效率極高的數(shù)據(jù)壓縮機。

          《數(shù)據(jù)壓縮入門》

          [美]柯爾特·麥克安利斯 亞歷克斯·海奇 著

          人民郵電出版社2020年3月版

          舉報

          文章作者

          相關(guān)閱讀

          報告:廣東位居人工智能第一梯隊,仍需構(gòu)建“五大鏈條”

          專家建議需重視既懂產(chǎn)業(yè)又懂AI技術(shù)的復合型人才培養(yǎng)

          303 04-24 20:19

          AI進化速遞丨國產(chǎn)AI大模型“AI孫悟空”亮相大阪世博會

          國產(chǎn)AI大模型“AI孫悟空”亮相大阪世博會;字節(jié)跳動正計劃推出自家的AI智能眼鏡;貝瑞基因GENOisi?智能體正式發(fā)布。

          122 04-13 20:37

          基辛格:當AI開始定義人類,如何守護自身價值|書摘

          人工智能的迅猛發(fā)展引發(fā)了對人類價值和尊嚴的深刻思考,如何界定人與機器的本質(zhì)區(qū)別成為關(guān)鍵問題。

          72 03-31 16:32

          AI進化速遞丨OpenAI稱對所有付費用戶升級GPT-4o,將在未來數(shù)周對免費用戶升級

          市場監(jiān)管總局:正在加快推進人工智能國家標準研制工作;中國聯(lián)通與阿里巴巴簽署戰(zhàn)略合作協(xié)議,雙方將在AI智能終端、產(chǎn)業(yè)智能化升級等方面展開深入合作。

          37 03-28 20:47

          聚焦CDF | 人工智能 (AI) 科技創(chuàng)新與產(chǎn)業(yè)創(chuàng)新深度融合:中國新質(zhì)生產(chǎn)力發(fā)展

          AI科技創(chuàng)新與產(chǎn)業(yè)創(chuàng)新的深度融合,正在重塑中國經(jīng)濟的底層邏輯。通過政策引導、技術(shù)突破與產(chǎn)業(yè)實踐的協(xié)同發(fā)力,我國不僅加速培育新質(zhì)生產(chǎn)力,更在全球價值鏈重構(gòu)中占據(jù)主動。未來,需持續(xù)優(yōu)化創(chuàng)新生態(tài),強化基礎(chǔ)研究投入,完善成果轉(zhuǎn)化機制,方能在智能經(jīng)濟時代實現(xiàn)高質(zhì)量發(fā)展。

          50 03-27 14:47
          一財最熱
          點擊關(guān)閉