亚洲中文字乱码免费播放,精品国产日韩专区欧美第一页,亚洲中文有码字幕青青,亚洲综合另类专区在线

          首頁 > 新聞 > 閱讀周刊

          分享到微信

          打開微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
          使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。

          AI真的有幻覺?會(huì)胡編嗎?

          第一財(cái)經(jīng) 2025-03-22 11:39:09 聽新聞

          作者:夏斐    責(zé)編:李剛

          怎么才能用好如今“百模大戰(zhàn)”之下各種層出不窮的AI模型?關(guān)鍵就是要分清楚它們所處的層次,以匹配你想達(dá)到的目的。

          有位著名律所的著名律師,過年期間趁著假期花了相當(dāng)長(zhǎng)的時(shí)間試用和比較了各種當(dāng)紅的AI大模型,主要是DeepSeek、豆包和ChatGPT,然后寫了篇很長(zhǎng)的長(zhǎng)微博(4000多字?。v自己的各種使用體驗(yàn)和基于這些體驗(yàn)的思考,很是認(rèn)真,但也很暴露出當(dāng)下非AI從業(yè)者——甚至也包括相當(dāng)一部分AI從業(yè)者對(duì)于AI,特別是大語言模型的基本原理有著很深的誤解,這種誤解與人的自我認(rèn)知有關(guān),因而很容易陷進(jìn)去,又很不容易跳出來。我們先來看一段博文:

          從ChatGPT-3開始,我就發(fā)現(xiàn),問一些問題,ChatGPT選擇胡說八道。這個(gè)問題到現(xiàn)在升級(jí)到了o3 mini了,也沒有改變。DeepSeek也是同樣。官網(wǎng)的DeepSeek R1還好。我自己在MacBook Air上部署了一個(gè)DeepSeek R1的7B蒸餾版本。問了一個(gè)我確定知道答案的問題,即請(qǐng)介紹金杜律師事務(wù)所,這個(gè)7B版本給我完整地編出了一個(gè)異時(shí)空的金杜律師事務(wù)所,甚至還編出了一個(gè)根本不存在的金杜律師事務(wù)所的網(wǎng)址。

          我知道4.7G大小的離線版本,不可能有數(shù)據(jù)庫存這么多知識(shí),但是它至少應(yīng)該告訴我,它不知道。然而,它選擇了胡編。我知道這算是一個(gè)極端條件下的測(cè)試,但卻很能說明問題。在本地部署,沒有聯(lián)網(wǎng)的情況下,AI胡編不可怕,因?yàn)橛脩舯旧砭蛯?duì)AI的知識(shí)檢索與知識(shí)儲(chǔ)備沒有太多預(yù)期,但是如果是正規(guī)投入使用的AI胡編,那就嚇人了。ChatGPT- 4o,就曾經(jīng)胡編了所有紅圈所主任的名字,沒有一個(gè)是對(duì)的……

          這種情況下,用戶可咋把AI當(dāng)搜索引擎用呀。

          所以,AI要大規(guī)模投入嚴(yán)肅的商業(yè)化使用,開發(fā)者必須解決AI胡編問題。你可以不知道答案,但不能編造答案。撒謊是很可怕的,尤其是作為生產(chǎn)力工具的時(shí)候撒謊,那會(huì)出大事的。

          這里,DeepSeek其實(shí)提供了一個(gè)很好的解決方案,就是向用戶完整展示思考過程,我建議未來AI如果真的投入商用,一定要有法定義務(wù)向客戶公開其思考過程,并提供信息來源的依據(jù),比如網(wǎng)頁鏈接,等等。

          這段博文,貌似思考很多,很深入,卻在根本上反映出一個(gè)文科生在面對(duì)AI時(shí)特別容易陷入的思維誤區(qū),就是真的并且強(qiáng)烈地把AI擬人化。當(dāng)你說ChatGPT在“胡編”在“撒謊”的時(shí)候,就已經(jīng)證明你完全搞錯(cuò)了大語言模型的原理。

          大模型企業(yè)都在加緊步伐尋找商業(yè)化之路    攝影記者/任玉明

          大語言模型的本質(zhì)是統(tǒng)計(jì)和計(jì)算

          目前的生成式AI,本質(zhì)上非常簡(jiǎn)化地說——就是把上千億個(gè)參數(shù)變量在高維數(shù)學(xué)空間里表示為向量(你可以粗略地把向量理解為坐標(biāo)系中一個(gè)有大小和方向的量),并通過多層神經(jīng)網(wǎng)絡(luò)對(duì)權(quán)重等的前饋和反饋計(jì)算,最準(zhǔn)確地(比股票K線圖之類二維曲線準(zhǔn)確得多)根據(jù)概率推算出下一個(gè)詞——嚴(yán)格地說是下一個(gè)token,也就是一個(gè)被標(biāo)記的單位,它可以是一個(gè)或幾個(gè)字母,也可以是兩三個(gè)詞的組合,而不僅僅是我們所理解的用以構(gòu)造有意義的文本的“單詞”。正如超級(jí)大牛斯蒂芬·沃爾弗拉姆在他那本《這就是ChatGPT》被山姆·奧特曼本人推崇為“對(duì)ChatGPT原理的最佳解釋”中所說:

          “值得注意和出乎意料的是,這個(gè)過程可以成功地產(chǎn)生與互聯(lián)網(wǎng)、書籍等中的內(nèi)容‘相似’的文本。ChatGPT不僅能產(chǎn)生連貫的人類語言,而且能根據(jù)‘閱讀’過的內(nèi)容來‘循著提示說一些話’。它并不總是能說出‘在全局上有意義’(或符合正確計(jì)算)的話,因?yàn)?hellip;…它只是在根據(jù)訓(xùn)練材料中的內(nèi)容‘聽起來像什么’來說出‘聽起來正確’的話……ChatGPT‘僅僅’是從其積累的‘傳統(tǒng)智慧的統(tǒng)計(jì)數(shù)據(jù)’中提取了一些‘連貫的文本線索’。但是,結(jié)果的類人程度已經(jīng)足夠令人驚訝了。正如我所討論的那樣,這表明了一些至少在科學(xué)上非常重要的東西:人類語言及其背后的思維模式在結(jié)構(gòu)上比我們想象的更簡(jiǎn)單、更‘符合規(guī)律’。ChatGPT已經(jīng)隱晦地發(fā)現(xiàn)了這一點(diǎn)……在某種程度上,它是一個(gè)極好的例子,說明了大量簡(jiǎn)單的計(jì)算元素可以做出非凡、驚人的事情。它也為我們提供了2000多年以來的最佳動(dòng)力,來更好地理解人類條件(human condition)的核心特征——人類語言及其背后的思維過程——的本質(zhì)和原則。”

          因此對(duì)大語言模型來說不存在“胡編”的問題,也不是真的產(chǎn)生了所謂“幻覺”,這些都只不過是擬人化的比喻,卻像很多比喻那樣,會(huì)嚴(yán)重誤導(dǎo)我們。模型給到你的答案就是模型計(jì)算后得出的結(jié)論,至于這結(jié)論對(duì)你來說是對(duì)還是錯(cuò)、真還是假,模型本身毫不關(guān)心,更不會(huì)故意去“編”、去“撒謊”。

          就像AlphaGo的“神之一手”,在任何人類圍棋高手看來都是亂下,只有當(dāng)李世石真的敗給這一手,人們才會(huì)承認(rèn)AI憑借模型和算力,遠(yuǎn)遠(yuǎn)超出了人腦的計(jì)算強(qiáng)度。我常常說,在AI給出明顯“錯(cuò)誤”的答案時(shí),我們不要急著罵聲“胡編”就撇撇嘴把它扔在一邊,首先應(yīng)該做的是反思我們自己的判斷,有可能長(zhǎng)遠(yuǎn)來說,那個(gè)看上去錯(cuò)的答案才是真正正確的,或至少是更具實(shí)踐價(jià)值的。因?yàn)锳I正是在對(duì)海量語料數(shù)據(jù)(注意,這里的數(shù)據(jù)是徹底打散的“純數(shù)據(jù)”,因?yàn)樗鼈內(nèi)急幌蛄炕?,而不是依舊“可理解”的單詞、句子或文章段落,如果仍在后者層面上進(jìn)行,那就是高階搜索而非真正的AI)進(jìn)行“統(tǒng)計(jì)”后得出的結(jié)論,換句話說,不管我們?cè)诿髅嫔习咽裁纯醋魇?ldquo;正確”的,AI的結(jié)論往往反映的,要么是在可計(jì)算范圍內(nèi)怎么說怎么做最優(yōu),要么是我們實(shí)際上最經(jīng)常怎么說和怎么做。

          只是大多數(shù)情況下,我們會(huì)用“高雅”的形容詞所隱含的文化或價(jià)值判斷去抹除事物的實(shí)相,就像把一手我們暫時(shí)不能理解的棋稱為“愚形”——愚形之所以是愚形,是因?yàn)樵趦蓚€(gè)算力相去不遠(yuǎn),思維模式也大同小異的人類之間,這么做的確效率很低,但這并不意味著對(duì)能比你多算幾十步幾百步的智力來說,它也是愚形。

          AI模型的n個(gè)層次及其運(yùn)用

          順便說一下,如今的AI模型其實(shí)分成好幾個(gè)層次,但大多數(shù)人會(huì)把它們混為一談,比如你用o1或o3解出了很難的數(shù)學(xué)題,你就以為它是比GPT-4更高級(jí)的模型,但其實(shí)它們處在完全不同的層次上——GPT-4是基礎(chǔ)模型,o3是推理模型(而豆包、Kimi之類則主要是高階搜索),推理模型一時(shí)的好用、精準(zhǔn),遠(yuǎn)不如基礎(chǔ)模型的進(jìn)化來得重要。關(guān)鍵是,目前流行的推理模型,其核心大多是在基礎(chǔ)模型中加入了“思維鏈”,讓其看上去更準(zhǔn)確,或是更能“像人一樣思考”,甚至能給出思考過程,這足以迷惑絕大多數(shù)依然深陷擬人化思維的人。

          什么是“思維鏈”?其實(shí)和它看上去高大上的名字相反,本質(zhì)上它只是一種對(duì)復(fù)雜問題的拆解方式。也就是說,針對(duì)一個(gè)很復(fù)雜的問題,由于變量之間的擾動(dòng)和循環(huán)反饋過多,會(huì)導(dǎo)致大模型對(duì)下一個(gè)token的概率預(yù)測(cè)產(chǎn)生過大的偏差,這時(shí)候,如果能把一個(gè)復(fù)雜問題拆分成幾個(gè)相對(duì)簡(jiǎn)單的問題,那么對(duì)每一個(gè)簡(jiǎn)單問題中下一個(gè)token的概率預(yù)測(cè)就會(huì)準(zhǔn)確得多,再合并起來,其答案看上去也會(huì)“合理”得多。

          所謂的AI“慢思考”,只是你要給它時(shí)間把問題拆分,然后對(duì)拆分后的問題逐個(gè)進(jìn)行概率計(jì)算,再通過神經(jīng)網(wǎng)絡(luò)合并計(jì)算出最終結(jié)果——或許還要再來回多搞幾次以提高準(zhǔn)確率。沃爾弗拉姆曾指出ChatGPT的一個(gè)不足:

          “甚至與典型的算法計(jì)算不同,ChatGPT內(nèi)部沒有‘循環(huán)’或‘重新計(jì)算數(shù)據(jù)’。這不可避免地限制了其計(jì)算能力——即使與當(dāng)前的計(jì)算機(jī)相比也是如此,更談不上與大腦相比了。”

          思維鏈做的最重要的事情之一,可能就是補(bǔ)上了這個(gè)缺。

          “慢思考”不是真的在進(jìn)行大量嚴(yán)格的推理。因此所謂推理模型,依然不是真正像人那樣進(jìn)行邏輯推理。實(shí)際上,“人的推理”本身也是一個(gè)非常模糊的說法,沃爾弗拉姆就舉過一個(gè)例子:

          “找一張貓的圖片看看,并問自己:‘為什么這是一只貓?’你也許會(huì)說‘我看到了它尖尖的耳朵’,等等。但是很難解釋你是如何把這個(gè)圖像識(shí)別為一只貓的。你的大腦不知怎么就想明白了。”

          在我們貌似根據(jù)一堆細(xì)節(jié)推理出那是一只貓的過程中,實(shí)際上做的大多數(shù)事情并不是推理,而是計(jì)算,我們所以為的推理,基本上只是對(duì)復(fù)雜計(jì)算過程的一種“人性化”的簡(jiǎn)化。

          推理模型的底層依然是計(jì)算而非推理,只不過通過拆分,讓答題過程看上去比較符合我們的預(yù)期而已。所以AI發(fā)展的核心不是o1、o3這種看上去準(zhǔn)確率高得多的所謂推理模型,也不是DeepResearch這種深度思考/研究模型,它們都只不過是針對(duì)普通人的思維誤區(qū),策略性地開發(fā)出來讓大家可以盡快上手一用的權(quán)宜工具,哪怕它們?cè)俸糜?,也只是些過渡性的產(chǎn)品。真正重要的永遠(yuǎn)是基礎(chǔ)模型,GPT-1、2、3、3.5、4、4.5乃至將來的5系列。這不,OpenAI的GPT-4.5一出來,馬上就奪回了被馬斯克的Grok3占據(jù)了一個(gè)禮拜的王座。

          怎么才能用好如今“百模大戰(zhàn)”之下各種層出不窮的AI模型?關(guān)鍵就是要分清楚它們所處的層次,以匹配你想達(dá)到的目的。如果你只是想要替代手動(dòng)搜索,就像一開始那位律師搜索律所的相關(guān)信息,你一定不要用推理模型,用豆包、Kimi、納米之類的高階搜索工具就正好,特別是聯(lián)網(wǎng)之后,準(zhǔn)確率還是有相當(dāng)保障的。

          GPT或Gemini系列的基礎(chǔ)模型,因?yàn)橥耆谟?jì)算,而且語料庫并非實(shí)時(shí),其實(shí)無法保證信息的準(zhǔn)確性,但它能提供各種你意想不到的、超出人的思維慣性的、更富啟發(fā)性的回應(yīng)。至于推理模型,像o1、o3、DeepSeek R1這種,則專用于解決需要更多中間步驟的復(fù)雜任務(wù),如解謎、高級(jí)數(shù)學(xué)、編程等,用它們?nèi)z索普通信息,不僅是殺雞用牛刀,而且難以避免地會(huì)出現(xiàn)各種不可思議的“胡編”。

          《這就是ChatGPT》

          [美]斯蒂芬·沃爾弗拉姆 著

          人民郵電出版社 2023年7月版

          舉報(bào)

          文章作者

          相關(guān)閱讀

          基辛格:當(dāng)AI開始定義人類,如何守護(hù)自身價(jià)值|書摘

          人工智能的迅猛發(fā)展引發(fā)了對(duì)人類價(jià)值和尊嚴(yán)的深刻思考,如何界定人與機(jī)器的本質(zhì)區(qū)別成為關(guān)鍵問題。

          72 03-31 16:32

          人的智能與機(jī)器智能

          向老師學(xué)習(xí),老師的智能就是天花板;向自然學(xué)習(xí),就可以突破人類智能的極限。所以AI的優(yōu)勢(shì)在可擴(kuò)展性,它發(fā)展的絕對(duì)瓶頸常在數(shù)據(jù)和能源。

          358 03-26 20:57

          AI進(jìn)化速遞丨快手可靈AI累計(jì)營(yíng)收超1億元

          國(guó)資委:中央企業(yè)人工智能產(chǎn)業(yè)發(fā)展將進(jìn)一步提速加力;阿里巴巴蔡崇信:開始看到人工智能數(shù)據(jù)中心建設(shè)出現(xiàn)泡沫。

          45 03-25 20:44

          AI進(jìn)化速遞丨東莞市人工智能大模型中心正式開服

          國(guó)家地方共建人形機(jī)器人創(chuàng)新中心:即將發(fā)布里程碑式的通用具身智能平臺(tái)——“格物”;騰訊總裁劉熾平:騰訊可以同時(shí)支持面向未來的AI投資和當(dāng)期股東回報(bào)。

          43 03-19 20:46

          從虧1.9億到賺5.9億,美圖創(chuàng)始人稱 AI讓美圖“重生”

          DeepSeek帶來行業(yè)共識(shí),未來AI應(yīng)用的競(jìng)爭(zhēng)會(huì)尤其激烈。

          172 03-19 09:39
          一財(cái)最熱
          點(diǎn)擊關(guān)閉