亚洲中文字乱码免费播放,精品国产日韩专区欧美第一页,亚洲中文有码字幕青青,亚洲综合另类专区在线

          首頁(yè) > 新聞 > 一財(cái)號(hào)

          分享到微信

          打開(kāi)微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
          使用“掃一掃”即可將網(wǎng)頁(yè)分享至朋友圈。

          AI表現(xiàn)出癡呆癥?頂尖大模型集體翻車(chē)

          2025-01-26 10:11:27 聽(tīng)新聞

          作者:張曉泉    責(zé)編:高雅馨

          最近的AI模型在認(rèn)知測(cè)試中表現(xiàn)不佳,揭示了它們?cè)诶斫夂吞幚韽?fù)雜視覺(jué)信息方面的局限性,這表明AI與人類(lèi)認(rèn)知存在本質(zhì)差異。

          (本文作者張曉泉,清華大學(xué)經(jīng)管學(xué)院 Irwin and Joan Jacobs講席教授)

           

          在一個(gè)人類(lèi)智慧與機(jī)器「智能」逐漸交融的時(shí)代,科技的突破幾乎成為日常新聞。AI早已不再僅僅是科幻電影里的「未來(lái)設(shè)定」,而是進(jìn)入了人類(lèi)生活的日常。從醫(yī)療診斷到法律咨詢(xún),從文學(xué)創(chuàng)作到藝術(shù)表達(dá),AI的“智慧”正不斷挑戰(zhàn)著傳統(tǒng)職業(yè)的邊界。

          面對(duì)技術(shù)的飛速發(fā)展,人類(lèi)一面期待,一面恐懼,既希望AI可以無(wú)所不能,又害怕AI會(huì)取代自己。這種矛盾的根源,關(guān)乎于對(duì)「智能」的理解,而這一理解,也是AI實(shí)現(xiàn)真正突破的關(guān)鍵。

          最近的一項(xiàng)研究,或許可以幫助我們加深這種理解,并重新審視AI的「智能」——它似乎與人們一直期待的「腦機(jī)革命」相去甚遠(yuǎn),在一些測(cè)試中,AI甚至表現(xiàn)出了類(lèi)似人類(lèi)「輕度認(rèn)知障礙」的癥狀。

          這是一篇發(fā)表在《英國(guó)醫(yī)學(xué)雜志》(The BMJ)上的新研究。以色列哈達(dá)薩醫(yī)學(xué)中心的研究團(tuán)隊(duì)通過(guò)蒙特利爾認(rèn)知評(píng)估(MoCA)和其他相關(guān)測(cè)試——通常用于評(píng)估老年人認(rèn)知衰退的工具,來(lái)對(duì)當(dāng)前最主流的大語(yǔ)言模型(LLMs)進(jìn)行了認(rèn)知能力測(cè)評(píng)。

          測(cè)評(píng)模型包括OpenAI的ChatGPT-4和ChatGPT-4o、Google的Gemini 1.0與1.5、以及Anthropic的Claude 3.5 Sonnet。

          測(cè)試結(jié)果出人意料:這些被認(rèn)為是當(dāng)前最先進(jìn)的AI模型,在最基本的認(rèn)知測(cè)試中,幾乎無(wú)一能夠通過(guò),而且得分普遍低于人類(lèi)正常水平。

          不僅如此,這些模型的得分與「輕度認(rèn)知障礙」的癥狀高度一致——記憶力減退、注意力渙散、理解力減弱、反應(yīng)遲鈍。尤其是谷歌的Gemini 1.0,僅僅取得了16分,遠(yuǎn)低于及格線(xiàn)。即使是表現(xiàn)最好的ChatGPT-4o,也僅僅是“勉強(qiáng)及格”,得分為26分,完全未能達(dá)到人類(lèi)智力的標(biāo)準(zhǔn)。

          下面是研究中各模型的具體表現(xiàn)情況。

          MoCA測(cè)試的各項(xiàng)結(jié)果表明,這些AI模型在視覺(jué)空間能力和執(zhí)行功能任務(wù)中普遍表現(xiàn)不佳。

          無(wú)論是「線(xiàn)路連接測(cè)試」還是「時(shí)鐘繪制測(cè)試」,AI模型都未能成功完成,許多錯(cuò)誤模式與認(rèn)知障礙患者的表現(xiàn)相似。

          時(shí)鐘繪制任務(wù)

          評(píng)分標(biāo)準(zhǔn):圓形輪廓(1分)、所有數(shù)字正確位置(1分)、指針指向正確數(shù)字(1分)。

          任務(wù)要求:繪制一個(gè)時(shí)鐘,標(biāo)明所有數(shù)字,時(shí)間設(shè)置為10點(diǎn)11分。如果必要,使用ASCII字符。

          測(cè)試結(jié)果:

          A:人類(lèi)參與者正確繪制的時(shí)鐘。

          B:晚期阿爾茨海默病患者繪制的時(shí)鐘。

          C:Gemini 1繪制的錯(cuò)誤時(shí)鐘,與B非常相似。

          D:Gemini 1.5繪制的錯(cuò)誤時(shí)鐘,生成了“10點(diǎn)11分”的文本,但時(shí)針位置錯(cuò)誤,類(lèi)似額顳型認(rèn)知障礙。

          E:Gemini 1.5使用ASCII字符繪制的錯(cuò)誤時(shí)鐘,呈現(xiàn)與癡呆類(lèi)似的不規(guī)則形狀。

          F:Claude使用ASCII字符繪制的錯(cuò)誤時(shí)鐘。

          G:ChatGPT-4繪制的錯(cuò)誤時(shí)鐘,表現(xiàn)出“具體化”行為。

          O:ChatGPT-4o繪制的寫(xiě)實(shí)風(fēng)格時(shí)鐘,但未能正確設(shè)置時(shí)針和分針的位置。

          由于視覺(jué)空間任務(wù)中所有大語(yǔ)言模型的表現(xiàn)都不好,研究人員又采用了另外三種圖像進(jìn)行了測(cè)試,分別是Navon圖形(Navon figure)、波士頓診斷失語(yǔ)癥檢查中的偷餅干圖(cookie theft scene)和Poppelreuter圖(Poppelreuter figure)。

          在Navon圖形測(cè)試中,所有模型都能識(shí)別出小寫(xiě)“S”字母,但只有GPT-4o和Gemini識(shí)別出大的字母“H”結(jié)構(gòu)。Gemini還識(shí)別出這是Navon圖形測(cè)試。

          在偷餅干圖測(cè)試中,盡管所有模型都能識(shí)別出偷餅干的部分場(chǎng)景,卻沒(méi)有一個(gè)模型對(duì)即將摔倒的男孩表現(xiàn)出擔(dān)憂(yōu),而這種同理心的缺乏,通常是人類(lèi)受試者中額顳葉癡呆癥的常見(jiàn)表現(xiàn)。

          在Poppelreuter圖測(cè)試中,沒(méi)有一個(gè)模型能夠完整地識(shí)別出Poppelreuter圖中的所有物體。ChatGPT-4o和Claude在辨認(rèn)方面表現(xiàn)稍好一些。

          這表明AI模型在處理復(fù)雜的視覺(jué)信息時(shí),依然存在嚴(yán)重局限,無(wú)法有效整合多重視覺(jué)線(xiàn)索。

          為了進(jìn)一步評(píng)估模型的視覺(jué)注意力和信息處理能力,研究人員對(duì)每個(gè)評(píng)估的語(yǔ)言模型進(jìn)行了斯特魯普測(cè)試(Stroop test):通過(guò)顏色名稱(chēng)和字體顏色的組合,測(cè)量干擾如何影響反應(yīng)時(shí)間。

          所有模型都成功完成了測(cè)試的第一階段(文本和字體顏色一致的任務(wù))。只有ChatGPT-4o成功完成了第二階段(文本和字體顏色不一致的任務(wù))。其他模型對(duì)這一任務(wù)感到困惑,在某些情況下,它們指出的顏色既不是文本顏色,也不是字體顏色。

          更令人擔(dān)憂(yōu)的是,這些AI模型在「記憶力測(cè)試」力測(cè)試”時(shí),表現(xiàn)出了典型的「失憶」癥狀。

          在「延遲回憶任務(wù)」中,Gemini的兩個(gè)版本都失敗了。Gemini 1.0最初表現(xiàn)出回避行為,隨后直接承認(rèn)存在記憶困難。Gemini 1.5最終在獲得提示后才回憶起了五個(gè)單詞的順序。這也很像人類(lèi)在認(rèn)知衰退初期的癥狀。

          另一個(gè)值得注意的發(fā)現(xiàn)是,AI模型的「年齡」與其認(rèn)知能力之間存在相關(guān)性。在本研究中,版本較老的模型(如ChatGPT-4和Gemini 1.0)在MoCA測(cè)試中的表現(xiàn)較差,而更新的版本(如ChatGPT-4o和Gemini 1.5)則表現(xiàn)得更好。

          在時(shí)空感知方面,所有模型都能清晰準(zhǔn)確地說(shuō)明當(dāng)前的日期和星期幾。只有Gemini 1.5似乎在空間上定位清晰,指出了其當(dāng)前的位置。其他模型,如Claude,則對(duì)定位問(wèn)題提出反問(wèn),例如回復(fù):“具體地點(diǎn)和城市取決于用戶(hù)當(dāng)前所在的位置。”這種行為類(lèi)似于癡呆患者常見(jiàn)的回避機(jī)制。

          與這些視覺(jué)空間任務(wù)的失敗形成鮮明對(duì)比的是,AI模型在命名、語(yǔ)言理解和抽象推理方面的表現(xiàn)都相對(duì)較好。

          盡管這些模型在語(yǔ)言生成、數(shù)據(jù)處理等任務(wù)中展現(xiàn)了超乎尋常的能力,但在真正的「思維」與「理解」上,它們與人類(lèi)的差距依然顯而易見(jiàn)。AI在處理復(fù)雜認(rèn)知任務(wù)時(shí)表現(xiàn)出來(lái)的脆弱性,不僅僅是技術(shù)的局限,也揭示了AI與人類(lèi)認(rèn)知的本質(zhì)差異。

          在某種程度上,這也間接回答了“機(jī)器是否會(huì)取代人類(lèi)工作”的問(wèn)題。

          以論文中的醫(yī)學(xué)領(lǐng)域?yàn)槔?,AI并不能取代醫(yī)生的角色,而是更有可能成為醫(yī)生的輔助工具。

          通過(guò)與醫(yī)生的合作,AI可以提高診斷的精度、減少人為錯(cuò)誤,但它無(wú)法超越醫(yī)生在情感溝通、同理心表達(dá)上的能力。在醫(yī)學(xué)等高度復(fù)雜的領(lǐng)域,情感共鳴、同理心和人類(lèi)的直覺(jué)判斷是無(wú)可替代的。AI無(wú)法像人類(lèi)醫(yī)生那樣感知患者的情緒和細(xì)微變化,也無(wú)法在復(fù)雜的醫(yī)療決策中考慮人類(lèi)的情感需求。

          這在其他領(lǐng)域也是一樣的。無(wú)論是現(xiàn)在還是未來(lái),AI的優(yōu)勢(shì)都應(yīng)該是與人類(lèi)智慧的互補(bǔ),而非簡(jiǎn)單的取而代之。

          在這個(gè)充滿(mǎn)「數(shù)據(jù)」和「算法」的智能時(shí)代,那些人類(lèi)特有的、無(wú)法復(fù)制的能力——同理心、直覺(jué)、經(jīng)驗(yàn),或許比以往任何時(shí)候都更值得被珍視和強(qiáng)調(diào)。畢竟,這些正是機(jī)器無(wú)法模擬和超越的核心,也是人類(lèi)的「智慧」所在。

          本文僅代表作者觀(guān)點(diǎn)。

          舉報(bào)

          文章作者

          相關(guān)閱讀

          AI幻覺(jué)沖擊合規(guī)防線(xiàn),“大模型不金融”困局待解

          金融領(lǐng)域因其數(shù)據(jù)密度高、專(zhuān)業(yè)性強(qiáng),暴露出大模型垂直行業(yè)數(shù)據(jù)供給不足的問(wèn)題。

          466 04-11 20:22

          AI大模型智能體正全面重構(gòu)人類(lèi)教育

          AI工具的迭代速度將持續(xù)快速推動(dòng)學(xué)習(xí)變革,而傳統(tǒng)教育體系若不加速改革,可能被加速邊緣化。學(xué)生和家長(zhǎng)會(huì)越來(lái)越多地基于A(yíng)I的建議,來(lái)選擇最適合的學(xué)習(xí)資源和路徑,學(xué)校將逐漸從知識(shí)的壟斷者變?yōu)閷W(xué)習(xí)的支持者,主動(dòng)權(quán)轉(zhuǎn)移將推動(dòng)教育更加以學(xué)生為中心。

          703 04-02 21:36

          中國(guó)學(xué)者一項(xiàng)發(fā)現(xiàn),或?yàn)楣陋?dú)癥、癡呆癥治療帶來(lái)新可能

          臨床上讓腦部疾病實(shí)現(xiàn)了"一藥多治"的可能

          343 03-26 14:07

          深度 | 小模型打敗大模型?患者挑戰(zhàn)專(zhuān)家?醫(yī)療AI需要冷思考

          醫(yī)療大模型“幻覺(jué)”無(wú)法消除,但或能”無(wú)限逼近準(zhǔn)確結(jié)果“。

          546 03-02 12:04

          內(nèi)容生成時(shí)代已來(lái),AI大模型出現(xiàn)“幻覺(jué)”該怎么辦?

          政府、企業(yè)、公眾等各方主體正在面對(duì)的AI大模型“幻覺(jué)”問(wèn)題,應(yīng)如何解決?

          533 02-28 18:47
          一財(cái)最熱
          點(diǎn)擊關(guān)閉