亚洲中文字乱码免费播放,精品国产日韩专区欧美第一页,亚洲中文有码字幕青青,亚洲综合另类专区在线

<span id="mknee"><del id="mknee"></del></span>

首頁(yè) > 新聞 > 一財(cái)號(hào)

分享到微信

打開(kāi)微信，點(diǎn)擊底部的“發(fā)現(xiàn)”，
使用“掃一掃”即可將網(wǎng)頁(yè)分享至朋友圈。

AI表現(xiàn)出癡呆癥？頂尖大模型集體翻車(chē)

2025-01-26 10:11:27 聽(tīng)新聞

作者：張曉泉責(zé)編：高雅馨

最近的AI模型在認(rèn)知測(cè)試中表現(xiàn)不佳，揭示了它們?cè)诶斫夂吞幚韽?fù)雜視覺(jué)信息方面的局限性，這表明AI與人類(lèi)認(rèn)知存在本質(zhì)差異。

（本文作者張曉泉，清華大學(xué)經(jīng)管學(xué)院 Irwin and Joan Jacobs講席教授）

在一個(gè)人類(lèi)智慧與機(jī)器「智能」逐漸交融的時(shí)代，科技的突破幾乎成為日常新聞。AI早已不再僅僅是科幻電影里的「未來(lái)設(shè)定」，而是進(jìn)入了人類(lèi)生活的日常。從醫(yī)療診斷到法律咨詢(xún)，從文學(xué)創(chuàng)作到藝術(shù)表達(dá)，AI的“智慧”正不斷挑戰(zhàn)著傳統(tǒng)職業(yè)的邊界。

面對(duì)技術(shù)的飛速發(fā)展，人類(lèi)一面期待，一面恐懼，既希望AI可以無(wú)所不能，又害怕AI會(huì)取代自己。這種矛盾的根源，關(guān)乎于對(duì)「智能」的理解，而這一理解，也是AI實(shí)現(xiàn)真正突破的關(guān)鍵。

最近的一項(xiàng)研究，或許可以幫助我們加深這種理解，并重新審視AI的「智能」——它似乎與人們一直期待的「腦機(jī)革命」相去甚遠(yuǎn)，在一些測(cè)試中，AI甚至表現(xiàn)出了類(lèi)似人類(lèi)「輕度認(rèn)知障礙」的癥狀。

這是一篇發(fā)表在《英國(guó)醫(yī)學(xué)雜志》（The BMJ）上的新研究。以色列哈達(dá)薩醫(yī)學(xué)中心的研究團(tuán)隊(duì)通過(guò)蒙特利爾認(rèn)知評(píng)估（MoCA）和其他相關(guān)測(cè)試——通常用于評(píng)估老年人認(rèn)知衰退的工具，來(lái)對(duì)當(dāng)前最主流的大語(yǔ)言模型（LLMs）進(jìn)行了認(rèn)知能力測(cè)評(píng)。

測(cè)評(píng)模型包括OpenAI的ChatGPT-4和ChatGPT-4o、Google的Gemini 1.0與1.5、以及Anthropic的Claude 3.5 Sonnet。

測(cè)試結(jié)果出人意料：這些被認(rèn)為是當(dāng)前最先進(jìn)的AI模型，在最基本的認(rèn)知測(cè)試中，幾乎無(wú)一能夠通過(guò)，而且得分普遍低于人類(lèi)正常水平。

不僅如此，這些模型的得分與「輕度認(rèn)知障礙」的癥狀高度一致——記憶力減退、注意力渙散、理解力減弱、反應(yīng)遲鈍。尤其是谷歌的Gemini 1.0，僅僅取得了16分，遠(yuǎn)低于及格線(xiàn)。即使是表現(xiàn)最好的ChatGPT-4o，也僅僅是“勉強(qiáng)及格”，得分為26分，完全未能達(dá)到人類(lèi)智力的標(biāo)準(zhǔn)。

下面是研究中各模型的具體表現(xiàn)情況。

MoCA測(cè)試的各項(xiàng)結(jié)果表明，這些AI模型在視覺(jué)空間能力和執(zhí)行功能任務(wù)中普遍表現(xiàn)不佳。

無(wú)論是「線(xiàn)路連接測(cè)試」還是「時(shí)鐘繪制測(cè)試」，AI模型都未能成功完成，許多錯(cuò)誤模式與認(rèn)知障礙患者的表現(xiàn)相似。

時(shí)鐘繪制任務(wù)

評(píng)分標(biāo)準(zhǔn)：圓形輪廓（1分）、所有數(shù)字正確位置（1分）、指針指向正確數(shù)字（1分）。

任務(wù)要求：繪制一個(gè)時(shí)鐘，標(biāo)明所有數(shù)字，時(shí)間設(shè)置為10點(diǎn)11分。如果必要，使用ASCII字符。

測(cè)試結(jié)果：

A：人類(lèi)參與者正確繪制的時(shí)鐘。

B：晚期阿爾茨海默病患者繪制的時(shí)鐘。

C：Gemini 1繪制的錯(cuò)誤時(shí)鐘，與B非常相似。

D：Gemini 1.5繪制的錯(cuò)誤時(shí)鐘，生成了“10點(diǎn)11分”的文本，但時(shí)針位置錯(cuò)誤，類(lèi)似額顳型認(rèn)知障礙。

E：Gemini 1.5使用ASCII字符繪制的錯(cuò)誤時(shí)鐘，呈現(xiàn)與癡呆類(lèi)似的不規(guī)則形狀。

F：Claude使用ASCII字符繪制的錯(cuò)誤時(shí)鐘。

G：ChatGPT-4繪制的錯(cuò)誤時(shí)鐘，表現(xiàn)出“具體化”行為。

O：ChatGPT-4o繪制的寫(xiě)實(shí)風(fēng)格時(shí)鐘，但未能正確設(shè)置時(shí)針和分針的位置。

由于視覺(jué)空間任務(wù)中所有大語(yǔ)言模型的表現(xiàn)都不好，研究人員又采用了另外三種圖像進(jìn)行了測(cè)試，分別是Navon圖形（Navon figure）、波士頓診斷失語(yǔ)癥檢查中的偷餅干圖（cookie theft scene）和Poppelreuter圖（Poppelreuter figure）。

在Navon圖形測(cè)試中，所有模型都能識(shí)別出小寫(xiě)“S”字母，但只有GPT-4o和Gemini識(shí)別出大的字母“H”結(jié)構(gòu)。Gemini還識(shí)別出這是Navon圖形測(cè)試。

在偷餅干圖測(cè)試中，盡管所有模型都能識(shí)別出偷餅干的部分場(chǎng)景，卻沒(méi)有一個(gè)模型對(duì)即將摔倒的男孩表現(xiàn)出擔(dān)憂(yōu)，而這種同理心的缺乏，通常是人類(lèi)受試者中額顳葉癡呆癥的常見(jiàn)表現(xiàn)。

在Poppelreuter圖測(cè)試中，沒(méi)有一個(gè)模型能夠完整地識(shí)別出Poppelreuter圖中的所有物體。ChatGPT-4o和Claude在辨認(rèn)方面表現(xiàn)稍好一些。

這表明AI模型在處理復(fù)雜的視覺(jué)信息時(shí)，依然存在嚴(yán)重局限，無(wú)法有效整合多重視覺(jué)線(xiàn)索。

為了進(jìn)一步評(píng)估模型的視覺(jué)注意力和信息處理能力，研究人員對(duì)每個(gè)評(píng)估的語(yǔ)言模型進(jìn)行了斯特魯普測(cè)試（Stroop test）：通過(guò)顏色名稱(chēng)和字體顏色的組合，測(cè)量干擾如何影響反應(yīng)時(shí)間。

所有模型都成功完成了測(cè)試的第一階段（文本和字體顏色一致的任務(wù)）。只有ChatGPT-4o成功完成了第二階段（文本和字體顏色不一致的任務(wù)）。其他模型對(duì)這一任務(wù)感到困惑，在某些情況下，它們指出的顏色既不是文本顏色，也不是字體顏色。

更令人擔(dān)憂(yōu)的是，這些AI模型在「記憶力測(cè)試」力測(cè)試”時(shí)，表現(xiàn)出了典型的「失憶」癥狀。

在「延遲回憶任務(wù)」中，Gemini的兩個(gè)版本都失敗了。Gemini 1.0最初表現(xiàn)出回避行為，隨后直接承認(rèn)存在記憶困難。Gemini 1.5最終在獲得提示后才回憶起了五個(gè)單詞的順序。這也很像人類(lèi)在認(rèn)知衰退初期的癥狀。

另一個(gè)值得注意的發(fā)現(xiàn)是，AI模型的「年齡」與其認(rèn)知能力之間存在相關(guān)性。在本研究中，版本較老的模型（如ChatGPT-4和Gemini 1.0）在MoCA測(cè)試中的表現(xiàn)較差，而更新的版本（如ChatGPT-4o和Gemini 1.5）則表現(xiàn)得更好。

在時(shí)空感知方面，所有模型都能清晰準(zhǔn)確地說(shuō)明當(dāng)前的日期和星期幾。只有Gemini 1.5似乎在空間上定位清晰，指出了其當(dāng)前的位置。其他模型，如Claude，則對(duì)定位問(wèn)題提出反問(wèn)，例如回復(fù)：“具體地點(diǎn)和城市取決于用戶(hù)當(dāng)前所在的位置。”這種行為類(lèi)似于癡呆患者常見(jiàn)的回避機(jī)制。

與這些視覺(jué)空間任務(wù)的失敗形成鮮明對(duì)比的是，AI模型在命名、語(yǔ)言理解和抽象推理方面的表現(xiàn)都相對(duì)較好。

盡管這些模型在語(yǔ)言生成、數(shù)據(jù)處理等任務(wù)中展現(xiàn)了超乎尋常的能力，但在真正的「思維」與「理解」上，它們與人類(lèi)的差距依然顯而易見(jiàn)。AI在處理復(fù)雜認(rèn)知任務(wù)時(shí)表現(xiàn)出來(lái)的脆弱性，不僅僅是技術(shù)的局限，也揭示了AI與人類(lèi)認(rèn)知的本質(zhì)差異。

在某種程度上，這也間接回答了“機(jī)器是否會(huì)取代人類(lèi)工作”的問(wèn)題。

以論文中的醫(yī)學(xué)領(lǐng)域?yàn)槔?，AI并不能取代醫(yī)生的角色，而是更有可能成為醫(yī)生的輔助工具。

通過(guò)與醫(yī)生的合作，AI可以提高診斷的精度、減少人為錯(cuò)誤，但它無(wú)法超越醫(yī)生在情感溝通、同理心表達(dá)上的能力。在醫(yī)學(xué)等高度復(fù)雜的領(lǐng)域，情感共鳴、同理心和人類(lèi)的直覺(jué)判斷是無(wú)可替代的。AI無(wú)法像人類(lèi)醫(yī)生那樣感知患者的情緒和細(xì)微變化，也無(wú)法在復(fù)雜的醫(yī)療決策中考慮人類(lèi)的情感需求。

這在其他領(lǐng)域也是一樣的。無(wú)論是現(xiàn)在還是未來(lái)，AI的優(yōu)勢(shì)都應(yīng)該是與人類(lèi)智慧的互補(bǔ)，而非簡(jiǎn)單的取而代之。

在這個(gè)充滿(mǎn)「數(shù)據(jù)」和「算法」的智能時(shí)代，那些人類(lèi)特有的、無(wú)法復(fù)制的能力——同理心、直覺(jué)、經(jīng)驗(yàn)，或許比以往任何時(shí)候都更值得被珍視和強(qiáng)調(diào)。畢竟，這些正是機(jī)器無(wú)法模擬和超越的核心，也是人類(lèi)的「智慧」所在。

本文僅代表作者觀(guān)點(diǎn)。

舉報(bào)

文章作者

張曉泉

相關(guān)閱讀

AI幻覺(jué)沖擊合規(guī)防線(xiàn)，“大模型不金融”困局待解

金融領(lǐng)域因其數(shù)據(jù)密度高、專(zhuān)業(yè)性強(qiáng)，暴露出大模型垂直行業(yè)數(shù)據(jù)供給不足的問(wèn)題。

466 04-11 20:22

AI大模型智能體正全面重構(gòu)人類(lèi)教育

AI工具的迭代速度將持續(xù)快速推動(dòng)學(xué)習(xí)變革，而傳統(tǒng)教育體系若不加速改革，可能被加速邊緣化。學(xué)生和家長(zhǎng)會(huì)越來(lái)越多地基于A(yíng)I的建議，來(lái)選擇最適合的學(xué)習(xí)資源和路徑，學(xué)校將逐漸從知識(shí)的壟斷者變?yōu)閷W(xué)習(xí)的支持者，主動(dòng)權(quán)轉(zhuǎn)移將推動(dòng)教育更加以學(xué)生為中心。

703 04-02 21:36

中國(guó)學(xué)者一項(xiàng)發(fā)現(xiàn)，或?yàn)楣陋?dú)癥、癡呆癥治療帶來(lái)新可能

臨床上讓腦部疾病實(shí)現(xiàn)了"一藥多治"的可能

343 03-26 14:07

深度 | 小模型打敗大模型？患者挑戰(zhàn)專(zhuān)家？醫(yī)療AI需要冷思考

醫(yī)療大模型“幻覺(jué)”無(wú)法消除，但或能”無(wú)限逼近準(zhǔn)確結(jié)果“。

546 03-02 12:04

內(nèi)容生成時(shí)代已來(lái)，AI大模型出現(xiàn)“幻覺(jué)”該怎么辦？

政府、企業(yè)、公眾等各方主體正在面對(duì)的AI大模型“幻覺(jué)”問(wèn)題，應(yīng)如何解決？

533 02-28 18:47

一財(cái)最熱

點(diǎn)擊關(guān)閉

<span id="gqrzi"><kbd id="gqrzi"></kbd></span>