亚洲中文字乱码免费播放,精品国产日韩专区欧美第一页,亚洲中文有码字幕青青,亚洲综合另类专区在线

          首頁(yè) > 新聞 > 科技

          分享到微信

          打開(kāi)微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
          使用“掃一掃”即可將網(wǎng)頁(yè)分享至朋友圈。

          七大模型參加“高考”后分?jǐn)?shù)出爐:文科上了一本線,理科只能上二本

          第一財(cái)經(jīng) 2024-07-17 23:35:21 聽(tīng)新聞

          作者:劉曉潔    責(zé)編:李娜

          OpenCompass團(tuán)隊(duì)對(duì)7個(gè)AI大模型進(jìn)行了高考9個(gè)科目的全科目測(cè)試,表現(xiàn)最優(yōu)的三個(gè)大模型文科成績(jī)過(guò)一本,理科成績(jī)超二本。

          此前6月,上海人工智能實(shí)驗(yàn)室旗下司南評(píng)測(cè)體系OpenCompass發(fā)布了首個(gè)AI高考全卷評(píng)測(cè)結(jié)果,顯示語(yǔ)數(shù)外三科加起來(lái),AI考生最高能得303分,數(shù)學(xué)全不及格。

          7月17日,OpenCompass進(jìn)一步發(fā)布了擴(kuò)大學(xué)科范圍的測(cè)評(píng),團(tuán)隊(duì)對(duì)7個(gè)AI大模型進(jìn)行了高考9個(gè)科目的全科目測(cè)試,這樣一來(lái)也就能與高考錄取分?jǐn)?shù)線作比較。

          如果AI參加高考,能被什么大學(xué)錄???OpenCompass測(cè)試發(fā)現(xiàn),大模型如果參加文科考試,最好的成績(jī)能被“錄取”到一本,而參加理科考試,則最多只能被二本“錄取”(以今年高考人數(shù)最多的河南省的分?jǐn)?shù)線為參考)。

          此次測(cè)試的模型仍然來(lái)自阿里巴巴、零一萬(wàn)物、智譜AI、上海人工智能實(shí)驗(yàn)室&商湯、法國(guó)Mistral的開(kāi)源模型,以及來(lái)自O(shè)penAI的閉源模型GPT-4o。

          從總分來(lái)看,文科最高分是阿里通義千問(wèn)大模型,以546分的成績(jī)獲得AI高考“文科狀元”。理科最高分則是上海人工智能實(shí)驗(yàn)室&商湯聯(lián)合研發(fā)的浦語(yǔ)文曲星,達(dá)到了468.5分。OpenAI的GPT-4o在文科上得分531,排名第三,理科得分為467,排名第二。

          就評(píng)測(cè)結(jié)果的公正透明方面,相關(guān)人士介紹,大模型高考評(píng)測(cè)的生成答案的代碼、模型答卷、評(píng)分結(jié)果完全公開(kāi),可供各界參考(公開(kāi)評(píng)測(cè)細(xì)節(jié)可訪問(wèn)https://github.com/open-compass/GAOKAO-Eval)。

          評(píng)測(cè)團(tuán)隊(duì)選取了河南省錄取批次線作為參考,對(duì)比了大模型得分與對(duì)應(yīng)分?jǐn)?shù)線??偟膩?lái)說(shuō),參考2024年河南本科批次錄取線,表現(xiàn)最優(yōu)的三個(gè)大模型文科成績(jī)過(guò)一本,理科超二本。其他大模型文理科成績(jī)均未達(dá)到二本線標(biāo)準(zhǔn)。

          如果AI參加的是文科考試,那么通義千問(wèn)、書(shū)生浦語(yǔ)文曲星、GPT-4o的文科成績(jī)均超越一本線,展現(xiàn)了大模型在語(yǔ)文、歷史、地理、思想政治等科目上深厚的知識(shí)儲(chǔ)備和理解能力。

          如果AI參加的是理科考試,整體表現(xiàn)則會(huì)弱于文科,體現(xiàn)了大模型在數(shù)理推理能力上普遍存在短板,但前三甲的理科成績(jī)也均超過(guò)二本分?jǐn)?shù)線,“錄取”上二本不成問(wèn)題。

          團(tuán)隊(duì)表示,為更貼近真實(shí)高考情況,評(píng)測(cè)采用3(語(yǔ)數(shù)外)+3(理綜/文綜)的形式對(duì)大模型進(jìn)行了全科目測(cè)試。評(píng)測(cè)過(guò)程中,所有純文本題目由大語(yǔ)言模型作答,而綜合科目中的帶圖題目,則由對(duì)應(yīng)團(tuán)隊(duì)開(kāi)源的多模態(tài)大模型回答。

          測(cè)評(píng)發(fā)現(xiàn),對(duì)于純文本題目,大模型平均得分率可達(dá)64.32%,而面對(duì)帶圖題目,得分率僅有37.64%。在圖片理解和運(yùn)用能力方面,所有大模型均存在較大提升空間。

          此外,部分大模型已達(dá)到一本分?jǐn)?shù),經(jīng)過(guò)再訓(xùn)練,是否可達(dá)到頂尖高校錄取線水平?完成閱卷后,老師們一致認(rèn)為,大模型與真人考生仍存在差距,雖然對(duì)于基礎(chǔ)知識(shí)的掌握表現(xiàn)出色,但在邏輯推理和知識(shí)靈活應(yīng)用方面,大模型仍然差強(qiáng)人意。

          具體而言,在作答主觀題時(shí),大模型往往無(wú)法完整理解題干,不明白代詞指向,結(jié)果導(dǎo)致答非所問(wèn);解答數(shù)學(xué)題時(shí),解題過(guò)程機(jī)械且邏輯性差,對(duì)于幾何題,常出現(xiàn)與空間邏輯相違背的推斷;對(duì)物理、化學(xué)實(shí)驗(yàn)理解膚淺,無(wú)法準(zhǔn)確識(shí)別并運(yùn)用實(shí)驗(yàn)器材。此外,大模型也會(huì)偽造虛構(gòu)內(nèi)容,編造看似合理但實(shí)際不存在的詩(shī)句,或在存在明顯計(jì)算錯(cuò)誤的情況下之后不反思,“硬著頭皮蒙”一個(gè)答案,均給閱卷老師帶來(lái)了困擾。

          在公開(kāi)評(píng)測(cè)細(xì)節(jié)中,第一財(cái)經(jīng)記者發(fā)現(xiàn)收錄了一些閱卷老師的點(diǎn)評(píng)。

          理科數(shù)學(xué)老師點(diǎn)評(píng)稱,大模型做題總體感覺(jué)很機(jī)械,大部分題目都無(wú)法通過(guò)正常的推理過(guò)程得出。例如填空題第一題,大模型都只能進(jìn)行到少部分過(guò)程而達(dá)到一個(gè)結(jié)果,并不能夠像考生做題一樣進(jìn)行全面分析,列出完整的計(jì)算過(guò)程達(dá)到正確結(jié)果。大模型的基礎(chǔ)公式記憶能力較為優(yōu)秀,但無(wú)法做到靈活使用。此外有些題目結(jié)果正確,但過(guò)程邏輯差不符合正規(guī)計(jì)算,導(dǎo)致閱卷比較困難。

          地理老師認(rèn)為,大模型在答題過(guò)程中展現(xiàn)了對(duì)地理知識(shí)的全面覆蓋,從自然地理到人文地理,從地理現(xiàn)象到地理規(guī)律,都能有所涉及。尤其在基礎(chǔ)知識(shí)點(diǎn)的考查上較為出色,然而,在涉及一些深入分析或推理的問(wèn)題中,存在一定的偏差和遺漏,所以模型在面對(duì)非常規(guī)、開(kāi)放性較強(qiáng)的問(wèn)題時(shí),其表現(xiàn)較差。

          物理老師發(fā)現(xiàn),大模型總體感覺(jué)比較機(jī)械,很多都無(wú)法識(shí)別到題目的意思,有些選擇題即使選項(xiàng)對(duì)了,但是分析也是錯(cuò)誤的。一些大題步驟冗雜,并且沒(méi)有邏輯,常常出現(xiàn)將本次的結(jié)論帶入到推理出本次結(jié)論的證據(jù)中,如此循環(huán),沒(méi)有道理。

          閱卷老師們認(rèn)為,相對(duì)于人類考生,目前大模型依然存在較大局限性。

          舉報(bào)
          第一財(cái)經(jīng)廣告合作,請(qǐng)點(diǎn)擊這里
          此內(nèi)容為第一財(cái)經(jīng)原創(chuàng),著作權(quán)歸第一財(cái)經(jīng)所有。未經(jīng)第一財(cái)經(jīng)書(shū)面授權(quán),不得以任何方式加以使用,包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。第一財(cái)經(jīng)保留追究侵權(quán)者法律責(zé)任的權(quán)利。 如需獲得授權(quán)請(qǐng)聯(lián)系第一財(cái)經(jīng)版權(quán)部:021-22002972或021-22002335;banquan@yicai.com。

          文章作者

          相關(guān)閱讀

          小米法務(wù)部:發(fā)布所謂“測(cè)試視頻”的某平臺(tái)博主已被依法緝拿歸案

          2024年8月13日,某平臺(tái)博主發(fā)布其將小米汽車(chē)與某品牌汽車(chē)對(duì)撞的所謂“測(cè)試視頻”,有意誤導(dǎo)公眾。

          105 01-25 10:48

          劉擎提醒千名現(xiàn)場(chǎng)讀者:梭羅從來(lái)不漠視社會(huì)問(wèn)題

          劉擎認(rèn)為,訓(xùn)練工具理性的投資和回報(bào)是明確的,但人文主義或者價(jià)值理性導(dǎo)向的投資和回報(bào),卻很難衡量和評(píng)價(jià),因此在很多人看來(lái),人文教育的價(jià)值就非??梢?。

          90 01-10 08:51

          視覺(jué)模型訓(xùn)練成本一年下降80%,中國(guó)AI廠商“掀起”全球算力降價(jià)潮

          對(duì)中國(guó)AI企業(yè)來(lái)說(shuō),一些好的變化正在發(fā)生,也有更多挑戰(zhàn)等待2025年去回答。

          204 01-08 22:40

          一個(gè)自閉癥孩子的父親,想用大模型為孩子治病

          自閉癥治療有一個(gè)特別突出的痛點(diǎn),它沒(méi)有藥物,全部都要靠人工干預(yù)。而自閉癥的數(shù)字療法主要就是做兩件事,一是重構(gòu)客觀世界,二是重構(gòu)社交場(chǎng)景。

          110 2024-12-27 09:39

          招聘老司機(jī)訓(xùn)練AI,百度蘿卜快跑“駛向”香港

          蘿卜快跑展開(kāi)全球化布局,既是商業(yè)化的需要,更有來(lái)自行業(yè)競(jìng)爭(zhēng)的緊迫性。

          199 2024-11-26 15:11
          一財(cái)最熱
          點(diǎn)擊關(guān)閉