亚洲中文字乱码免费播放,精品国产日韩专区欧美第一页,亚洲中文有码字幕青青,亚洲综合另类专区在线

首頁 > 新聞 > 科技

分享到微信

打開微信，點(diǎn)擊底部的“發(fā)現(xiàn)”，
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。

七大模型參加“高考”后分?jǐn)?shù)出爐：文科上了一本線，理科只能上二本

第一財(cái)經(jīng) 2024-07-17 23:35:21 聽新聞

作者：劉曉潔責(zé)編：李娜

OpenCompass團(tuán)隊(duì)對(duì)7個(gè)AI大模型進(jìn)行了高考9個(gè)科目的全科目測試，表現(xiàn)最優(yōu)的三個(gè)大模型文科成績過一本，理科成績超二本。

此前6月，上海人工智能實(shí)驗(yàn)室旗下司南評(píng)測體系OpenCompass發(fā)布了首個(gè)AI高考全卷評(píng)測結(jié)果，顯示語數(shù)外三科加起來，AI考生最高能得303分，數(shù)學(xué)全不及格。

7月17日，OpenCompass進(jìn)一步發(fā)布了擴(kuò)大學(xué)科范圍的測評(píng)，團(tuán)隊(duì)對(duì)7個(gè)AI大模型進(jìn)行了高考9個(gè)科目的全科目測試，這樣一來也就能與高考錄取分?jǐn)?shù)線作比較。

如果AI參加高考，能被什么大學(xué)錄??？OpenCompass測試發(fā)現(xiàn)，大模型如果參加文科考試，最好的成績能被“錄取”到一本，而參加理科考試，則最多只能被二本“錄取”（以今年高考人數(shù)最多的河南省的分?jǐn)?shù)線為參考）。

此次測試的模型仍然來自阿里巴巴、零一萬物、智譜AI、上海人工智能實(shí)驗(yàn)室&商湯、法國Mistral的開源模型，以及來自O(shè)penAI的閉源模型GPT-4o。

從總分來看，文科最高分是阿里通義千問大模型，以546分的成績獲得AI高考“文科狀元”。理科最高分則是上海人工智能實(shí)驗(yàn)室&商湯聯(lián)合研發(fā)的浦語文曲星，達(dá)到了468.5分。OpenAI的GPT-4o在文科上得分531，排名第三，理科得分為467，排名第二。

就評(píng)測結(jié)果的公正透明方面，相關(guān)人士介紹，大模型高考評(píng)測的生成答案的代碼、模型答卷、評(píng)分結(jié)果完全公開，可供各界參考（公開評(píng)測細(xì)節(jié)可訪問https://github.com/open-compass/GAOKAO-Eval）。

評(píng)測團(tuán)隊(duì)選取了河南省錄取批次線作為參考，對(duì)比了大模型得分與對(duì)應(yīng)分?jǐn)?shù)線。總的來說，參考2024年河南本科批次錄取線，表現(xiàn)最優(yōu)的三個(gè)大模型文科成績過一本，理科超二本。其他大模型文理科成績均未達(dá)到二本線標(biāo)準(zhǔn)。

如果AI參加的是文科考試，那么通義千問、書生浦語文曲星、GPT-4o的文科成績均超越一本線，展現(xiàn)了大模型在語文、歷史、地理、思想政治等科目上深厚的知識(shí)儲(chǔ)備和理解能力。

如果AI參加的是理科考試，整體表現(xiàn)則會(huì)弱于文科，體現(xiàn)了大模型在數(shù)理推理能力上普遍存在短板，但前三甲的理科成績也均超過二本分?jǐn)?shù)線，“錄取”上二本不成問題。

團(tuán)隊(duì)表示，為更貼近真實(shí)高考情況，評(píng)測采用3（語數(shù)外）+3（理綜/文綜）的形式對(duì)大模型進(jìn)行了全科目測試。評(píng)測過程中，所有純文本題目由大語言模型作答，而綜合科目中的帶圖題目，則由對(duì)應(yīng)團(tuán)隊(duì)開源的多模態(tài)大模型回答。

測評(píng)發(fā)現(xiàn)，對(duì)于純文本題目，大模型平均得分率可達(dá)64.32%，而面對(duì)帶圖題目，得分率僅有37.64%。在圖片理解和運(yùn)用能力方面，所有大模型均存在較大提升空間。

此外，部分大模型已達(dá)到一本分?jǐn)?shù)，經(jīng)過再訓(xùn)練，是否可達(dá)到頂尖高校錄取線水平？完成閱卷后，老師們一致認(rèn)為，大模型與真人考生仍存在差距，雖然對(duì)于基礎(chǔ)知識(shí)的掌握表現(xiàn)出色，但在邏輯推理和知識(shí)靈活應(yīng)用方面，大模型仍然差強(qiáng)人意。

具體而言，在作答主觀題時(shí)，大模型往往無法完整理解題干，不明白代詞指向，結(jié)果導(dǎo)致答非所問；解答數(shù)學(xué)題時(shí)，解題過程機(jī)械且邏輯性差，對(duì)于幾何題，常出現(xiàn)與空間邏輯相違背的推斷；對(duì)物理、化學(xué)實(shí)驗(yàn)理解膚淺，無法準(zhǔn)確識(shí)別并運(yùn)用實(shí)驗(yàn)器材。此外，大模型也會(huì)偽造虛構(gòu)內(nèi)容，編造看似合理但實(shí)際不存在的詩句，或在存在明顯計(jì)算錯(cuò)誤的情況下之后不反思，“硬著頭皮蒙”一個(gè)答案，均給閱卷老師帶來了困擾。

在公開評(píng)測細(xì)節(jié)中，第一財(cái)經(jīng)記者發(fā)現(xiàn)收錄了一些閱卷老師的點(diǎn)評(píng)。

理科數(shù)學(xué)老師點(diǎn)評(píng)稱，大模型做題總體感覺很機(jī)械，大部分題目都無法通過正常的推理過程得出。例如填空題第一題，大模型都只能進(jìn)行到少部分過程而達(dá)到一個(gè)結(jié)果，并不能夠像考生做題一樣進(jìn)行全面分析，列出完整的計(jì)算過程達(dá)到正確結(jié)果。大模型的基礎(chǔ)公式記憶能力較為優(yōu)秀，但無法做到靈活使用。此外有些題目結(jié)果正確，但過程邏輯差不符合正規(guī)計(jì)算，導(dǎo)致閱卷比較困難。

地理老師認(rèn)為，大模型在答題過程中展現(xiàn)了對(duì)地理知識(shí)的全面覆蓋，從自然地理到人文地理，從地理現(xiàn)象到地理規(guī)律，都能有所涉及。尤其在基礎(chǔ)知識(shí)點(diǎn)的考查上較為出色，然而，在涉及一些深入分析或推理的問題中，存在一定的偏差和遺漏，所以模型在面對(duì)非常規(guī)、開放性較強(qiáng)的問題時(shí)，其表現(xiàn)較差。

物理老師發(fā)現(xiàn)，大模型總體感覺比較機(jī)械，很多都無法識(shí)別到題目的意思，有些選擇題即使選項(xiàng)對(duì)了，但是分析也是錯(cuò)誤的。一些大題步驟冗雜，并且沒有邏輯，常常出現(xiàn)將本次的結(jié)論帶入到推理出本次結(jié)論的證據(jù)中，如此循環(huán)，沒有道理。

閱卷老師們認(rèn)為，相對(duì)于人類考生，目前大模型依然存在較大局限性。

舉報(bào)

第一財(cái)經(jīng)廣告合作，請(qǐng)點(diǎn)擊這里

此內(nèi)容為第一財(cái)經(jīng)原創(chuàng)，著作權(quán)歸第一財(cái)經(jīng)所有。未經(jīng)第一財(cái)經(jīng)書面授權(quán)，不得以任何方式加以使用，包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。第一財(cái)經(jīng)保留追究侵權(quán)者法律責(zé)任的權(quán)利。
如需獲得授權(quán)請(qǐng)聯(lián)系第一財(cái)經(jīng)版權(quán)部：banquan@yicai.com

文章作者

劉曉潔

相關(guān)閱讀

AI進(jìn)化速遞丨OpenAI將在幾周內(nèi)發(fā)布o(jì)3、o4-MINI

OpenAI創(chuàng)始人Sam Altman：將在幾周內(nèi)發(fā)布o(jì)3、o4-MINI；谷歌宣布一個(gè)新的實(shí)驗(yàn)性人工智能模型Sec-Gemini V1。

405 04-05 20:40

尋找大模型應(yīng)用落地 “最后一公里” ，第一財(cái)經(jīng)《數(shù)新風(fēng)｜洞見“模”力》講述“AI+”新故事

“應(yīng)用為王”這一理念在大模型技術(shù)發(fā)展與落地中尤為重要，已經(jīng)成為產(chǎn)業(yè)界、企業(yè)界最迫切解決的一個(gè)課題。

AI進(jìn)化速遞丨海洋大語言模型“瀚海智語”正式發(fā)布

螞蟻?zhàn)匝?900億大模型用國產(chǎn)AI芯片完成高效訓(xùn)練；京東入局具身智能，已成立多支團(tuán)隊(duì)進(jìn)行前沿研發(fā)。

但凡落入是否有用的自我辯護(hù)，文科就輸了

文理之分，本是一個(gè)無奈的制度設(shè)計(jì)，大學(xué)就好比是一座多層建筑，要是其中沒有一個(gè)個(gè)的房間，連頂蓋都支不起來。

184 03-21 10:25

開普勒人形機(jī)器人K2進(jìn)廠“搬磚”

開普勒人形機(jī)器人K2進(jìn)廠“搬磚”

一財(cái)最熱

點(diǎn)擊關(guān)閉

<rp id="6dlhr"><th id="6dlhr"></th></rp>