亚洲中文字乱码免费播放,精品国产日韩专区欧美第一页,亚洲中文有码字幕青青,亚洲综合另类专区在线

          首頁 > 新聞 > 科技

          分享到微信

          打開微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
          使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。

          七大模型參加“高考”后分?jǐn)?shù)出爐:文科上了一本線,理科只能上二本

          第一財(cái)經(jīng) 2024-07-17 23:35:21 聽新聞

          作者:劉曉潔    責(zé)編:李娜

          OpenCompass團(tuán)隊(duì)對(duì)7個(gè)AI大模型進(jìn)行了高考9個(gè)科目的全科目測試,表現(xiàn)最優(yōu)的三個(gè)大模型文科成績過一本,理科成績超二本。

          此前6月,上海人工智能實(shí)驗(yàn)室旗下司南評(píng)測體系OpenCompass發(fā)布了首個(gè)AI高考全卷評(píng)測結(jié)果,顯示語數(shù)外三科加起來,AI考生最高能得303分,數(shù)學(xué)全不及格。

          7月17日,OpenCompass進(jìn)一步發(fā)布了擴(kuò)大學(xué)科范圍的測評(píng),團(tuán)隊(duì)對(duì)7個(gè)AI大模型進(jìn)行了高考9個(gè)科目的全科目測試,這樣一來也就能與高考錄取分?jǐn)?shù)線作比較。

          如果AI參加高考,能被什么大學(xué)錄???OpenCompass測試發(fā)現(xiàn),大模型如果參加文科考試,最好的成績能被“錄取”到一本,而參加理科考試,則最多只能被二本“錄取”(以今年高考人數(shù)最多的河南省的分?jǐn)?shù)線為參考)。

          此次測試的模型仍然來自阿里巴巴、零一萬物、智譜AI、上海人工智能實(shí)驗(yàn)室&商湯、法國Mistral的開源模型,以及來自O(shè)penAI的閉源模型GPT-4o。

          從總分來看,文科最高分是阿里通義千問大模型,以546分的成績獲得AI高考“文科狀元”。理科最高分則是上海人工智能實(shí)驗(yàn)室&商湯聯(lián)合研發(fā)的浦語文曲星,達(dá)到了468.5分。OpenAI的GPT-4o在文科上得分531,排名第三,理科得分為467,排名第二。

          就評(píng)測結(jié)果的公正透明方面,相關(guān)人士介紹,大模型高考評(píng)測的生成答案的代碼、模型答卷、評(píng)分結(jié)果完全公開,可供各界參考(公開評(píng)測細(xì)節(jié)可訪問https://github.com/open-compass/GAOKAO-Eval)。

          評(píng)測團(tuán)隊(duì)選取了河南省錄取批次線作為參考,對(duì)比了大模型得分與對(duì)應(yīng)分?jǐn)?shù)線。總的來說,參考2024年河南本科批次錄取線,表現(xiàn)最優(yōu)的三個(gè)大模型文科成績過一本,理科超二本。其他大模型文理科成績均未達(dá)到二本線標(biāo)準(zhǔn)。

          如果AI參加的是文科考試,那么通義千問、書生浦語文曲星、GPT-4o的文科成績均超越一本線,展現(xiàn)了大模型在語文、歷史、地理、思想政治等科目上深厚的知識(shí)儲(chǔ)備和理解能力。

          如果AI參加的是理科考試,整體表現(xiàn)則會(huì)弱于文科,體現(xiàn)了大模型在數(shù)理推理能力上普遍存在短板,但前三甲的理科成績也均超過二本分?jǐn)?shù)線,“錄取”上二本不成問題。

          團(tuán)隊(duì)表示,為更貼近真實(shí)高考情況,評(píng)測采用3(語數(shù)外)+3(理綜/文綜)的形式對(duì)大模型進(jìn)行了全科目測試。評(píng)測過程中,所有純文本題目由大語言模型作答,而綜合科目中的帶圖題目,則由對(duì)應(yīng)團(tuán)隊(duì)開源的多模態(tài)大模型回答。

          測評(píng)發(fā)現(xiàn),對(duì)于純文本題目,大模型平均得分率可達(dá)64.32%,而面對(duì)帶圖題目,得分率僅有37.64%。在圖片理解和運(yùn)用能力方面,所有大模型均存在較大提升空間。

          此外,部分大模型已達(dá)到一本分?jǐn)?shù),經(jīng)過再訓(xùn)練,是否可達(dá)到頂尖高校錄取線水平?完成閱卷后,老師們一致認(rèn)為,大模型與真人考生仍存在差距,雖然對(duì)于基礎(chǔ)知識(shí)的掌握表現(xiàn)出色,但在邏輯推理和知識(shí)靈活應(yīng)用方面,大模型仍然差強(qiáng)人意。

          具體而言,在作答主觀題時(shí),大模型往往無法完整理解題干,不明白代詞指向,結(jié)果導(dǎo)致答非所問;解答數(shù)學(xué)題時(shí),解題過程機(jī)械且邏輯性差,對(duì)于幾何題,常出現(xiàn)與空間邏輯相違背的推斷;對(duì)物理、化學(xué)實(shí)驗(yàn)理解膚淺,無法準(zhǔn)確識(shí)別并運(yùn)用實(shí)驗(yàn)器材。此外,大模型也會(huì)偽造虛構(gòu)內(nèi)容,編造看似合理但實(shí)際不存在的詩句,或在存在明顯計(jì)算錯(cuò)誤的情況下之后不反思,“硬著頭皮蒙”一個(gè)答案,均給閱卷老師帶來了困擾。

          在公開評(píng)測細(xì)節(jié)中,第一財(cái)經(jīng)記者發(fā)現(xiàn)收錄了一些閱卷老師的點(diǎn)評(píng)。

          理科數(shù)學(xué)老師點(diǎn)評(píng)稱,大模型做題總體感覺很機(jī)械,大部分題目都無法通過正常的推理過程得出。例如填空題第一題,大模型都只能進(jìn)行到少部分過程而達(dá)到一個(gè)結(jié)果,并不能夠像考生做題一樣進(jìn)行全面分析,列出完整的計(jì)算過程達(dá)到正確結(jié)果。大模型的基礎(chǔ)公式記憶能力較為優(yōu)秀,但無法做到靈活使用。此外有些題目結(jié)果正確,但過程邏輯差不符合正規(guī)計(jì)算,導(dǎo)致閱卷比較困難。

          地理老師認(rèn)為,大模型在答題過程中展現(xiàn)了對(duì)地理知識(shí)的全面覆蓋,從自然地理到人文地理,從地理現(xiàn)象到地理規(guī)律,都能有所涉及。尤其在基礎(chǔ)知識(shí)點(diǎn)的考查上較為出色,然而,在涉及一些深入分析或推理的問題中,存在一定的偏差和遺漏,所以模型在面對(duì)非常規(guī)、開放性較強(qiáng)的問題時(shí),其表現(xiàn)較差。

          物理老師發(fā)現(xiàn),大模型總體感覺比較機(jī)械,很多都無法識(shí)別到題目的意思,有些選擇題即使選項(xiàng)對(duì)了,但是分析也是錯(cuò)誤的。一些大題步驟冗雜,并且沒有邏輯,常常出現(xiàn)將本次的結(jié)論帶入到推理出本次結(jié)論的證據(jù)中,如此循環(huán),沒有道理。

          閱卷老師們認(rèn)為,相對(duì)于人類考生,目前大模型依然存在較大局限性。

          舉報(bào)
          第一財(cái)經(jīng)廣告合作,請(qǐng)點(diǎn)擊這里
          此內(nèi)容為第一財(cái)經(jīng)原創(chuàng),著作權(quán)歸第一財(cái)經(jīng)所有。未經(jīng)第一財(cái)經(jīng)書面授權(quán),不得以任何方式加以使用,包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。第一財(cái)經(jīng)保留追究侵權(quán)者法律責(zé)任的權(quán)利。
          如需獲得授權(quán)請(qǐng)聯(lián)系第一財(cái)經(jīng)版權(quán)部:banquan@yicai.com

          文章作者

          一財(cái)最熱
          點(diǎn)擊關(guān)閉