大模型參加高考,大模能上什么學(xué)校?型都
高考結(jié)束不到5天,各家大模型紛紛在語文作文、清北數(shù)學(xué)題上PK,高考有的總分文采飛揚(yáng),作文能接近滿分;有的評測數(shù)學(xué)能力領(lǐng)先,直接滿分交卷。結(jié)果如果讓大模型直接做完整套試卷,出爐總分又能拿多少?大模
以遼寧2025年高考真題為例(題目源自網(wǎng)絡(luò)),記者邀請了7位國產(chǎn)大模型“選手”參賽。型都他們分別是清北:DeepSeek、豆包、高考騰訊元寶(混元T1)、總分訊飛星火、評測Kimi、結(jié)果千問和文心。
遼寧卷的語數(shù)英采用全國二卷,副科自主命題,據(jù)了解,黑、吉、遼、蒙共用九科試卷。整個評測方式采用3(語數(shù)外)+3(理綜/文綜)的形式對大模型進(jìn)行了全科目測試。評測過程中,優(yōu)先將試卷題目截圖上傳作答,少量圖片解析失敗的用OCR文本代替。最后,邀請了多位在職高中老師,評判各個科目的主觀題分?jǐn)?shù)。
從總成績來看,元寶在文科考試中拿下第一,獲得667.5分的高分,以2024年遼寧省高考錄取分?jǐn)?shù)線為參考,已經(jīng)可以沖刺“清北”。緊隨其后的豆包、訊飛星火拿下來655分和652分的高分,也可以輕松就讀985頂尖院校。
而在理科考試中,和往年一樣,理科成績會整體會弱于文科。拿到第一的豆包獲得了635分,緊隨其后元寶和kimi拿到了632.5分和629分,都可以沖刺985。但對比文科,無緣頂尖大學(xué)。
具體來看,語數(shù)英三門主科中,豆包拿下了語文第一,緊隨其后元寶、kimi拿下了并列第二。各家在語文主觀題上都表現(xiàn)比較平均,而豆包、元寶、kimi在作文上都拿到了50+的高分,使整體成績更佳。數(shù)學(xué)測試則是由元寶拿下了第一,獲得了149分的高分。只在最后一道解答題中,因答題過程稍不完整,遺憾丟失1分。在英語測試中,各家大模型在主觀題都表現(xiàn)的比較平均,都能拿到滿分,差異主要出現(xiàn)在英語作文。
大模型在文綜方面也都表現(xiàn)不錯。對于文綜的客觀題,表現(xiàn)好一些的大模型,如元寶、豆包能拿到接近滿分,這也體現(xiàn)了大模型在知識理解和覆蓋上較為出色。但在主觀題中,文綜對于解答題的“得分點(diǎn)”有比較高的要求,而大模型似乎對此不那么熟悉。比如地理解答題對知識點(diǎn)和推導(dǎo)過程要求嚴(yán)格,大模型可以給出最終答案,但會缺少1-2個知識點(diǎn)的推導(dǎo)。而在政治題上,則更加要求知識點(diǎn)的完整性,在閱讀題的部分,大模型經(jīng)常會遺漏部分知識點(diǎn)導(dǎo)致失分。閱卷老師也特別提到,元寶正是對這些“得分點(diǎn)”把握的比較精準(zhǔn),拿到了更好的成績。
而在理綜方面,大模型在數(shù)學(xué)邏輯推理上還存在一定短板,另外理科試題存在比較多圖像、符號,大模型對這部分內(nèi)容理解不足,也會導(dǎo)致整體偏弱。閱卷老師提到,比如物理答卷中,針對解答題,大模型大多能匹配到正確的公式,但在計算過程中也會出現(xiàn)不同程度的問題,導(dǎo)致答案偏離。而在化學(xué)考試的填空題中,往往一道大題會包含5-6個小題,各家大模型都沒法在這類題型中拿到滿分。生物題也同樣出現(xiàn)這樣的狀況。
但總體來看,對比去年大模型比較嚴(yán)重的“偏科”情況,成績只能達(dá)到“文科能上一本,理科只能上二本”的水平。今年大模型整體的能力有很大的提升,不僅在文科上能沖刺清北,理科上985也不是問題。這也源于過去一年人工智能領(lǐng)域、以及國產(chǎn)大模型的飛速發(fā)展。
相信在未來,發(fā)展速度會越來越快,也期待看到模型不僅不再“偏科”、在分?jǐn)?shù)上有跨躍性的進(jìn)步,還能實際運(yùn)用到各個學(xué)科發(fā)展上,攻克更多挑戰(zhàn)。
圖片來源:互聯(lián)網(wǎng)為貫徹落實黨的十九大精神和中央經(jīng)濟(jì)工作會議提...
2025-07-1859859近日,中建三局一公司承建的成都東部新區(qū)智慧科技產(chǎn)業(yè)園及基礎(chǔ)設(shè)...
2025-07-18178中建集團(tuán)致力以科技創(chuàng)新賦能傳統(tǒng)建造轉(zhuǎn)型升級,大力培育發(fā)展新質(zhì)...
2025-07-1882