多家大模型测评,AI“高考成绩单”出炉!谁最高分?

内容摘要文|赵鲁6月7日至10日,莘莘学子迎来人生历程中的一次大考。而作为一年一度的“保留节目”——大模型挑战高考题,也成为检验各家模型技术进步情况的一次考验。这背后的逻辑不难理解:作为国内最权威的考试之一,高考题目覆盖各类学科及题型,同时这些题目

文|赵鲁

6月7日至10日,莘莘学子迎来人生历程中的一次大考。而作为一年一度的“保留节目”——大模型挑战高考题,也成为检验各家模型技术进步情况的一次考验。

这背后的逻辑不难理解:作为国内最权威的考试之一,高考题目覆盖各类学科及题型,同时这些题目在开考前属于“绝密”,非常适合用作考查大模型智能水平的评测工具。

高考刚结束不久,一些专业机构和高考名师就把市面上的大模型产品“抓来当考生”,参加“大模型高考测试”。目前已有的测试结果表明,相比往年,“大模型考生”在应对高考题目面前,越来越游刃有余。

这固然显示了大模型能力的进阶。但在此背景下,人们不禁发问:尚处于求学阶段的青少年,需要什么样的AI辅助学习?

先来看看大模型产品在应试高考上的表现。

高考数学难?大模型几乎“手拿把掐”

今年的高考数学新I卷,让许多考生在走出考场后“心发慌”,难度可见一斑。但在一众“大模型考生”面前,这些题目似乎并不怎么“能打”。

6月7日下午高考数学考试结束后,曾在湖北省襄阳五中工作了二十一年、现任职于北京二中的“北京特级教师”陈星春就与“IT之家”评测团队使用7款大模型产品答卷,并对答案进行评分。

7名“大模型考生”分别为DeepSeek R1-0528、通义千问Qwen3-235B-A22B、讯飞星火X1-0420、豆包 Seed-Thingking-v1.5、文心X1 Turbo、腾讯混元Hunyuan T1 latest、GPT-o3。

评测团队出于“DeepSeek 网页版 OCR 转写不稳定”和“腾讯混元在高考时间段不能用拍图识别的功能”的原因,统一采用 OCR 转写后输入答题。

从评测结果来看,7名“大模型考生”中,前5名获得130分以上的高分。第一梯队的DeepSeek R1和讯飞星火,分别得分143分和141分;GPT-o3以 138 分紧随其后,达到了“尖子生”水准(点击查看→评测详情)。

“和去年相比,AI 的数学能力有了非常明显的提升。”陈星春介绍说,排名第一的DeepSeek R1模型,是5月28日升级的最新版本,其升级后的版本在思考推理、数学能力、响应速度等方面有了大幅提升;以2分之差紧随其后的讯飞星火,升级于4月20日,其在模型量级更小(70b)的情况下依然表现不俗。他认为,这与科大讯飞在教育领域多年的资源积累“很有关系”。

语文作文国产大模型“更懂民族精神内涵”

作为“高考第一热”,语文作文向来话题最多、讨论最广,尤其是全国I卷作文题目。今年的作文题目中,老舍笔下“开不了口”的鼓书艺人、艾青“嘶哑歌唱”的鸟、穆旦“带血的拥抱”——三则抗战时期的文本材料,旨在考查考生对个体在苦难中表达方式的思考与探讨。

全国中小学生作文竞赛评委、中学语文教研专家吕政嘉认为,由于此命题将民族精神的深沉内核藏于文学细节,其抽象思辨性让许多往届考生发出“无从下笔”的慨叹,而“抽象”——恰恰是检验AI认知深度的“试金石”。

6月7日,界面财联社旗下的独立科技评测媒介“电厂”对6家国产大模型产品(讯飞星火、DeepSeek、字节豆包、通义千问、腾讯混元、文心一言)以同题作文进行横评,并在关闭“联网功能”、开启“深度思考”的同等条件下,邀请吕政嘉和河南省基础教育教学专家库成员李来明对生成的作文进行打分。

语言理解能力和文本生成能力本就是大模型的“拿手好戏”,几款国产大模型在高考作文题上可谓是各有千秋。两名专家评分结果显示,讯飞星火、DeepSeek、字节豆包、通义千问得到了均分50分以上的高分。

吕政嘉对讯飞星火所作《以歌为刃破长夜,且将热血铸山河》与DeepSeek作品《悲歌当弃》做了如下点评:“开篇点睛,通过老舍、艾青、穆旦作品中的经典形象,凝练出中华民族坚韧、赤诚、觉醒的精神内核;文章还能以历史与现实案例,展现文化坚守与赤子之心的传承。”他认为,从语料训练的角度,国产大模型“更懂民族精神内涵”,在情理之中。

英语作文“细节见真章”

6月8日下午,2025年高考英语科目考试结束。在今年高考英语北京卷的作文题目中,“李华”又一次成为主角。

“英文语言能力与语文作文考查点稍有不同。”北京市十一学校一分校英语老师韩宪昌告诉记者,英语作文侧重考查考生是否能够做到从精准审题到地道表达、从逻辑连贯到文化适配的英语语言能力。他提出,这同样也考验着“大模型考生”。

韩宪昌与深圳中学英语教师赵文嘉参照往年高考评分标准,本着客观公正和盲评原则,对DeepSeek R1、GPT-o3、通义千问Qwen3、腾讯混元T1、讯飞星火X1、百度文心X1等6款大模型生成的英语作文打分并作点评。评分显示得分较高的是讯飞星火X1、DeepSeek R1、百度文心X1。

“和人类选手一样,细节见真章。”韩宪昌谈道,6款大模型都能在内容方面切中要点,完成基本写作任务。但是,内容细节多少、细节逻辑关系强弱、观点表达精准性与简洁性等方面,差别相对较大。

赵文嘉则表示,相比一些考生在英文作文中有时用词不准,表现优异的大模型无论是语法、句法还是选词都非常精准到位,且逻辑清晰,叙述充分深入。

对此,韩宪昌认为,AI大模型能在短时间内完成信息搜索和整合,这是考生所不能比拟的;并且,考生在有限时间内,一般会求稳而采用保守策略,难免会在创新性上有所牺牲。他还注意到,今年4至5月,国内主流大模型均进行了推理层面的更新,这也带来了其在英语写作等方面的能力进步。

AI赋能教育的“星火样本”:

从更聪明的大模型到更懂教育的助手

在高考题目中越来越亮眼的表现,无疑昭示了大模型的技术进步。越来越“聪明”的大模型,能给教育行业带来什么样的“智变”?

在前述参与测评的大模型厂家中,星火大模型所属的科大讯飞有着20多年的“教育基因”。从讯飞借助大模型技术打造的“星火样本”,或能一窥AI赋能教育的现实路径。

当前市面上已涌现出各类声称拥有大模型能力的“AI学习机”等智能终端产品,让消费者陷入选择困难。科大讯飞学习机AI技术总工程师巩捷甫认为,把大模型能力载入学习终端只是技术手段,而非教育目标。

“AI学习的目标是模拟多学科教师角色,通过文字、视频等多模态交互,引导学生从‘会回答’转向‘会提问’,点燃求知欲,培养自主学习能力。”巩捷甫说道。

大模型的训推能力也非常关键。科大讯飞教育认知技术总监沙晶谈到,讯飞星火能在应对高考数学中表现优异,一方面得益于其构建的百万级数学专项训练库;另一方面,得益于藏在数据训练背后的AI推理能力,例如基于精细训练,特级教师的解题思路会被转化为助学的“教学思维链”。

沙晶进一步谈到,科大讯飞深耕教育21年积累了5万所学校、1.3亿师生应用数据,能真切感受各地教材、考试难度、考查方式各具特色,“AI必须理解这些差异,并将其变为因材施教、精细化训练的关键优势”。

他表示,多模态、推理等能力的外化,就是学生通过AI学习机的多模态交互,“做几道题就能锁定薄弱点”。

“评判学习机优劣的标准,不在于内置多少课程资源,关键在于能否探索出从学情采集、智能评价、路径规划到精准教学、个性化学习的完整闭环。”沙晶说,教育智能装备的发展趋势正从资源堆砌向精准育人进化,“智能教育终端不是炫技,别忘了,教育的主体和对象永远都是‘人’”。

 
举报 收藏 打赏 评论 0
今日推荐
浙ICP备19001410号-1

免责声明

本网站(以下简称“本站”)提供的内容来源于互联网收集或转载,仅供用户参考,不代表本站立场。本站不对内容的准确性、真实性或合法性承担责任。我们致力于保护知识产权,尊重所有合法权益,但由于互联网内容的开放性,本站无法核实所有资料,请用户自行判断其可靠性。

如您认为本站内容侵犯您的合法权益,请通过电子邮件与我们联系:675867094@qq.com。请提供相关证明材料,以便核实处理。收到投诉后,我们将尽快审查并在必要时采取适当措施(包括但不限于删除侵权内容)。本站内容均为互联网整理汇编,观点仅供参考,本站不承担任何责任。请谨慎决策,如发现涉嫌侵权或违法内容,请及时联系我们,核实后本站将立即处理。感谢您的理解与配合。

合作联系方式

如有合作或其他相关事宜,欢迎通过以下方式与我们联系: