国产AI高考斩获708分,这款模型何以成为「顶尖考生」?

2026-06-29 22:56:48未知 作者:徽声在线




编辑|杨文

随着各地高考成绩的陆续公布,一场别开生面的“大模型高考”成绩单也新鲜出炉,引发了广泛关注。

高考结束后,徽声在线联合多家权威媒体,对国内外主流大模型进行了一场全面而深入的横向测试。测试内容不仅涵盖了全科综合,还涉及了单科专项,从多个维度对大模型进行了交叉比拼。

综合成绩揭晓。羊城晚报教育发展研究院精心组织了8位AI考生进行全科作答,并邀请了2名资深教师进行独立盲评。总分按照历史类和物理类分科方式进行了详细统计。

结果显示,在物理类总分上,Claude Opus 4.8与讯飞星火X2以708分的优异成绩并列榜首;而在历史类总分上,突破700分大关的仅有讯飞星火X2,两类成绩均达到了广东屏蔽生的高水平。



从总分维度来看,头部模型之间的得分差距并不显著,最终排名更多地取决于全科表现的稳定性。ChatGPT 5.5 Pro和Claude Opus 4.8在长文本输出和议论文论述方面均表现出色,无明显短板,但在历史类总分上却未能跻身前两位,这说明均衡表现本身也存在层级差异。

讯飞星火X2在两类总分中均取得了领先地位,评测报告指出,其优势源于语言理解、数理推理和综合分析等不同任务之间的相对均衡,没有单一科目形成明显拉动。

再来看单科专项表现

新京报选取了2026年新高考I卷数学题,对6款推理型大模型进行了专项测试。结果讯飞星火以148分的优异成绩位居榜首,Kimi、DeepSeek、智谱、MiniMax和ChatGPT依次排列。



澎湃新闻则组织了9款大模型撰写上海卷高考作文,并邀请两位教师进行独立盲评取平均分。最终,星火以65.5分的成绩脱颖而出,Gemini和豆包紧随其后。



在英文作文方面,《观察者网》对12款大模型进行了测试,讯飞星火和ChatGPT 5.5 Pro并列进入第一梯队。



讯飞星火为何成为最会考试的大模型?

高考作为中国最标准化的知识与思维测试,其评分逻辑有一个通用大模型容易忽略的维度,即过程规范性。以数学为例,数学阅卷不仅关注最终答案,还重视步骤是否完整、推导是否符合教材规范,这些因素都直接影响得分。

根据此次评测,部分模型在长链条推理中出现步骤跳跃或引入超纲解法,虽然能得出正确答案,但面临过程分被扣除的风险。而讯飞星火X2在这类题目中解题步骤更为规范,过程分、结果分和推理清晰度三个维度保持了较好的一致性。尤其是在几何性质解析上,思路清晰、解法简洁,部分题目还主动给出两种解题路径,数形结合能力明显优于其他模型。

在物理、化学、生物三科中,得分差异主要取决于模型能否将读题、推理和规范作答完整串联。讯飞星火X2在三科中各环节衔接顺畅,失分点相对较少。

在语文作文方面,ChatGPT 5.5 Pro与Claude Opus 4.8长于框架搭建和逻辑推进,文章结构成熟完整,这或许与它们在大规模英语语料上的训练积累直接相关。而讯飞星火X2各模块得分相对均衡,评师对其作文的评价集中在时代立意、逻辑完整性和论据新颖性上。

大模型的能力边界在很大程度上由训练数据的质量和结构决定。通用大模型的训练语料以互联网公开文本为主,虽然覆盖面广,但教育场景的核心数据,如学生的分步骤作答过程、错误类型分布、教师的批注与评分依据等在公开网络上极为稀缺。这类数据存在于真实的课堂和考场中,获取它需要进入学校场景,建立长期的数据采集渠道。

科大讯飞自2004年起便开始布局教育产品,其AI技术目前深度应用于全国6万余所小学和中学。在真实课堂教学场景中,讯飞完成了亿万次与师生的交互,积累了大量高标注密度且专业合规的学情数据。这个数据基础是近年才进入教育赛道的公司短期内难以复制的。

2012年,搭载科大讯飞评测技术的产品首次服务广东中高考英语听说考试。自此,讯飞开始积累机器评测结果与人工评分之间的对齐数据。这个过程持续了14年,形成的不只是庞大的数据量,还有对各学科评分标准随高考改革演变的持续跟踪。

在模型训练层面,讯飞将有经验教师的评判逻辑结构化后注入模型,形成了“教学思维链”驱动的教育深度推理大模型。具体来说,就是把教师判断答案好坏的思考路径,包括如何识别错误步骤、如何判断作文立意层级等,转化为可训练的数据格式,让模型学习评判标准本身。

这也解释了为什么一些通用大模型在知识覆盖上并不弱,却在分步推导和主观题评分上仍有明显差距。这缺的不是知识,而是对评判标准本身的理解。在垂直场景的模型竞争中,高质量领域数据的稀缺性往往比模型参数规模更具决定性。

考场之外,才是真正的挑战

大模型在标准化测试中表现优异,并不意味着它能在日常教学场景中稳定运行。高考是一次性的结构化任务,评分标准明确,最终结果可以直接用分数呈现。而课堂教学却是持续、高度情境化的过程,涉及教师操作习惯、学生个体差异和学校基础设施等大量非技术变量。

这也是为什么“高考满分”对教育AI来说是一个值得讲的故事,却不是一个可以单独成立的商业壁垒。真正的壁垒在于落地。教育场景的复杂性决定了,任何试图进入这个领域的技术产品都必须同时解决技术能不能用、教师愿不愿意用、学校能不能持续运转起来这三个维度的问题。三者缺一,都会让模型能力在真实场景中大打折扣。

为了应对这种复杂性,讯飞选择的落地路径是软硬件一体化。通过自研硬件终端控制数据入口和使用环境,将大模型能力嵌入教学的三个核心场景:课堂端、课后端和家庭端。



图源:科大讯飞智慧教育公众号

在课堂端,“同窗AI黑板”让AI参与课堂互动过程,可将数学公式动态可视化、用3D工具呈现立体几何,也可以扮演历史人物与学生展开对话,把原本单向的内容播放变成双向的推理引导。在课后端,“星火智能批阅机”将作业反馈从判断对错推进到定位错误步骤,识别错因出现在哪一环、属于哪类认知偏差,据此生成个性化训练方案。在家庭端,AI学习机则将个性化辅导延伸至课外,错因分析能读懂孩子解题逻辑,还能跨年级溯源、消除知识深层薄弱点,对症剖析通过互动问答对孩子进行思路点拨,帮助其精准定位卡壳点,引导学生逐步推导解题过程。

这一路径选择也有其现实逻辑。纯软件方案高度依赖学校已有终端,兼容性参差不齐,落地变量难以控制。而自研硬件能够保证使用环境的一致性,数据采集也更为可控。每一个终端都是一个采集节点,学生的作答过程、错误类型、教师的评判行为都在真实使用中持续沉淀。数据反哺模型训练,模型优化产品,产品扩大部署,部署带来更多数据,由此形成闭环。

从行业角度看,教育AI的竞争正在进入第二阶段。第一阶段比的是模型能不能答对题,头部模型在标准化考试中的表现已经说明,答题能力本身不再是主要门槛。第二阶段比的是产品能不能真正嵌入教学流程、形成稳定的使用习惯,并在此过程中积累起有价值的场景数据。后者的门槛远高于前者,不仅需要技术能力,还需要对教育场景长期、深度的理解与投入。

讯飞在教育领域深耕22年,数据积累是其优势的重要来源,但并非全部。星火X2是基于全国产算力自主训练的大模型,其在此次评测中的表现同样有赖于算法架构的持续优化和推理能力的迭代提升。在多个学科维度保持均衡,背后是模型在理解、推理、表达等核心能力上的协同进步。

AI真正该做的,是让优质教育触手可及

大模型在高考中斩获高分,难免引发一种焦虑:AI会不会取代教师?这个问题本身或许暗含对教育本质的误读。

高考测量的是知识掌握与基础推理,是可以被量化、被评分的部分。而真正的教育要培养的是思辨、共情、创造与价值判断等构成完整人格的能力。这些能力从来不是一张试卷能够装下的,也不是任何模型可以替代的。

从这个意义上说,AI的高分成绩单引发的真正追问不是机器能否超越人类,而是这项技术能否触及教育资源长期失衡的现实。

长期以来,优质教育资源高度集中,个性化辅导是少数学生才能获得的条件。AI的介入有可能让每个孩子都拥有一个能够识别其学习盲区、因材施教的学习伙伴,让高水平的教育支持不再只属于特定学校和特定家庭。

这或许才是AI考出高分真正值得期待的意义。

点击展开全文
你关注的
79年对越作战我军阵亡近8千人,骨灰盒分2类,白色的不发放抚恤金79年对越作战我军阵亡近8千人,骨灰盒分2类,白色的不发放抚恤金 抗日剧也玩“换乘恋爱”?《八千里路》差评如潮,剧情让人瞠目结舌抗日剧也玩“换乘恋爱”?《八千里路》差评如潮,剧情让人瞠目结舌 徐正源正式执教辽宁铁人 5月7日将迎首秀对阵旧部徐正源正式执教辽宁铁人 5月7日将迎首秀对阵旧部
相关文章
国产AI高考斩获708分,这款模型何以成为「顶尖考生」?国产AI高考斩获708分,这款模型何以成为「顶尖考生」? 《生活大爆炸》衍生剧定档,谢尔顿莱纳德或无缘回归《生活大爆炸》衍生剧定档,谢尔顿莱纳德或无缘回归 《侠探杰克》衍生剧效仿《博斯》:男主客串能否助力逆袭?《侠探杰克》衍生剧效仿《博斯》:男主客串能否助力逆袭? 一周神台词盘点:《熊家餐馆》自嘲非喜剧、《龙之家族》毒舌梗超带感一周神台词盘点:《熊家餐馆》自嘲非喜剧、《龙之家族》毒舌梗超带感 克里斯·埃文斯未公开试播集揭秘:23年前与超级英雄擦肩而过克里斯·埃文斯未公开试播集揭秘:23年前与超级英雄擦肩而过 德语悬疑剧《Superior》揭秘:酒店学院里的致命谎言与青春博弈德语悬疑剧《Superior》揭秘:酒店学院里的致命谎言与青春博弈