科学网—讯飞星火的高考“答卷”

作者：赵广立来源：中国科学报发布时间：2025-6-18

选择字号：小中大

讯飞星火的高考“答卷”

■本报记者赵广立

2025年高考刚结束不久，一些专业机构和高考名师就把市面上的大模型产品抓来当考生，参加“大模型高考测试”。

大家为何热衷于让大模型做高考题？原因无他：作为国内最权威的考试之一，高考题目覆盖各类学科及题型，同时这些题目在开考前属于“绝密”，非常适合用作考察大模型智能水平的评测工具。

作为全国产训练的大模型，讯飞星火X1自然成为被评测的常客。近日，在各科专家的关注和使用下，星火X1已集齐了语数外三科的高考测试。

相比往年，“大模型考生”在应对高考题目时越来越游刃有余。从星火X1（最新一次升级为2025年4月20日）在语数英三科部分高考题型中的测试表现来看，大模型在数学、逻辑推理、文本生成、语言理解、知识问答等通用能力上有了显著提升。

高考数学新I卷，星火X1拿到141分

今年的高考数学新I卷，让许多考生在走出考场后“心发慌”，难度可见一斑。但在“大模型考生”面前，这些题目似乎并不怎么“能打”。

6月7日下午高考数学考试结束后，曾在一线有十年高中数学教研经验的数学教师、某省级数学教学创新课题完成人汪鹏就使用星火X1进行了答卷测验，并对答案进行评分。

汪鹏采用光学字符识别（OCR）转写后输入答题。测试结果显示，星火X1在单项选择题有1题答错，多选题、填空题全对，解答题的推理步骤和计算结果均无误，仅被扣4分，取得总分141分的好成绩，达到“尖子生”水准。

“和去年相比，AI 的数学能力有了非常明显的提升。”汪鹏说。

星火X1何以能在数学题中有如此惊艳的表现？科大讯飞研究院执行院长王士进解释说，星火X1创新性采用了基于知识联结与工具验证的数据合成技术，这使得它在面对自然数学专业知识难题时，能够实现基于大模型与形式化工具的可验证数据合成。同时，星火X1还通过知识点联结合成海量知识类和解题类数据，进一步提升了其数理专业知识与逻辑推理能力。

此外，王士进说，星火X1还引入了“结合评语模型和细粒度反馈的强化学习”，这使它面对数学答题型任务时，可利用树搜索自动构建精细化训练标签；引入评语模型和细粒度反馈的强化学习技术，强化大模型数理逻辑能力，显著提升数学答题效果。

星火X1高分作文长啥样

今年全国语文I卷的作文题，给出了老舍笔下“开不了口”的鼓书艺人、艾青“嘶哑歌唱”的鸟、穆旦“带血的拥抱”三则抗战时期的文本材料，旨在考查考生对个体在苦难中表达方式的认识与思考。业内人士表示，由于此命题将民族精神的深沉内核藏于文学细节，其抽象思辨性让许多考生“无从下笔”。

而“抽象”，恰恰是检验人工智能（AI）认知深度的“试金石”。

语言理解能力和文本生成能力本是大模型的“拿手好戏”。在此作文题下，星火X1交出了一份题为《血脉里的歌吟：民族精神的三重奏》的答卷。

两位评卷老师——曾任海南省名校自主命题出题人、海南省名校校本教材编者曹越和某省级“新课标新技术背景下课堂教学探索”系列重点课题负责人之一杨小晴，分别给这篇作文打出了53分、54分的高分。

杨小晴点评此文称：“开篇通过老舍、艾青、穆旦作品中的经典形象，凝练出中华民族坚韧、赤诚、觉醒的精神内核。随后以历史与现实事例，展现文化坚守与赤子之心的传承。全文通过‘古今熔铸’的叙事手法，将文学意象、历史记忆与时代精神编织成一个整体，且都是‘民族魂’的具象表达。”

专家认为，星火X1作为国产大模型，中文语料丰富，因此它“更懂民族精神内涵”也在情理之中。

英语作文：AI回信有细节、有逻辑

今年的高考英语北京卷的作文题目，李华又一次成为主角。作文要求考生以“高三学生李华”的身份，给外国好友回信，并就倡议内容给出建议。

“英文语言能力与语文作文考查点稍有不同。”北京市十一学校一分校英语老师韩宪昌介绍说，英语作文侧重考查考生是否具有从精准审题到地道表达、从逻辑连贯到文化适配的英语语言能力。他提出，这同样考验着“大模型考生”。

对于星火X1交出的答卷，韩宪昌、深圳中学英语教师赵文嘉分别给出了20分、19分的高分。

韩宪昌认为，星火X1生成的这篇回信在内容细节、细节逻辑关系、观点表达精准性与简洁性等方面做到了兼顾，这也是他给出高分的原因。赵文嘉则提到，星火X1无论是语法、句法还是选词都非常精准到位，且逻辑清晰，叙述充分深入。

对于星火大模型在文本生成等任务上的亮眼表现，王士进表示，大模型技术已进入“强化学习+慢思考”时代，星火X1通过多阶段强化学习训练机制，具备深度推理能力。此外，星火X1在训练中引入了基于人类专家数据的主观任务反写技术，这使得它面对作文生成、文章创作等通用主观类任务时，能充分利用人类专家数据训练专业反写模型和强化学习模型，合成高质量训练数据。

AI赋能教育的“星火样本”

科大讯飞素有AI“高考情结”，从最初把高考题当作AI的图灵测试，到如今用以检阅大模型的文本生成、创作、逻辑推理等能力，讯飞的AI技术拾级而上，始终处于国内第一梯队。

这也缘于科大讯飞20多年自带的“教育基因”。作为深耕教育行业多年的头部AI企业，科大讯飞既有深厚的技术积累，又有海量行业数据在手并深谙业务场景。例如，科大讯飞教育认知技术总监沙晶谈到，星火能在应对高考数学中表现优异，一方面得益于其构建的百万级数学专项训练库；另一方面得益于藏在数据训练背后的AI推理能力。例如，基于精细训练，特级教师的解题思路会被转化为助学的“教学思维链”。

沙晶进一步谈到，科大讯飞20多年来积累了5万所学校、1.3亿名师生的应用数据，能真切感受各地教材、考试难度、考查方式的特色，“AI必须理解这些差异，并将其转化为因材施教、精细化训练的优势”。

面向当前被智能化浪潮洗礼的教育行业，科大讯飞积极寻找AI赋能教育的落脚点。例如，在如雨后春笋般的AI学习机市场，讯飞要求自家的AI学习机不仅要有星火大模型的印记，更要有智慧教育的影子。

一言以蔽之，科大讯飞要锻造的不仅是更聪明的大模型，更重要的是要打造更懂教育的智能助手。

DeepSeek开源之后，市面上已涌现出各类声称拥有大模型能力的“AI学习机”等智能终端产品，让消费者陷入选择困难。科大讯飞学习机AI技术总工程师巩捷甫认为，把大模型能力载入学习终端只是技术手段，而非教育目标。

“AI学习的目标是模拟多学科教师角色，通过文字、视频等多模态交互，引导学生从‘会回答’转向‘会提问’，点燃求知欲，培养自主学习能力。”巩捷甫说道。

他举例说，学生用讯飞AI学习机拍摄数学题时，不仅能识别复杂公式，还能自动关联同类题型视频讲解，这得益于星火大模型OCR识别、语音识别等多模态能力，使试卷诊断更精准。他说，多模态、推理等大模型能力的外化，就是学生通过AI学习机的多模态交互，“做几道题就能锁定薄弱点”。

“评判学习机优劣的标准，不在于内置多少课程资源，关键在于能否探索出从学情采集、智能评价、路径规划到精准教学、个性化学习的完整闭环。”沙晶说，教育智能装备的发展趋势正从资源堆砌向精准育人进化，“智能教育终端不是炫技，别忘了，教育的主体和对象永远都是‘人’”。

《中国科学报》 (2025-06-18 第3版领域)

编辑部推荐博文
国自然基金，这项优化让你的申请书更“吸睛”！科学网2026年1月十佳博文榜单公布！空与不空温柔以待的日子 “香农信息与语义无关”与“人机信息与语义有关”的核心逻辑科研文化的繁缛化与假晶化困境及改革路径更多>>