作者:赵广立 来源: 中国科学报 发布时间:2025-6-18
选择字号:
讯飞星火的高考“答卷”

 

■本报记者 赵广立

2025年高考刚结束不久,一些专业机构和高考名师就把市面上的大模型产品抓来当考生,参加“大模型高考测试”。

大家为何热衷于让大模型做高考题?原因无他:作为国内最权威的考试之一,高考题目覆盖各类学科及题型,同时这些题目在开考前属于“绝密”,非常适合用作考察大模型智能水平的评测工具。

作为全国产训练的大模型,讯飞星火X1自然成为被评测的常客。近日,在各科专家的关注和使用下,星火X1已集齐了语数外三科的高考测试。

相比往年,“大模型考生”在应对高考题目时越来越游刃有余。从星火X1(最新一次升级为2025年4月20日)在语数英三科部分高考题型中的测试表现来看,大模型在数学、逻辑推理、文本生成、语言理解、知识问答等通用能力上有了显著提升。

高考数学新I卷,星火X1拿到141分

今年的高考数学新I卷,让许多考生在走出考场后“心发慌”,难度可见一斑。但在“大模型考生”面前,这些题目似乎并不怎么“能打”。

6月7日下午高考数学考试结束后,曾在一线有十年高中数学教研经验的数学教师、某省级数学教学创新课题完成人汪鹏就使用星火X1进行了答卷测验,并对答案进行评分。

汪鹏采用光学字符识别(OCR)转写后输入答题。测试结果显示,星火X1在单项选择题有1题答错,多选题、填空题全对,解答题的推理步骤和计算结果均无误,仅被扣4分,取得总分141分的好成绩,达到“尖子生”水准。

“和去年相比,AI 的数学能力有了非常明显的提升。”汪鹏说。

星火X1何以能在数学题中有如此惊艳的表现?科大讯飞研究院执行院长王士进解释说,星火X1创新性采用了基于知识联结与工具验证的数据合成技术,这使得它在面对自然数学专业知识难题时,能够实现基于大模型与形式化工具的可验证数据合成。同时,星火X1还通过知识点联结合成海量知识类和解题类数据,进一步提升了其数理专业知识与逻辑推理能力。

此外,王士进说,星火X1还引入了“结合评语模型和细粒度反馈的强化学习”,这使它面对数学答题型任务时,可利用树搜索自动构建精细化训练标签;引入评语模型和细粒度反馈的强化学习技术,强化大模型数理逻辑能力,显著提升数学答题效果。

星火X1高分作文长啥样

今年全国语文I卷的作文题,给出了老舍笔下“开不了口”的鼓书艺人、艾青“嘶哑歌唱”的鸟、穆旦“带血的拥抱”三则抗战时期的文本材料,旨在考查考生对个体在苦难中表达方式的认识与思考。业内人士表示,由于此命题将民族精神的深沉内核藏于文学细节,其抽象思辨性让许多考生“无从下笔”。

而“抽象”,恰恰是检验人工智能(AI)认知深度的“试金石”。

语言理解能力和文本生成能力本是大模型的“拿手好戏”。在此作文题下,星火X1交出了一份题为《血脉里的歌吟:民族精神的三重奏》的答卷。

两位评卷老师——曾任海南省名校自主命题出题人、海南省名校校本教材编者曹越和某省级“新课标新技术背景下课堂教学探索”系列重点课题负责人之一杨小晴,分别给这篇作文打出了53分、54分的高分。

杨小晴点评此文称:“开篇通过老舍、艾青、穆旦作品中的经典形象,凝练出中华民族坚韧、赤诚、觉醒的精神内核。随后以历史与现实事例,展现文化坚守与赤子之心的传承。全文通过‘古今熔铸’的叙事手法,将文学意象、历史记忆与时代精神编织成一个整体,且都是‘民族魂’的具象表达。”

专家认为,星火X1作为国产大模型,中文语料丰富,因此它“更懂民族精神内涵”也在情理之中。

英语作文:AI回信有细节、有逻辑

今年的高考英语北京卷的作文题目,李华又一次成为主角。作文要求考生以“高三学生李华”的身份,给外国好友回信,并就倡议内容给出建议。

“英文语言能力与语文作文考查点稍有不同。”北京市十一学校一分校英语老师韩宪昌介绍说,英语作文侧重考查考生是否具有从精准审题到地道表达、从逻辑连贯到文化适配的英语语言能力。他提出,这同样考验着“大模型考生”。

对于星火X1交出的答卷,韩宪昌、深圳中学英语教师赵文嘉分别给出了20分、19分的高分。

韩宪昌认为,星火X1生成的这篇回信在内容细节、细节逻辑关系、观点表达精准性与简洁性等方面做到了兼顾,这也是他给出高分的原因。赵文嘉则提到,星火X1无论是语法、句法还是选词都非常精准到位,且逻辑清晰,叙述充分深入。

对于星火大模型在文本生成等任务上的亮眼表现,王士进表示,大模型技术已进入“强化学习+慢思考”时代,星火X1通过多阶段强化学习训练机制,具备深度推理能力。此外,星火X1在训练中引入了基于人类专家数据的主观任务反写技术,这使得它面对作文生成、文章创作等通用主观类任务时,能充分利用人类专家数据训练专业反写模型和强化学习模型,合成高质量训练数据。

AI赋能教育的“星火样本”

科大讯飞素有AI“高考情结”,从最初把高考题当作AI的图灵测试,到如今用以检阅大模型的文本生成、创作、逻辑推理等能力,讯飞的AI技术拾级而上,始终处于国内第一梯队。

这也缘于科大讯飞20多年自带的“教育基因”。作为深耕教育行业多年的头部AI企业,科大讯飞既有深厚的技术积累,又有海量行业数据在手并深谙业务场景。例如,科大讯飞教育认知技术总监沙晶谈到,星火能在应对高考数学中表现优异,一方面得益于其构建的百万级数学专项训练库;另一方面得益于藏在数据训练背后的AI推理能力。例如,基于精细训练,特级教师的解题思路会被转化为助学的“教学思维链”。

沙晶进一步谈到,科大讯飞20多年来积累了5万所学校、1.3亿名师生的应用数据,能真切感受各地教材、考试难度、考查方式的特色,“AI必须理解这些差异,并将其转化为因材施教、精细化训练的优势”。

面向当前被智能化浪潮洗礼的教育行业,科大讯飞积极寻找AI赋能教育的落脚点。例如,在如雨后春笋般的AI学习机市场,讯飞要求自家的AI学习机不仅要有星火大模型的印记,更要有智慧教育的影子。

一言以蔽之,科大讯飞要锻造的不仅是更聪明的大模型,更重要的是要打造更懂教育的智能助手。

DeepSeek开源之后,市面上已涌现出各类声称拥有大模型能力的“AI学习机”等智能终端产品,让消费者陷入选择困难。科大讯飞学习机AI技术总工程师巩捷甫认为,把大模型能力载入学习终端只是技术手段,而非教育目标。

“AI学习的目标是模拟多学科教师角色,通过文字、视频等多模态交互,引导学生从‘会回答’转向‘会提问’,点燃求知欲,培养自主学习能力。”巩捷甫说道。

他举例说,学生用讯飞AI学习机拍摄数学题时,不仅能识别复杂公式,还能自动关联同类题型视频讲解,这得益于星火大模型OCR识别、语音识别等多模态能力,使试卷诊断更精准。他说,多模态、推理等大模型能力的外化,就是学生通过AI学习机的多模态交互,“做几道题就能锁定薄弱点”。

“评判学习机优劣的标准,不在于内置多少课程资源,关键在于能否探索出从学情采集、智能评价、路径规划到精准教学、个性化学习的完整闭环。”沙晶说,教育智能装备的发展趋势正从资源堆砌向精准育人进化,“智能教育终端不是炫技,别忘了,教育的主体和对象永远都是‘人’”。

《中国科学报》 (2025-06-18 第3版 领域)
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
中国夸父项目低杂波电流驱动系统通过验收 《科学》(20250612出版)一周论文导读
韦布详探两颗地外行星 科学网2025年5月十佳博文榜单公布
>>更多
 
一周新闻排行
 
编辑部推荐博文