解析稳定率达99.99%！“大模型加速器2.0”助力AI打破“幻觉”—新闻

作者：李惠钰来源：中国科学报发布时间：2025/3/21 19:19:42

选择字号：小中大

解析稳定率达99.99%！“大模型加速器2.0”助力AI打破“幻觉”

随着大模型在社会应用中逐渐普及，人们在享受便利的同时，也面临着“AI 幻觉”产生的风险。训练数据是影响大模型“认知能力”的关键要素，近日，上海合合信息科技股份有限公司（以下简称合合信息）TextIn“大模型加速器 2.0”版本正式上线，其基于领先的智能文档处理技术，对复杂文档的版式、布局和元素进行精准解析及结构化处理，从数据源头降低大模型“幻觉”风险，让大模型在与人类的沟通中“更靠谱”。

“大模型加速器 2.0”文档解析引擎助力知识库理解手写笔记示意图。

据悉，升级后的“大模型加速器”在复杂版面理解、表格及图表处理、内容溯源等能力上实现新突破，可精准识别上千种文档中的跨页表格、合并单元格、密集表格、手写字符及公式，解析稳定率达99.99%，单页处理耗时较行业可比产品降低超30%；可“逆还原”十余种专业图表数据，并将其转化为大模型可理解的结构化数据。此外，“大模型加速器2.0”版本新增知识库系列开源组件，助力医疗、制造、教育等行业开发者构建个性化的知识库。

大模型需要不断“吸收”正确的专业知识，才能应对实际应用问题。合合信息技术团队成员表示，在处理年报、论文、实验室报告等专业文档的过程中，一个符号的解析失误，便可能“误导”大模型，得出与事实相悖的结论。可信性的缺失，也制约了大模型在实际应用场景中的纵深拓展。

赛尔教育科技发展有限公司（以下简称赛尔教育）CTO、教育数字化事业部总经理杨林提到，教育行业中所涉及的文档格式多样，在内容上也包含了表格、公式、手写字符、多语言文字等信息。如何高效准确地提取各类文档中的文本信息，并非易事。

“教育行业的大模型建设工作中，数据的数量和质量起着决定性作用。我们做了很多尝试，模型的速度和准确性都达不到要求，严重影响科研工作的进展。”杨林表示，行业知识库的构建基于大量文档的文本信息提取，需要高效率、高准确率的工具。合合信息文档解析技术提供了专业的技术支持和服务，有效解决了文档处理过程中的问题。

在“大模型加速器”的支持下，合合信息与赛尔教育共同协作，提升大模型对复杂版面、元素的“理解力”，使其按照人类正常的阅读顺序识别文档结构，智能划分标题、段落、表格和图表等内容块，帮助大模型理解版面、内容间的对应关系，减少AI“幻觉”现象。

图表解析模块将图表还原为表格数据。合合信息供图

除了复杂的版面布局，种类繁多、空间结构复杂的图表元素也是解析难点所在。“大模型加速器2.0”图表解析模块可智能提取多种图表中的关键数据点、坐标轴信息、图例说明等，在精准解析不同类型图表数据的基础上，将其还原为一组完整的Excel表格数据，作用于教育行业大模型微调，学科知识库建设、智能审阅等环节。

近期，多家券商机构纷纷宣布接入大模型，帮助分析师、行业研究员等专业人士提高工作效率。为帮助用户简化专业文档数据筛选和数据抽取流程，提升文档内容解读效率与准确率，“大模型加速器2.0”上线了知识库产品组件，支持复杂文档的智能问答、总结与检索。目前，知识库组件已面向开发者开源，帮助其根据自身需要快速构建个性化行业知识库。

编辑部推荐博文
论文投稿新问题！审稿人说插图AI感太重…… 实验复现困难，实验室数字化如何扭转这一危机？基于锌负极的氧化还原增强型混合电容器的电解质工程研究为何常成为论文评审中的薄弱环节？多场耦合烧结技术引领高性能材料制备新纪元紫荆、紫藤和紫薇！更多>>