作者:李惠钰 来源:中国科学报 发布时间:2025/3/21 19:19:42
选择字号:
解析稳定率达99.99%!“大模型加速器2.0”助力AI打破“幻觉”

 

随着大模型在社会应用中逐渐普及,人们在享受便利的同时,也面临着“AI 幻觉”产生的风险。训练数据是影响大模型“认知能力”的关键要素,近日,上海合合信息科技股份有限公司(以下简称合合信息)TextIn“大模型加速器 2.0”版本正式上线,其基于领先的智能文档处理技术,对复杂文档的版式、布局和元素进行精准解析及结构化处理,从数据源头降低大模型“幻觉”风险,让大模型在与人类的沟通中“更靠谱”。

“大模型加速器 2.0”文档解析引擎助力知识库理解手写笔记示意图。

  ?

据悉,升级后的“大模型加速器”在复杂版面理解、表格及图表处理、内容溯源等能力上实现新突破,可精准识别上千种文档中的跨页表格、合并单元格、密集表格、手写字符及公式,解析稳定率达99.99%,单页处理耗时较行业可比产品降低超30%;可“逆还原”十余种专业图表数据,并将其转化为大模型可理解的结构化数据。此外,“大模型加速器2.0”版本新增知识库系列开源组件,助力医疗、制造、教育等行业开发者构建个性化的知识库。

大模型需要不断“吸收”正确的专业知识,才能应对实际应用问题。合合信息技术团队成员表示,在处理年报、论文、实验室报告等专业文档的过程中,一个符号的解析失误,便可能“误导”大模型,得出与事实相悖的结论。可信性的缺失,也制约了大模型在实际应用场景中的纵深拓展。

赛尔教育科技发展有限公司(以下简称赛尔教育)CTO、教育数字化事业部总经理杨林提到,教育行业中所涉及的文档格式多样,在内容上也包含了表格、公式、手写字符、多语言文字等信息。如何高效准确地提取各类文档中的文本信息,并非易事。

“教育行业的大模型建设工作中,数据的数量和质量起着决定性作用。我们做了很多尝试,模型的速度和准确性都达不到要求,严重影响科研工作的进展。”杨林表示,行业知识库的构建基于大量文档的文本信息提取,需要高效率、高准确率的工具。合合信息文档解析技术提供了专业的技术支持和服务,有效解决了文档处理过程中的问题。

在“大模型加速器”的支持下,合合信息与赛尔教育共同协作,提升大模型对复杂版面、元素的“理解力”,使其按照人类正常的阅读顺序识别文档结构,智能划分标题、段落、表格和图表等内容块,帮助大模型理解版面、内容间的对应关系,减少AI“幻觉”现象。

图表解析模块将图表还原为表格数据。合合信息供图

  ?

除了复杂的版面布局,种类繁多、空间结构复杂的图表元素也是解析难点所在。“大模型加速器2.0”图表解析模块可智能提取多种图表中的关键数据点、坐标轴信息、图例说明等,在精准解析不同类型图表数据的基础上,将其还原为一组完整的Excel表格数据,作用于教育行业大模型微调,学科知识库建设、智能审阅等环节。

近期,多家券商机构纷纷宣布接入大模型,帮助分析师、行业研究员等专业人士提高工作效率。为帮助用户简化专业文档数据筛选和数据抽取流程,提升文档内容解读效率与准确率,“大模型加速器2.0”上线了知识库产品组件,支持复杂文档的智能问答、总结与检索。目前,知识库组件已面向开发者开源,帮助其根据自身需要快速构建个性化行业知识库。


 
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
子午工程二期通过国家验收 科学家将光转为可流动超固体
你可以“训练”大脑,不被视觉错觉迷惑 银河系三维尘埃分布和特性图发布
>>更多
 
一周新闻排行
 
编辑部推荐博文