文档解析技术破解大模型语料“饥荒”难题—新闻

作者：李惠钰来源：中国科学报发布时间：2024/5/29 20:20:28

选择字号：小中大

文档解析技术破解大模型语料“饥荒”难题

近日，由中国图象图形学学会主办的2024中国图象图形大会在西安开幕。大会通过20多场论坛、百余项成果，集中展示了生成式人工智能、大模型、机器学习、类脑计算等多个图像图形领域的进展。

大模型一路“高歌猛进”的背后，隐藏着一场关于模型训练语料的“能源危机”。根据人工智能研究人员小组Epoch研究估计，机器学习数据集可能会在2026年前耗尽所有“高质量语言数据”。现阶段，大量的高质量语料数据存在于书籍、论文、研报、企业文档等文档之中，复杂的版面结构制约了大模型的训练语料处理及大模型文档问答的应用能力。文档解析技术的进步，让机器能够识别文档中的多种元素，更好地处理文本、表格、图像等多类型数据，还原文档阅读顺序，加速大模型训练与应用。

大会期间，由CSIG文档图像分析与识别专委会与上海合合信息科技股份有限公司（简称“合合信息”）联合主办了“大模型技术及其前沿应用”论坛。论坛上，合合信息智能创新事业部研发总监常扬表示，文档解析的难点在于如何准确识别文档中的各个元素，并理解其之间的逻辑关系，需要关注“物理版面分析”和“逻辑版面分析”。

据常扬介绍，物理版面分析侧重于视觉特征、文档布局，主要任务是把相关性高的文字聚合到一个区域，比如一个段落，一个表格等等，并选用目标检测任务进行建模，使用基于回归的单阶段检测模型进行拟合，从而获得文档中各种各样的布局方式；逻辑版面分析侧重于对语义特征的分析，主要任务是把不同的文字块根据语义建模，例如通过语义的层次关系，形成一个目录树结构。

此外，文档解析技术中文档元素检测、文字表格识别、文档版面分析、阅读顺序还原等任务涉及对版面元素和版面整体布局的判断，是文档处理领域典型的技术难题。

“我们研究过程中发现，真实世界的文档有着极为丰富的布局类型，没法单纯地用单栏，双栏、三栏等类别去定义。”常扬表示，近年来的开放词汇目标检测，视觉语义对齐等工作，以及生成式模型等前沿进展，将给版面分析带来新的研究思路。

编辑部推荐博文
学术期刊“提质”，这项提升必选！科学网2026年5月十佳博文榜单公布！聚多巴胺纳米平台抗氧化及氧化应激疾病研究进展多头注意力机制本质是种多维网状逻辑关系的反映祝贺Biomedical Technology位列Q1学科排名第4 未入华夏，却著华夏草木更多>>