随着人工智能(AI)深入各行各业,多模态大模型正在成为AI发展的重要方向之一。近日,第八届中国模式识别与计算机视觉学术会议(PRCV 2025)在上海召开,“多模态文本智能大模型前沿技术与应用”论坛同期举办。来自华南理工大学、哈尔滨工业大学、南开大学、华中科技大学、小红书及合合信息技术团队的专家与学者,深入探讨多模态文本智能领域的最新技术突破与场景应用案例。
如同人类需要同时调用视觉、听觉、触觉等多感官来全面理解外部世界,大模型也需要综合处理文字、图片、表格等文本信息后作出判断。“实战”应用标准对大模型的多模态内容深度整合能力提出了新的要求,语义割裂、场景理解局限、决策失误等常见的模型缺陷制约了其在行业中的应用发展。
论坛期间,合合信息推出“多模态文本智能技术”方案,该方案可通过文本相关空间位置理解深层语义逻辑,实现对多模态信息的“立体化综合化理解”,赋予模型真正的文本“阅读理解”能力。
多模态指利用多种不同形式或感知渠道的信息进行表达、交流和理解的方式,数据模态包括文本、图像、音频、视频等。2025年Gartner人工智能技术成熟度曲线显示,多模态AI将在未来五年成为各行业提升所有应用和软件产品功能的核心技术。
为助力大模型实现跨越模态的推理能力,哈尔滨工业大学计算学部长聘教授车万翔重点分享了“多模态思维链”技术,该技术将推理逻辑分解为一系列可解释的跨模态推理步骤,最终生成更为精准和可靠的结论。除了帮助大模型理清逻辑,解决“胡编乱造”问题也是提升AI能力的重要方向。
真实的应用场景是技术不断迭代更新的动力。论坛现场,合合信息图像算法研发总监郭丰俊重点分享了文本智能技术的创新应用,帮助用户解决复杂场景下的文档图像问题。小红书hi lab团队算法工程师燕青结合行业实践,分享了一款基于单视觉语言模型的多语言文档布局解析工具“dots.ocr”。
除了商业应用,在文保领域,多模态大模型也发挥出巨大价值。华中科技大学教授刘禹良介绍了首个覆盖甲骨文专家破译全流程的辅助考释框架AlphaOracle,通过人类工作流启发的音形义理破译流程,实现字形分析、拓片用法总结和传世文献做证的思路,成功在“劳”等字的辅助破译上取得突破。
从文字、图像到视频,无论模态如何演变,其所承载的文本信息始终是AI理解世界的基座。实现具备自主感知、认知与决策能力的通用人工智能,首要前提是让机器充分理解作为知识载体的“文本”。基于此,“多模态文本智能技术”方案将技术处理对象从传统的文档(如PDF、Word等格式文件)延伸至多种承载文本信息的媒介,无论是论文、财报还是视频、自然场景,都能成为系统的理解对象。
在传统的文档处理技术中,“如何准确地提取信息”是重点关注方向。然而在真实业务场景中,信息往往以多模态组合形态存在,如财报的数据需对照表格验证,国家标准文件中的插图依赖图例说明。为解决多模态信息的协同解读需求,方案建立了从复杂场景文本感知到深层语义理解的技术闭环,让AI不仅能够“看清”文本,更能够理解其布局关联,解决不同模态间的信息割裂问题。
目前,“多模态文本智能技术”方案已将文本智能认知程度从语义理解拓展到类人推理及自主机器决策,形成了从感知到认知再到决策的技术实现路径。相较于传统的文档解析、识别系统,该方案让系统具备了更接近人类判断逻辑的自主决策能力,在完成对多模态信息的感知和理解后,能够根据用户意图,做出正确决策。
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。