|
|
|
|
|
首个信贷多模态评测基准FCMBench-V1.0发布 |
|
|
近日,人工智能与数字经济广东省实验室(广州)(简称琶洲实验室)研究员许言午团队联合奇富科技和复旦大学制定的首个面向信贷场景的多模态评测基准FCMBench-V1.0(Financial Credit Multimodal Benchmarks)发布,共同构建了信贷AI从学术研究到产业落地的重要桥梁。
记者了解到,FCMBench-V1.0构建了高度贴合银行信审流程的评测框架,涵盖身份证、收入证明、银行流水、房产证等18类核心信贷证件,包含4043张合规图像和8446个测试样本,贯穿信贷审核全流程,并借助三维评测体系全面考核模型实战能力。
FCMBench不仅是当前金融信贷领域样本量最大、最符合真实应用场景的多模态大模型评测基准,更创新推出“感知-推理-鲁棒性”三维评测体系,全面评估信贷AI模型的实战能力。与传统侧重单一识别或理解能力的评测不同,FCMBench所评测出的模型能力,能够直接对应小微企业授信过程中对多证件识别、信息一致性校验与风险线索发现等核心环节,为模型是否具备实际可用性提供清晰、可量化的参考依据。
该基准旨在提供一个标准的评测平台,以促进学术界和产业界之间的协作发展,推动AI更好地赋能信贷场景。一方面,金融机构不再缺乏公平比较信贷领域AI模型能力的标准;另一方面,学术界和金融科技公司的研究人员能够对信贷领域的关键难题开展深入研究。这打破了行业内数据和领域知识壁垒,推动信贷人工智能从“单点优化”迈向“产学研协同创新”。
“该基准基于真实信贷业务场景,抽象科学问题,设计多模态评估任务与挑战,以期构建来源于业务、服务于业务的实用性评测体系,推动信贷AI的学术研究与应用落地。”作为项目主要参与人之一的许言午表示:“通过不断打磨FCMBench 来指引信贷AI模型的开发,不仅有助于推动多模态智能技术在数字金融和实体经济中的安全、合规与高质量应用,也为人工智能与数字经济领域的前沿研究和复合型人才培养提供了重要支撑。”
据介绍,在该基准的首轮评测中,涵盖来自14家顶尖AI企业与科研机构的23个主流多模态模型。评测结果显示,定制化场景训练在金融领域展现出显著优势,体现了业务导向模型研发的重要性。
目前,FCMBench数据集、评测工具及相关论文已全面公开。琶洲实验室科研团队将持续与产学研各界协同推进金融AI的技术标准化与生态共建,助力提升金融机构的智能化水平与服务实体经济的能力。
技术报告信息:https://doi.org/10.48550/arXiv.2601.00150
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。