要和历史对话,并不是一件容易的事情,要梳理一个文明的脉络,更是难上加难。
考古学家们在不同的遗址挖掘出历史的碎片,结合逻辑推理和诸多史料验证,慢慢拼凑出当时的生活和文化场景;古文字学家们对每一片甲骨都十分珍视,不惜耗费数年时间,推测出某一个图案所代表的文字,进而去阅读古人的思想;历史学家们与古籍、方志舆图为伴,在晦涩的文言文中还原历史事件的真相……
在世界文明历史中,中华文明是非常独特的存在——四大文明中,唯有中华文明始终保持完整传承,以开放包容、多元融合的特点延续至今。在一代代学者们接力努力下,中华文明上下五千年的历史被清晰还原,学龄前的孩子也能轻松说出历史上的代表性事件。
但即便如此,依然有着很多谜题等待破解。和氏璧去了哪?楼兰古国为何突然消失?建文帝是否真的命丧大火?……而更多疑点,则存在于中华文明的源头。由于时间久远、考古和文献资料的不足,如夏朝存在与否等问题,至今仍有争议。
“我们希望能够通过大模型打破学科壁垒,让不同领域的学者围绕一条逻辑主线,把中国历史文明的遗珠穿成串,形成完整的中华文明故事。”复旦大学校长助理、上海科学智能研究院(以下简称上智院)理事长、上海创智学院副院长吴力波告诉《中国科学报》。
基于此,全球首个聚焦早期中华文明议题的人工智能模型“早期中华文明多模态大模型”应运而生。该大模型由复旦大学、上智院与上海创智学院联合研发,在2025世界人工智能大会期间正式发布。
早期中华文明多模态大模型发布仪式。图片由复旦大学提供
?
一款“很懂”人文社科的AI工具
如果说几年前人们还在惊讶于一些高校中文系会设置计算机专业,在AI快速发展的当下,越来越多人文社会科学领域的学者开始主动拥抱新技术,探索将AI与自己的研究相结合。
“在得知我们要做大模型时,复旦很多人文社科的老师都和我交流过,讨论后续合作的可能。”复旦大学特聘教授、上智院院长漆远告诉《中国科学报》。
早期中华文明多模态大模型正是为人文社科学者“定制”的AI帮手,不仅懂人文社会科学的研究体系,具有强大的跨模态关联分析能力,而且兼具极速检索、智能识读、多语言精准翻译等功能,可帮助学者们显著提升研究效率。
作为项目技术负责人,复旦大学人工智能创新与产业研究院研究员、上智院AI科学家朱思语介绍说,模型率先构建全球最大中华文明多模态数据库,深度整合了考古实物资料、历史传世文献、古文字数据、历史地理信息、人类学基因数据等权威异构数据源,实现跨模态、跨学科、跨时空信息的对齐与关联。
为考察大模型对早期中华文明的理解程度,项目团队针对性设计了早期中华文明测评集。该评测体系采用“学科领域×问题难度×研究场景”的三维度分层框架,涵盖与早期中国文明相关的多个人文社科重点领域,体系涵盖基础史实记忆、证据整合与关联分析、学术争议点的批判性论证等不同梯度,同时紧密贴合实际研究需求,适配多种研究任务。
“整体体系汇聚超10000个高质量问题,确保评测既系统全面又精准有效,能够真实反映人文研究的多元场景与复杂需求。”吴力波强调,“这些问题主要来自于青年人文社科学者,都是他们所在领域比较重要的关键问题。”
同时,为方便用户使用,项目团队充分融合人文社会科学特有的研究方法与知识生产机制,构建了一个面向多学科领域的早期中华文明AI智能体应用平台。智能体由高效检索、精准翻译、智能识读、事实呈现、特征描述、史料信度考据、深度分析推理七大引擎驱动,支持多步骤推理与复杂任务规划,并严格确保所有模型输出基于可靠知识来源与完整证据链,所有结果均可追溯与验证。
以《禹贡》“导河积石”记载的研究为例,大模型能够通过整合地理空间智能分析、文献智能检索与对比、古文字智能识读、考古遗存智能关联等AI工具,帮助学者们开展黄河探源以及夏代治水工程推演方面的研究。
覆盖众多珍贵史料
早期中华文明多模态大模型之所以能够理解人文社会科学领域学者的需求,离不开大量高质量数据的“喂养”。
针对“中华早期文明”这一宏大主题,大模型数据库纳入了100TB专业化语料、5万条SFT数据,系统覆盖考古学、文物学、中国古代史、历史地理学、历史文献学、中国古典文献学、汉语言文字学、中国古代文学、中国少数民族语言文学等学科,并整合了甲骨金文、方志舆图等珍稀史料。
这些数据中既包含通用的学科领域材料,也纳入了复旦大学所特有的资料。“我们通过和复旦深度合作,把学校优势人文社科的知识体系与学术积淀投入到大模型的开发中。”朱思语表示。
目前,开发团队正在进行安全性评估,判断这些“只此一家”的珍贵数据是否可以对外公布。“我们会持续进行数据平台的运营工作,在合理合规的前提下,把数据的开放性做得更好。”复旦大学人工智能创新与产业研究院副院长、上智院副院长程远透露,“我们近期会发布早期中华文明评测集,并进一步研发能够整合多模态海量数据的早期中华文明多模态生成/理解大模型。”
人文社科学者深度参与
“当我们把所有的考古报告集合在一起以后,发现人群流动、文化交流,甚至物质交流之间的关联超乎想象。如果仅用单一的历史学或传统考古学方法,可能都无法解决。”复旦大学中国历史地理研究所所长张晓虹如是形容使用初体验。
早期中华文明多模态大模型能力背后,是人文洞见与理工技术的深度交叉融合。
项目组由相关领域权威专家组成的指导委员会领衔,统筹指导由AI科学家、专业领域学者和工程技术人员组成的多学科协作团队,形成结构完善、分工明确的合作研发格局。
吴力波解释道:“业界有一些专门的‘金标准’用于评测大模型能力。人文领域的大模型尚缺乏公认的标准,必须由领域内的专家参与开发,从而制定标准、帮助大模型不断训练并提升能力。”
研发过程中,专家委员会负责总体学术把关与方向指导,AI科学家专注于算法模型设计与技术攻关,领域专家参与数据体系构建与知识审核,工程团队负责系统开发与平台搭建。多维协同、优势互补,推动实现“以人文精神引领智能开发”的新型合作模式。
此外,项目面向在校硕博生广泛招募参与者,建立专业化的知识标注与数据构建团队,以“学术梯队”建设保障数据质量。“这不仅夯实了大模型的专业知识底座,也为相关学科的研究生提供参与重大科研项目的实践平台,培养新一代‘人文+智能’复合型创新人才。”吴力波指出。
让“冷板凳”变热
值得一提的是,早期中华文明多模态大模型是复旦大学“AI for Humanity”理念的重要实践。
“我们希望能够通过大模型,为中华文明的传承与弘扬提供更具前瞻性和系统性的技术支撑,同时探索以数字智能推动人类文明研究范式转型的可能路径。”吴力波说道。
陈寅恪、季羡林、裘锡圭......这些鼎鼎有名的人文社会科学大家,无一不是甘坐冷板凳,能够沉下心、耗费数十年完成一系列鸿篇巨制。在吴力波看来,早期中华文明多模态大模型可以为人文社科学者的研究插上“最强翅膀”,进而更好地发现单一学科难以察觉的突破点,大幅提高研究效率。
“由此,‘冷板凳’可能会变成‘热板凳’,‘十年磨一剑’变成‘十月磨一剑’,中华文明源头的迷雾能被加速吹散。”吴力波表示,“此外,也会有更多‘通才’出现,他们能够以跨学科的视野,开辟新的研究方向。”
值得一提的是,在这场文化与智能的对话中,已经出现一批站在人文和科技交汇点上的范式创新者。刘钊、张晓虹、陆建松、高晞、张梦翰、文少卿......复旦大学的人文领域学者们,正在用AI的力量讲述新时代的中华故事。
“通过多模态的数据分析和智能建模,不仅能让早期的历史重新焕发光彩,也让我们进一步深入认识中华早期文明密码中蕴含的深层意义。”复旦大学特聘教授、出土文献与古文字研究中心主任刘钊说道。
而复旦大学和上智院的AI科学家团队,也未停下探索的步伐。“我们目前的主要任务是把早期中华文明多模态大模型做好、做深,未来也会扩展到其他文明以及人文学科中。”漆远表示。
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。