简牍是中国古代重要记录媒介,因材料脆弱及埋藏环境影响,字符模糊、缺损、布局复杂,人工识别困难。现有文献数字化技术在甲骨文等领域取得突破,但在简牍字符识别方面缺乏高质量数据集,限制了深度学习应用。
近日,西北师范大学联合甘肃简牍博物馆推出国际首个面向深度学习任务的简牍字符检测与识别大规模数据集——DeepJiandu数据集,这标志着简牍智能计算研究取得重要进展,为简牍文献的智能研究与保护提供基础,推动数字人文领域的创新与发展。该工作由西北师范大学简牍研究院、甘肃省简牍智能计算与数字人文工程研究中心张强教授团队具体开展,上海中西书局、甘肃文化出版社提供相关数据资源,西南大学参与数据验证试验工作,本研究相关论文发表于国际期刊《科学数据》。
DeepJiandu数据集包含7,416张图像,标注99,852个字符,涵盖2,242个类别。团队结合简牍专家释文成果对图像进行字符标注,数据集充分考虑了简牍字符的残损、异形字、多种布局等复杂场景,具备良好的深度学习适应性,可广泛支持目标检测与字符识别等模型的训练和评估。
据了解,数据集整合了红外扫描图像,显著增强墨迹清晰度,提高字符对比度,使残损文字更清晰。标注工作由简牍学与计算机专家协作完成,确保专业性和准确性,为推动简牍文献的机器可读性与自动化处理奠定基础。
为保证科学性,数据集按8:1:1比例分为训练集、验证集和测试集。字符类别统计显示,尽管尺寸差异大,数据集仍为多尺度目标检测任务提供良好支持。团队在数据集上测试多种主流字符检测与识别模型,结果表明数据集能有效支持相关任务。现有模型在字符模糊、残缺、长尾分布等挑战下仍有优化空间,DeepJiandu将为简牍文字智能识别提供有力支撑,推动人工智能在简牍文献解析中的深入应用。
DeepJiandu数据集的发布填补了历史文献数字化与人工智能结合的空白,提升考古学者对简牍文献的解读效率,为历史文献OCR技术突破提供数据资源,推动文博机构数字化转型,为多模态文化遗产保护提供技术路径。该数据集不仅是一项数据工程,更是连接传统古籍与现代智能技术的桥梁。
随着数据集推广,预计将吸引更多深度学习和计算机视觉领域研究者加入简牍OCR研究,推动人工智能在历史文献解析、文化遗产保护等多学科交叉领域的应用。未来,团队将继续优化数据集,探索前沿技术,为数字人文研究提供技术支持。团队还在积极推进简牍图像融合、残断简缀合、书写风格识别和简牍大模型等方向研究,进一步拓展简牍智能技术研究边界。
目前,DeepJiandu数据集已开源,研究人员可通过以下链接获取:
数据集下载:https://www.scidb.cn/en/detail?dataSetId=7f627b99d06e4430a5e5d21b20614b46
相关论文信息:https://doi.org/10.1038/s41597-025-04716-3
简牍数据共享平台。西北师范大学供图。
?
近红外波段下文字再现。西北师范大学供图。
?
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。