科学网—古籍数字化背后：谁为技术买单

作者：贾宇来源：光明日报发布时间：2011-7-18 13:26:24

选择字号：小中大

古籍数字化背后：谁为技术买单

【对话】

“每个项目就只是一个孤立的实验”

——对话国家古籍保护中心专家委员会委员、中国社科院研究员杨成凯

“古籍数字化遇到的第一个重要问题是怎样处理异体字”

记者：与普通印刷品数字化相比，对古籍进行数字化处理会遇到什么特殊问题？

杨成凯：古籍数字化遇到的第一个重要问题是怎样处理异体字。今天所谓的一个字，古书中往往有几个不同的写法，有所谓繁体字、古体字、通假字等，例如古书有时把“嫦娥”写成“常娥”，“然”写成“肰”，“法”写成“灋”，这里姑且统称为异体字。把几个异体字归为同一个字，可以叫做给字归“位”。

数字化的古籍资料库最大的优势是便于处理文字内容。在几千万乃至几亿汉字的古书资料中查找一个词语，人工翻阅很难胜任，可是数字化以后编成资料库交给电脑处理，检索结果立等可取。然而这时异体字的问题会跳出来作怪，我们必需把可以归并的异体字关联在一起，当作一个字位，否则一个字有几个异体就要检索几次，使用者不仅不胜其烦，而且还会产生检索结果的遗漏。这时哪些字形可以关联，哪些字形不能关联，就是颇费踌躇的事情。我曾建议异体字的关联应该给使用者一定的自由，以便按自己的需要对系统既有的关联方式作一些移易。

记者：这个问题确实很复杂。有没有一些现成的做法可供我们参考？

杨成凯：就以大型古籍资料库“文渊阁四库全书全文检索系统”为例吧。系统有繁简字关联、古今字关联、通假字关联等功能，如果开启繁简字关联功能，那么要它检索一个字时，无论给它的是简体还是繁体，它都会连繁带简一起检索出来，无须我们简体查一次，繁体查一次，十分方便。然而这个功能还不完善，有时给它繁体它给出的检索结果要多于简体，这时若以简体检索结果为据就将漏去一些资料。

异体字的归并和关联情况确实十分复杂，我们平常说的《花草粹编》这部书，文渊阁本有时写作“粹”，有时写作“稡”，“四库检索系统”中互不关联，如果我们从书名“花草粹编”查寻，将找不到这部书。

“投入跟产出不相应，影响建设古籍数字资料库热情”

记者：除了以上谈到的古籍数字化系统本身要解决的问题外，就我们采访的情况来看，不论是古籍数字化的研究机构还是生产企业也都面临很多现实问题，阻碍了它们内部的良性循环，有些问题甚至是致命的……

杨成凯：古籍数字化要解决的一个重要问题是版权的问题。书籍的数字化都有版权问题，但是对古籍而言，版权的归属和使用有特殊的困难。首先，要想编制多功能的数字化资料库，要对古书进行标点整理，经过标点整理的文本就涉及版权的确定。一部古书，张三出版了一个整理本，李四再出版整理本，二者有没有版权关系，这就是难以处理的问题。这个问题应该引起各方面的注意，认真研究。

其次，纸本古籍盗版较难，责任也比较容易认定。而数字化之后，资料库中的数据容易被窃取，甚至会被直接盗版，发现侵权和认定责任颇有困难。投资开发古籍数字资料库，就不能不考虑这个问题。“文渊阁四库全书全文检索系统”和“四部丛刊全文检索系统”之后，这样的大规模古籍资料库没有赓续面世，显然与此有关。

还有就是投入跟产出不相应，在很大程度上影响建设大型古籍数字资料库的热情。作为一个产业，怎样争取更多的文化投资，获得更多的回报，使古籍数字化兴旺地发展起来，这是当前需要考虑的问题。

记者：如果从整个社会角度来看古籍数字化，可以说，目前古籍数字化的研究机构和生产企业大都是各起炉灶，并处于自生自灭的状态。关于这一点您怎么看？

杨成凯：现在社会各界都有使用古籍数字资料库的需要，许多单位也在做古籍数字化工作。但是，正像你所说，古籍数字化的工作基本上是单干，各筹资金，各立项目，缺乏信息、技术、成果的共享，也就难以形成一个大规模的系统工程。没有大体统一的技术平台和设计思想，每个项目就只是一个孤立的实验，而不能相互结合构成一个可持续发展的完整的系统。

特别是，在各方面对古籍数字化的人力物力投入还很有限的情况下，怎样整合各方面的力量，用小作坊组成大生产，就显得尤为重要。因此，如果说以前所做的工作是各出机杼，通过实践做了许多探索，那么现在是不是在总结经验的基础上，要更多地关注指导思想和理论模型的研究，解决我们所遇到的困难。特别是，理论的研究、技术的发展和实用的需要等各个方面需要很好地结合起来。

“行其所当行，止于其所不得不止”

记者：一般来说，对古籍进行数字化处理之后，其准确度、可靠性往往会有所降低，这让使用者特别是专业研究人员用起来很不放心。这个问题怎么解决？

杨成凯：的确。古籍数字资料库让人不放心的地方主要是担心资料库的文本不可靠，文字讹误、底本不佳。底本的问题容易解决，现在已经出版了大量版本很好的古籍，只要编制资料库时注意择优选用就是了。消除文字讹误则需要校对人员加强责任心。清乾隆时排印的《聚珍版丛书》，每页都有校对人署名，出现错字罚俸。我也听先人说过，民国时商务印书馆出版了一部字典，谁发现一个错字酬大洋一元，我们家乡果真有人得过一块大洋。我们看上世纪五六十年代出版的书就很少看到错字，有一部三十多万字的书，我曾通校一遍，竟没有发现一个错字，令人赞叹不已。可见如果说我们现在看到的古籍数字资料库多有错字，竟至不堪使用，那肯定是校对环节没有下工夫，工作不到家。

记者：除了加强校对环节和责任心外，要提高古籍数字化的质量，传统的古籍版本学、目录学、校勘学等专业支撑也必不可少吧……

杨成凯：古籍数字化的工作，首先要确定数字化的对象是哪些古籍，每一部古籍采用哪一个版本。选哪些书要看打算编制怎样的古籍资料库，可以像《四库全书》那样泛及经史子集各个门类，也可以像《全唐诗》《十三经》《二十五史》那样限定为一部书或一类书。选哪个版本要调查每部书的版本情况，按照数字化的要求作出抉择。

像当年编纂《续修四库全书》时，就是邀请各方面的学者选定书目，确定版本，工作相当认真。尽管如此，如今看来，还是存在一些问题，可见确定书目和确定版本不是简单的事情，即使行家通人也有失手的时候。考虑到编制古籍资料库需要相当的投入，起步阶段更需要慎重，书目和版本都有必要反复“磨勘”，听取更多的意见。

记者：而另一方面，古籍数字化的优势也是不言而喻的。那么，我们该怎么看待古籍数字化工作？

杨成凯：大型古籍数字资料库的建立，对学术研究和社会方方面面利用传统文化资源有不可估量的裨益，许多依靠人力颇感棘手的工作，在电脑可以悠游为之。在我看来，大型计算机软件难免出现瑕疵，古籍数字资料库设计的程序也会出现问题，像刚才说到的异体字关联的问题就是例子。遇到这种情况可以随时修正，何况古籍数字资料库目前使用的还是较简单的计算机程序，发现错误和改正错误都比较容易。既然事实已经证明它是学术研究的有力助手，那么只要慎重将事，还是让数字化行其所当行，止于其所不得不止吧。

更多阅读

中国实现借助现代技术查询和分析世界上最大古籍目录

美尝试通过DNA测试揭秘中世纪手抄本古籍

不要让千年古籍“横尸”书架

特别声明：本文转载仅仅是出于传播信息的需要，并不意味着代表本网站观点或证实其内容的真实性；如其他媒体、网站或个人从本网站转载使用，须保留本网站注明的“来源”，并自负版权等法律责任；作者如果不希望被转载或者联系转载稿费等事宜，请与我们接洽。

上一页 1 2

以下评论只代表网友个人观点，不代表科学网观点。

�� SSI �ļ�ʱ��

编辑部推荐博文
分子技术是研究鱼类卵型调节基因的钥匙科学网2026年2月十佳博文榜单公布！用科学的方法，重新找回希望每周解惑时间到，汇总作者和审稿人常见问题太空中的化学与生物新兴原位制造技术【土壤科普】“听说你们单位附近发现商周遗址了？” 更多>>