作者:贾宇 来源:光明日报 发布时间:2011-7-18 13:26:24
选择字号:
古籍数字化背后:谁为技术买单
 
【对话】
 
“每个项目就只是一个孤立的实验”
 
——对话国家古籍保护中心专家委员会委员、中国社科院研究员杨成凯
 
“古籍数字化遇到的第一个重要问题是怎样处理异体字”
 
记者:与普通印刷品数字化相比,对古籍进行数字化处理会遇到什么特殊问题?
 
杨成凯:古籍数字化遇到的第一个重要问题是怎样处理异体字。今天所谓的一个字,古书中往往有几个不同的写法,有所谓繁体字、古体字、通假字等,例如古书有时把“嫦娥”写成“常娥”,“然”写成“肰”,“法”写成“灋”,这里姑且统称为异体字。把几个异体字归为同一个字,可以叫做给字归“位”。
 
数字化的古籍资料库最大的优势是便于处理文字内容。在几千万乃至几亿汉字的古书资料中查找一个词语,人工翻阅很难胜任,可是数字化以后编成资料库交给电脑处理,检索结果立等可取。然而这时异体字的问题会跳出来作怪,我们必需把可以归并的异体字关联在一起,当作一个字位,否则一个字有几个异体就要检索几次,使用者不仅不胜其烦,而且还会产生检索结果的遗漏。这时哪些字形可以关联,哪些字形不能关联,就是颇费踌躇的事情。我曾建议异体字的关联应该给使用者一定的自由,以便按自己的需要对系统既有的关联方式作一些移易。
 
记者:这个问题确实很复杂。有没有一些现成的做法可供我们参考?
 
杨成凯:就以大型古籍资料库“文渊阁四库全书全文检索系统”为例吧。系统有繁简字关联、古今字关联、通假字关联等功能,如果开启繁简字关联功能,那么要它检索一个字时,无论给它的是简体还是繁体,它都会连繁带简一起检索出来,无须我们简体查一次,繁体查一次,十分方便。然而这个功能还不完善,有时给它繁体它给出的检索结果要多于简体,这时若以简体检索结果为据就将漏去一些资料。
 
异体字的归并和关联情况确实十分复杂,我们平常说的《花草粹编》这部书,文渊阁本有时写作“粹”,有时写作“稡”,“四库检索系统”中互不关联,如果我们从书名“花草粹编”查寻,将找不到这部书。
 
“投入跟产出不相应,影响建设古籍数字资料库热情”
 
记者:除了以上谈到的古籍数字化系统本身要解决的问题外,就我们采访的情况来看,不论是古籍数字化的研究机构还是生产企业也都面临很多现实问题,阻碍了它们内部的良性循环,有些问题甚至是致命的……
 
杨成凯:古籍数字化要解决的一个重要问题是版权的问题。书籍的数字化都有版权问题,但是对古籍而言,版权的归属和使用有特殊的困难。首先,要想编制多功能的数字化资料库,要对古书进行标点整理,经过标点整理的文本就涉及版权的确定。一部古书,张三出版了一个整理本,李四再出版整理本,二者有没有版权关系,这就是难以处理的问题。这个问题应该引起各方面的注意,认真研究。
 
其次,纸本古籍盗版较难,责任也比较容易认定。而数字化之后,资料库中的数据容易被窃取,甚至会被直接盗版,发现侵权和认定责任颇有困难。投资开发古籍数字资料库,就不能不考虑这个问题。“文渊阁四库全书全文检索系统”和“四部丛刊全文检索系统”之后,这样的大规模古籍资料库没有赓续面世,显然与此有关。
 
还有就是投入跟产出不相应,在很大程度上影响建设大型古籍数字资料库的热情。作为一个产业,怎样争取更多的文化投资,获得更多的回报,使古籍数字化兴旺地发展起来,这是当前需要考虑的问题。
 
记者:如果从整个社会角度来看古籍数字化,可以说,目前古籍数字化的研究机构和生产企业大都是各起炉灶,并处于自生自灭的状态。关于这一点您怎么看?
 
杨成凯:现在社会各界都有使用古籍数字资料库的需要,许多单位也在做古籍数字化工作。但是,正像你所说,古籍数字化的工作基本上是单干,各筹资金,各立项目,缺乏信息、技术、成果的共享,也就难以形成一个大规模的系统工程。没有大体统一的技术平台和设计思想,每个项目就只是一个孤立的实验,而不能相互结合构成一个可持续发展的完整的系统。
 
特别是,在各方面对古籍数字化的人力物力投入还很有限的情况下,怎样整合各方面的力量,用小作坊组成大生产,就显得尤为重要。因此,如果说以前所做的工作是各出机杼,通过实践做了许多探索,那么现在是不是在总结经验的基础上,要更多地关注指导思想和理论模型的研究,解决我们所遇到的困难。特别是,理论的研究、技术的发展和实用的需要等各个方面需要很好地结合起来。
 
“行其所当行,止于其所不得不止”
 
记者:一般来说,对古籍进行数字化处理之后,其准确度、可靠性往往会有所降低,这让使用者特别是专业研究人员用起来很不放心。这个问题怎么解决?
 
杨成凯:的确。古籍数字资料库让人不放心的地方主要是担心资料库的文本不可靠,文字讹误、底本不佳。底本的问题容易解决,现在已经出版了大量版本很好的古籍,只要编制资料库时注意择优选用就是了。消除文字讹误则需要校对人员加强责任心。清乾隆时排印的《聚珍版丛书》,每页都有校对人署名,出现错字罚俸。我也听先人说过,民国时商务印书馆出版了一部字典,谁发现一个错字酬大洋一元,我们家乡果真有人得过一块大洋。我们看上世纪五六十年代出版的书就很少看到错字,有一部三十多万字的书,我曾通校一遍,竟没有发现一个错字,令人赞叹不已。可见如果说我们现在看到的古籍数字资料库多有错字,竟至不堪使用,那肯定是校对环节没有下工夫,工作不到家。
 
记者:除了加强校对环节和责任心外,要提高古籍数字化的质量,传统的古籍版本学、目录学、校勘学等专业支撑也必不可少吧……
 
杨成凯:古籍数字化的工作,首先要确定数字化的对象是哪些古籍,每一部古籍采用哪一个版本。选哪些书要看打算编制怎样的古籍资料库,可以像《四库全书》那样泛及经史子集各个门类,也可以像《全唐诗》《十三经》《二十五史》那样限定为一部书或一类书。选哪个版本要调查每部书的版本情况,按照数字化的要求作出抉择。
 
像当年编纂《续修四库全书》时,就是邀请各方面的学者选定书目,确定版本,工作相当认真。尽管如此,如今看来,还是存在一些问题,可见确定书目和确定版本不是简单的事情,即使行家通人也有失手的时候。考虑到编制古籍资料库需要相当的投入,起步阶段更需要慎重,书目和版本都有必要反复“磨勘”,听取更多的意见。
 
记者:而另一方面,古籍数字化的优势也是不言而喻的。那么,我们该怎么看待古籍数字化工作?
 
杨成凯:大型古籍数字资料库的建立,对学术研究和社会方方面面利用传统文化资源有不可估量的裨益,许多依靠人力颇感棘手的工作,在电脑可以悠游为之。在我看来,大型计算机软件难免出现瑕疵,古籍数字资料库设计的程序也会出现问题,像刚才说到的异体字关联的问题就是例子。遇到这种情况可以随时修正,何况古籍数字资料库目前使用的还是较简单的计算机程序,发现错误和改正错误都比较容易。既然事实已经证明它是学术研究的有力助手,那么只要慎重将事,还是让数字化行其所当行,止于其所不得不止吧。
 
 
 
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。

上一页 1 2 

 
 打印  发E-mail给: 
    
 
以下评论只代表网友个人观点,不代表科学网观点。 
SSI ļʱ
相关新闻 相关论文

图片新闻
热带森林“赢家”更小更快 《自然》2024年十大人物公布
AI科学家主导虚拟实验室加速医学研究 蒲瓜基因组组装研究获进展
>>更多
 
一周新闻排行 一周新闻评论排行
 
编辑部推荐博文
 
论坛推荐