作者:张双虎 黄辛 来源:中国科学报 发布时间:2023/3/3 16:09:04
选择字号:
梅兵代表:完善中文字符集,推动传统文化数字化传播

 

 

“数字时代,文字信息传播高度依赖于字符集这一基础支撑平台。”全国人大代表、华东师大党委书记梅兵说,“由于当前中文字符集建设不足,作为传统文化基本载体的历史文献在数字化传播中存在障碍,直接影响了优秀传统文化弘扬。”

梅兵认为,字符集中古文字缺位,造成最具历史厚度的中华文化资源的网络盲区。

作为中国传统文化主要载体的历史文献分两类:一类是传世文献(十三经之类),另一类是出土古文献(主要是古文字文献)。而作为中国文化传承系统两翼之一的古文字,却并未被目前国际标准电脑字符集所覆盖。

古文字字符集可以分为两类,一类是以古文字形体原貌来表达的,可以称之为原形字,其作用是支持古文字在数字平台上以原貌呈现传播;另一类是用今日通用的楷体字来表达的,一般称之为隶定字,其作用是以今天的通行楷字来转写古文字进行数字化传播。

“前一类古文字在目前通用电脑字符集中完全处于空白;后一类也有相当大的比例处于盲区。”梅兵说。

在没有古文字原形通用字符集的情况下,现有古文字网络数据库用自制字体外挂的方式来替代,有的用今天的楷体字来转写。

一个时代有一个时代的字符集,今天的通用字符集相对古文字有大片缺位,导致目前在数字平台上表达古文字文献会大量开“天窗”。

古文字的原始字形本身富含历史文化信息,具有无可替代的历史文化和审美价值,这种空白也影响了传统文化的数字化传播。

汉字是三种最古老的人类文字之一,其他两种(古埃及文字和西亚楔形文字)都已在标准字符集中编码了,但作为唯一而传承至今的一种古文字,却一直被标准电脑字符集关在门外。

目前,还有大批已在国际标准中编码的汉字网络和数据库使用受限。

在通用电脑字符集中已编码汉字总数已达9万以上,但是除了核心部分GBK的20902字外,CJK扩展集的7万多字在数据库中并不能使用,无法实现检索、查询、统计等各种处理。以最重要的字书《说文解字》为例,第一卷收字703个,其中属于网络和数据库受限使用的126个。

编码字遭到网络排斥,检索查找的对象常被张冠李戴,乱点鸳鸯,传统文献的网络阅读就如被蒙上一头雾水。值得注意的是,已经正式在国际标准字符集中获得合法地位的汉字,竟有70%以上还遭受如此不公正待遇,这对传统文化数字化传播造成的负面影响是难以估量的。

此外,作为中文字符集核心的GBK部分大面积存在“一字多码”状况。

当前在网络和数据库中使用不受限的汉字只有GBK字符集这个范围,但是GBK字符集却存在“一字多码”问题。在文字输入过程中,一字多码可能造成文献搜索查找的尴尬:该找到的找不到,该搜齐的搜不齐。不难推想,在这样一个字符集支持下去进行传统文献的数字阅读,会发生很大问题。

鉴于此,梅兵建议高度重视中文字符集建设,加强整体规划和协调管理。

近年来国家对古文字专业不可谓不重视,2020年推动实施“古文字与中华文明传承发展工程”,但古文字专业的关注点仍重在对单个文字的考释,对完善古文字字符集的重要性认识不够。上述字符集问题总体上说并非技术因素导致的,更多需要国家相关部门加强整体规划和协调管理加以解决。

实现中国标准的统一编码,增强中文字符集的国际影响力。

古文字在国际标准字符集中的编码工作,本世纪初在国家相关部门主持下已经开始,但至今并无实质性进展。据了解,导致失败的一个重要因素是当时承担编码研制工作的专家组未能提出具有符合国际标准说服力的古文字编码方案。鉴于这种情况,需要首先借鉴国际标准实现古文字的中国标准的统一编码。

电脑字符集属于国际标准的范畴,因此,不是仅仅依靠国内研发就能解决所有问题的,例如,已编码汉字网络使用受限问题,与目前主导电脑技术的微软等少数国际技术垄断企业不积极相关。因此,还需进一步加强中文字符集的国际影响力,多方争取国外相关技术企业支持。     

 
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。
 
 打印  发E-mail给: