
□肖军
2008年11月25日,清华大学电子工程系丁晓青教授主持研制的“统一平台民族文字(蒙藏维哈柯朝)文档识别系统”获2008年钱伟长中文信息处理科学技术奖一等奖。
丁晓青教授在发表获奖感言时说:“我们的统一平台多民族文字识别系统研制取得了突出成果,然而这仅仅是一个开始,民族文字信息化还有大量的工作需要我们去做。我们的目标是实现‘无所不在、所见即所得的OCR’,实现支持不同文字体系的印刷及手写文字识别技术和系统,适应海量的文档图像检索利用的迫切要求,为国家智能信息化服务。这对于全球化背景下不同民族语言文化交流和信息利用具有重要意义……”
做着自己最想做的事,所以安心欢喜,甘之如饴。让我们去接近丁晓青这一位极具魅力的人物,感受她的生命旅程和思想轨道。
1962年,丁晓青毕业于清华大学无线电电子学系,获优秀毕业生金质奖章的她顺利留校任教。20世纪60年代至80年代的20多年间,丁晓青从事过多个方向的研究工作。
20世纪80年代中后期,为响应国家对汉字识别技术展开攻关的号召,丁晓青和她的清华大学智能图文信息处理研究室,从原来的研发数字图像处理系统转向了文字识别系统研究中,从此走上了解决计算机图文识别输入问题的征途。
丁晓青教授长期致力于图像处理、模式识别的教学科研,在计算机识图认字智能视觉研究中,取得国际领先重大成果。她带领研究组最早全面解决了结构复杂、字形多变、超大字符集合的印刷体和脱机/联机手写汉字识别,以及自动复杂版面分析和原文电子重构难题,历次“863”汉字识别评测中位居前茅;继而研发成功国际领先的日、韩和阿拉伯文档识别系统、首创我国汉英统一平台上的主要少数民族文字(蒙、藏、维、哈、柯、朝)文档识别系统。
从理论和技术上,她较全面地解决了汉字及其他各种文字文档的识别问题,攻克了文字自动计算机输入的信息化壁垒,同时还研制成功了国际领先的对国家公共和信息安全具有重要作用的人脸识别系统。她在模式识别、OCR(Optical Character Recognition,光学字符识别)、人脸识别、生物特征认证、文档图像识别等领域的影响受到国内外学者的关注,被选为IAPR(国际模式识别协会)Fellow。
多年深入研究使丁晓青认识到识别是计算机认知的基础,提出模式识别统一信息熵理论,揭示模式分类的极限由互信息决定;为解决图象识别问题,提出了基于互信息主分量分析的鉴别子空间识别,以互信息为测度,滤除特征中与识别无关并将损害模式识别性能的干扰信息,达到降低维数有效鉴别识别的目的,为文字、人脸、字体、笔迹等图像识别研究达到国际领先水平打下了坚实理论基础。
丁晓青发表论文400余篇,合作专著5本(其中两本由World Scientific Publishing Co.Pte. Ltd.出版)。提出的“模式识别统一熵理论”对模式识别系统的设计有重要的指导作用,受到国内外学者的重视。近年来在汉字识别领域,取得了一系列国际领先的研究成果,并成功地进行了产品化和产业化转化。
丁晓青先后荣获国家科技进步二等奖三次(2008年、2003年和1999年),国家科技进步奖三等奖一次(1992年),北京市科学技术奖一等奖一次(2006年),教育部科技进步奖一等奖两次,教委等部委科技进步奖二等奖五次、三等奖一次,95'全国电子十大科技成果奖及“863”计划先进个人奖等。在FAT2004国际评测中获“全面最优人脸验证算法奖”,在最权威的人脸识别评测FRVT2006中达到国际领先水平并有13项发明专利被授权。
丁晓青教授治学严谨,勇于创新,为科学教育事业作出了巨大贡献,荣获“863”先进工作者、清华大学优秀工作者及“七五”攻关荣誉证书等。多名博士、硕士在她的指导下顺利毕业,进入国内外著名科研机构或公司,如清华、Stanford、CMU、HP等,并在相关领域取得了优异的成绩。
这就是丁晓青,一个以自己的脚步拉动了计算机图像识别技术进步的女科学家。
《科学时报》 (2010-6-8 C4 科技群星)