维吾尔文识别和维汉翻译理解问题曾经困扰业界多年,现在终于被我国科学家攻克。12月1日,由教育部组织在北京清华大学召开的“高性能维吾尔文识别和理解系统”科技成果鉴定会上,鉴定委员会主任、中国工程院院士倪光南宣布:清华大学丁晓青教授科研团队首次实现了维吾尔文无切分识别并创建了维汉识别理解一体化系统,总体达到国际领先水平。
自2011年起,在国家自然科学基金重点项目支持下,清华大学电子工程系在连写民族文识别问题上深入钻研。科研团队摒弃了原有的基于字符切分的维吾尔文识别方法,在基于隐含马尔可夫模型的无切分维吾尔文识别技术上进行了创新,提出了维汉对照关键词检索的跨语言理解方式。同时由新疆大学信息科学与工程学院院长吐尔根·依布拉音教授带领团队负责研发维汉全文翻译技术,北京文通科技有限公司负责实现系统架构和网络服务平台,最终研制成功“高性能维吾尔文识别与理解系统”。
据课题组成员、清华大学电子系彭良瑞副教授介绍,维吾尔文是不同于汉字和拉丁文字的拼音文字,其外形和结构的变化很大,单词内字符连写,且相似字不易辨别,为维吾尔文识别带来相当的困难。
“这一系统首次实现无切分连写维吾尔文识别,并在统一系统框架中首次实现了维吾尔文识别和翻译理解无缝连接,解决了维吾尔文的文档经扫描图像识别输入计算机以及以汉语为目标语言的跨文种输出难题。”彭良瑞说。
据介绍,该系统可广泛应用于维吾尔文办公自动化、电子出版、互联网信息资源建设。这一科研成果的取得为我国新疆地区的民族文字文档建立开辟了先进的数字化大道,并且加强了以汉语为目标语言的跨文种交流方式,有利于促进民族文化交流。
鉴定会上,清华大学电子工程系主任黄翊东教授在会议开始时致辞。国家自然科学基金委信息学部张兆田副主任、信息科学一处熊小芸处长和宋朝晖项目主任也出席了会议。教育部语言文字信息管理司张浩明司长、国家民委教育科技司周晓梅副司长在会后总结发言,强调了民族文字信息化在国家发展及安全中的战略地位。