搜狐网站
搜狐 ChinaRen 17173 焦点房地产 搜狗
搜狐新闻-搜狐网站
新闻中心 > 综合

清华研制成功统一平台少数民族文字文档识别系统

  千龙网北京1月31日讯(通讯员 崔凯记者于振华)日前,由清华大学丁晓青教授主持研制的全球首款在统一平台上支持我国主要少数民族文字文档“多体蒙古文(混排汉英)印刷文档识别暨统一平台少数民族文字识别系统”通过专家技术鉴定。

  据悉,该系统在汉字和英文文档识别的基础上将我国最主要的四种类型六种少数民族文字,即蒙古文、藏文、维吾尔文、哈萨克文、朝鲜文和柯尔克孜文(混排汉英)文档识别综合集成在一个统一的平台系统中,使我国最主要的少数民族文字(混排汉英)文档能够自动识别输入计算机。系统的模块化结构,与国际接轨的内码表示,统一的人机交互界面、适应性强的版面分析图像处理,使系统具有良好的扩展能力,很容易扩展到所有各种少数民族文字和文档的识别自动输入计算机问题,可基本解决我国少数民族文字文档识别问题。同时该系统还支持阿拉伯文的识别。

  在丁晓青教授的带领下,清华大学、内蒙古大学、内蒙古师范大学、新疆大学和西北民族大学的40多位科研人员参与系统研制,前后历时8年之久。项目组成员在多体蒙古文(混排汉英)印刷文档识别系统的基础上,综合集成了在2003年完成的多字体印刷藏文(混排汉英)文档识别系统和2004年完成的维哈柯(汉英)阿(英)双向印刷文档识别系统,以及2002年完成的朝鲜文/韩文(混排汉英)文档识别系统,最终完成了具有谐和统一、方便各文种交换和应用的“统一平台少数民族文字识别系统”。

  最新完成的多体蒙古文(混排汉英)印刷文档识别系统能识别印刷多字体的蒙古文字符和文档,并能识别处理多字体蒙古文字符混排汉英的文档,是集版面分析、文本行字切分、识别、纵向文档图文对照编改等技术于一体的完整的蒙古文文档识别的实用系统。解决了多字体蒙古文汉英混排文本切分和识别问题。首先提出并实现多字体蒙古文字符识别方法;对于困难的蒙古文连写文本提出了利用多种信息得到最优字符切分点等方法,并结合汉字及英文识别技术,实现了蒙古文混排汉英印刷文本识别,文本切分识别率可达96.2%。

  文字是信息化的基础,文字信息的计算机自动输入是信息化发展的瓶颈和关键。统一平台少数民族文字识别系统的研制成功,对于促进少数民族的文化、文明交流,促进我国少数民族地区的信息化建设,以及促进我国与阿拉伯国家的深入合作、交流产生深远影响。

  为此,教育部专门组织由倪光南院士领衔,何新贵院士、戴浩院士等多位信息处理及蒙藏维哈柯阿语言领域的专家组成的鉴定委员会经过认真讨论,认为多体蒙古文(混排汉英)印刷文档识别系统能识别印刷多字体的蒙古文字符和文档,并能识别处理多字体蒙古文字符混排汉英的文档,是集版面分析、文本行字切分、识别、纵向文档图文对照编改等技术于一体的蒙古文文档识别的实用系统。解决了蒙古文连写文本切分、多字体蒙古文字符识别和汉英混排文本切分识别问题,蒙古文混排汉英文本识别率可达96.89%。

  同时,该系统在汉字和英文文档识别的基础上,综合集成了蒙古文、藏文、维吾尔文、哈萨克文、柯尔克孜文和朝鲜文(混排汉英)文档识别系统,最终完成了多文种并存的“统一平台少数民族文字识别系统”,解决了我国四种类型六种少数民族文字的文档识别问题,该系统具有良好的扩展性。

  此外,鉴定委员会还认为,该项目解决了实用的多字体印刷蒙古文文档及其混排汉英的识别问题,实现了在统一平台上蒙、藏、维、哈、柯、朝(混排汉英)文档识别的综合集成,其主要技术指标达到了国际领先水平。系统工作稳定,使用方便,文档齐全,为蒙、藏、维、哈、柯、朝(混排汉英)纸介质文档转化为电子文档提供了有效的工具,将促进我国少数民族语言文字的信息化。

用户:  匿名  隐藏地址  设为辩论话题

我要发布Sogou推广服务

新闻 网页 博客 音乐 图片 说吧  
央视质疑29岁市长 邓玉娇失踪 朝鲜军事演习 日本兵赎罪
石首网站被黑 篡改温总讲话 夏日减肥秘方 日本瘦脸法
宋美龄牛奶洗澡 中共卧底结局 慈禧不快乐 侵略中国报告



搜狐博客更多>>

·怀念丁聪:我以为那个老头永远不老
·爱历史|年轻时代的毛泽东(组图)
·曾鹏宇|雷人!我在绝对唱响做评委
·爱历史|1977年华国锋视察大庆油田
·韩浩月|批评余秋雨是侮辱中国人?
·荣林|广州珠海桥事件:被推下的是谁
·朱顺忠|如何把贪官关进笼子里
·张原|杭州飙车案中父亲角色的缺失
·蔡天新|奥数本身并不是坏事(图)
·王攀|副县长之女施暴的卫生巾疑虑

热点标签:章子怡 春运 郭德纲 315 明星代言 何智丽 叶永烈 吴敬琏 暴风雪 于丹 陈晓旭 文化 票价 孔子 房价

说 吧更多>>

相 关 说 吧

丁晓青

说 吧 排 行

茶 余 饭 后更多>>