搜狐网站
搜狐 ChinaRen 17173 焦点房地产 搜狗
搜狐新闻-搜狐网站
新闻中心 > 综合

中国几个少数民族文字文档可自动识别输入计算机

  新华网北京1月29日电(记者 李江涛)全球首款在统一平台上支持中国几个少数民族文字文档的识别系统,29日在北京清华大学通过专家鉴定。

  鉴定委员会认为,“多体蒙古文(混排汉英)印刷文档识别暨统一平台少数民族文字识别系统”首次在统一平台上解决了实用的多字体印刷蒙古文文档及其混排汉英的识别问题,完成了在统一平台上蒙古文、藏文、维吾尔文、哈萨克文、朝鲜文和柯尔克孜文(混排汉英)文档识别的综合集成平台和系统,其主要技术指标达到了国际领先水平。

  据介绍,由清华大学丁晓青教授主持研制的这个系统具有良好的扩展能力,可扩展到各少数民族文字和文档的识别自动输入计算机问题,可基本解决少数民族文字文档识别问题。同时该系统还支持阿拉伯文的识别。

  在丁晓青教授的带领下,清华大学、内蒙古大学、内蒙古师范大学、新疆大学、西北民族大学的40多位科研人员参与了这套系统的研制,前后历时八年。项目组成员在多体蒙古文(混排汉英)印刷文档识别系统的基础上,综合集成了在2003年已完成的多字体印刷藏文(混排汉英)文档识别系统等多个文档识别系统。

  项目组最新完成的多体蒙古文(混排汉英)印刷文档识别系统能识别印刷多字体的蒙古文字符和文档,并能识别处理多字体蒙古文字符混排汉英的文档,解决了多字体蒙古文汉英混排文本切分和识别问题。对于困难的蒙古文连写文本,提出了利用多种信息得到最优字符切分点等方法,并结合汉字及英文识别技术,实现了蒙古文混排汉英印刷文本识别,文本切分识别率可达96.2%。(来源:新华网)

用户:  匿名  隐藏地址  设为辩论话题

我要发布Sogou推广服务

新闻 网页 博客 音乐 图片 说吧  
央视质疑29岁市长 邓玉娇失踪 朝鲜军事演习 日本兵赎罪
石首网站被黑 篡改温总讲话 夏日减肥秘方 日本瘦脸法
宋美龄牛奶洗澡 中共卧底结局 慈禧不快乐 侵略中国报告



说 吧更多>>

相 关 说 吧

丁晓青

说 吧 排 行

茶 余 饭 后更多>>