清华研制成功统一平台少数民族文字文档识别系统-搜狐新闻

清华研制成功统一平台少数民族文字文档识别系统

2007年01月31日21:37 [我来说两句] [字号：大中小]

来源：千龙网

　　千龙网北京1月31日讯（通讯员崔凯记者于振华）日前，由清华大学丁晓青教授主持研制的全球首款在统一平台上支持我国主要少数民族文字文档“多体蒙古文（混排汉英）印刷文档识别暨统一平台少数民族文字识别系统”通过专家技术鉴定。

　　据悉，该系统在汉字和英文文档识别的基础上将我国最主要的四种类型六种少数民族文字，即蒙古文、藏文、维吾尔文、哈萨克文、朝鲜文和柯尔克孜文（混排汉英）文档识别综合集成在一个统一的平台系统中，使我国最主要的少数民族文字（混排汉英）文档能够自动识别输入计算机。系统的模块化结构，与国际接轨的内码表示，统一的人机交互界面、适应性强的版面分析图像处理，使系统具有良好的扩展能力，很容易扩展到所有各种少数民族文字和文档的识别自动输入计算机问题，可基本解决我国少数民族文字文档识别问题。同时该系统还支持阿拉伯文的识别。

　　在丁晓青教授的带领下，清华大学、内蒙古大学、内蒙古师范大学、新疆大学和西北民族大学的40多位科研人员参与系统研制，前后历时8年之久。项目组成员在多体蒙古文（混排汉英）印刷文档识别系统的基础上，综合集成了在2003年完成的多字体印刷藏文(混排汉英)文档识别系统和2004年完成的维哈柯（汉英）阿（英）双向印刷文档识别系统，以及2002年完成的朝鲜文/韩文(混排汉英)文档识别系统，最终完成了具有谐和统一、方便各文种交换和应用的“统一平台少数民族文字识别系统”。

　　最新完成的多体蒙古文（混排汉英）印刷文档识别系统能识别印刷多字体的蒙古文字符和文档，并能识别处理多字体蒙古文字符混排汉英的文档，是集版面分析、文本行字切分、识别、纵向文档图文对照编改等技术于一体的完整的蒙古文文档识别的实用系统。解决了多字体蒙古文汉英混排文本切分和识别问题。首先提出并实现多字体蒙古文字符识别方法；对于困难的蒙古文连写文本提出了利用多种信息得到最优字符切分点等方法，并结合汉字及英文识别技术，实现了蒙古文混排汉英印刷文本识别，文本切分识别率可达96.2%。

　　文字是信息化的基础，文字信息的计算机自动输入是信息化发展的瓶颈和关键。统一平台少数民族文字识别系统的研制成功，对于促进少数民族的文化、文明交流，促进我国少数民族地区的信息化建设，以及促进我国与阿拉伯国家的深入合作、交流产生深远影响。

　　为此，教育部专门组织由倪光南院士领衔，何新贵院士、戴浩院士等多位信息处理及蒙藏维哈柯阿语言领域的专家组成的鉴定委员会经过认真讨论，认为多体蒙古文（混排汉英）印刷文档识别系统能识别印刷多字体的蒙古文字符和文档，并能识别处理多字体蒙古文字符混排汉英的文档，是集版面分析、文本行字切分、识别、纵向文档图文对照编改等技术于一体的蒙古文文档识别的实用系统。解决了蒙古文连写文本切分、多字体蒙古文字符识别和汉英混排文本切分识别问题，蒙古文混排汉英文本识别率可达96.89％。

　　同时，该系统在汉字和英文文档识别的基础上，综合集成了蒙古文、藏文、维吾尔文、哈萨克文、柯尔克孜文和朝鲜文（混排汉英）文档识别系统，最终完成了多文种并存的“统一平台少数民族文字识别系统”，解决了我国四种类型六种少数民族文字的文档识别问题，该系统具有良好的扩展性。

　　此外，鉴定委员会还认为，该项目解决了实用的多字体印刷蒙古文文档及其混排汉英的识别问题，实现了在统一平台上蒙、藏、维、哈、柯、朝（混排汉英）文档识别的综合集成，其主要技术指标达到了国际领先水平。系统工作稳定，使用方便，文档齐全，为蒙、藏、维、哈、柯、朝（混排汉英）纸介质文档转化为电子文档提供了有效的工具，将促进我国少数民族语言文字的信息化。