“谁来帮帮我们?为自主创新推波助澜?”全国科技大会结束不久,一项中文字形技术──汉峰字形技术发明人之一的孙海东就发出了呼吁。
新年之际,这项历时12年攻关、被权威专家誉为“突破”的原创性中文汉字信息处理技术,正走到产业化进程的大门口,面临两难选择:是甩掉沉重的资金压力,卖给国外竞争对手?还是“饥寒交迫”继续战斗?
一做就是十多年,终成正果
字库,是储存在电脑、手机等设备里的文字“仓库”。
人们追求美丽和多变,对文字也不例外。然而,目前的事实是:电脑里人们可以看到多种字体的汉字,还可变化;手机等嵌入式设备里不仅无法选择字体,也不能变化,许多汉字更是找不到。
这是因为技术难以实现。电脑和嵌入式设备为此执行了不同的中文字符集标准和不同的字形技术。前者是包含2万7千多字的国家标准GB18030—2000,后者是只包含6763个汉字的国家标准GB2312;前者采用的是轮廓字形技术,后者采用的是点阵字型技术。
在中文字库领域,占据电脑字库垄断地位的是美国微软公司的专利字形技术──TrueType字库。
随着信息化的推进,对中文字形的要求愈来愈高──现有汉字太少,而且不能变化,占用空间也太大──无论是电子政务、电子警务、办公自动化、印刷出版行业,还是向高分辨、大显示屏方向发展的手机、PDA、数字电视,都急需超大字符集的支持,都在呼唤更为丰富美观的字体和字形。
然而,在市场被跨国公司基本占据的背景下,绝大多数人选择了放弃,认为“不可能”。孙海东却对汉字字库技术矢志不移,一做就是十多年。
1993年,他对中文字库技术的现状与应用进行了全面调研,找到了主攻方向:开发世界上独有的嵌入式汉字曲线字库技术。
经过反复攻关,尤其是2003年以来,在上海市、徐汇区等各级政府部门的支持下,孙海东所在的上海汉峰信息科技有限公司于2004年成功完成了MiniType字形技术和字库产品的研制,实现了以笔画中心线为基础的结构化构字技术。
数百种语言的字库,都能迅速构建
新字形技术包含7万多个汉字,分为宋体、仿宋、楷体、黑体4种字体,可轻松变瘦、变胖,也可以拉扁或伸长。与国际同类字库技术相比,新字形不仅优美、还原速度快,而且存储量只有1/10。它不仅已获得国家发明专利证书,还申请了美、日、韩、欧盟等8个国家和地区的专利。
值得一提的是,用这一技术制作、符合国标GB18030—2000的4种字体汉字字库已通过国家信息处理产品标准符合性检测中心检测,获得了“市场准入证”,进入了市场应用阶段。
正在全国各地发放的第二代身份证,遭遇冷僻字“阻击”。据说北京就有数万个身份证因为人名地名是冷僻字无法发放──电脑字库没有这些字!为此,公安部第一研究所和汉峰公司联合研制出了适用于人口信息系统的“汉峰文字支持平台”,包括7万多个汉字及手写、拼音混合输入法,符合被称为“超大字符集”的新国家标准GB13000—2003。
“我们的字库不仅能‘放大’到7万多个汉字,而且由于掌握了构字的核心技术,能迅速开发出不同语言的字库。理论上说,世界上数百种语言的字库,我们都能迅速构建。”孙海东说。
市场化之路危机四伏
任何一项创新技术,都会面临两难选择:前有漫漫长路,后有实力强大的竞争者的围追堵截。对于刚刚起步的创业者来说,正面临一场比技术攻关更为严峻的考验──市场化、产业化。
为研究字形技术,孙海东和他的团队倾注了全部心血和财力。虽然有创业投资和政府部门的支持,但是主要的“后盾”仍是他们自筹的资金──为支持丈夫创业,妻子马建华义无反顾地站在了他身后,将多年经商的收入作为投资,前后“砸”进去近千万,甚至抵押了房产。“如果有资金的进一步支持,我们将发展得更快。”
市场形势不容乐观。在信息技术领域,“字库”技术并不起眼,没有几个人当回事,甚至有人说:“产品用字库时可以随便从网上下载”。虽然有个别手机厂商进行联合攻关并将推出应用新字形的手机,但是汉峰字形技术从一开始就遭遇到惯性思维的束缚。
一方面,是自主创新企业的资金实力较弱,发展正处于推一把就能上、不闻不问就可能一败涂地的“节骨眼”
上。一方面,目前一些国外公司的新兴字形技术正悄然进军国内:德国一家公司的矢量汉字字库产品,通过一些跨国手机企业正进入国内手机市场;美国一家公司的矢量字库也进入了国内新兴的机顶盒市场。
期待标准“水涨船高”
权威机构预测,高阶矢量汉字和手机电视、移动即时通信、远程监控等一样,是我国3G多媒体技术领域9大关键应用技术之一。而加入世界贸易组织后,中文信息技术是信息产业领域唯一强制性保护的技术与产品,嵌入式矢量汉字库又是其中关键技术之一。
“中文字库不仅是中国文化的象征,而且市场前景十分广阔。”中国中文信息字会理事长倪光南院士分析,初步估算,在第三代移动通信、数字电视时代,每年全球电子信息产品的中文字库及相关产业的市场规模将在100亿美元以上,而嵌入式曲线中文字库将扮演重要角色。
遗憾的是,我国虽然早在2001年8月就强制推行包含两万多个汉字的GB18030—2000中文信息技术标准,但在嵌入式电子信息产品中并没有得到执行,手机等嵌入式产品的字形标准仍是只包含6763个汉字的国家标准GB2312。
“这远远不够。”倪光南院士认为,“当时容忍这一‘低标准’的主要原因,是没有相应的技术,而目前新的字形技术已经出来。建议尽快‘提高’嵌入式领域中文字符集的强制性标准。”(记者李斌 周婷玉)新华社北京1月22日电 |