参考消息网11月12日报道
微软研究院负责人里克·拉希德10月25日在中国天津演示了一项技术:不仅延迟几秒钟将英语讲话转换成普通话,而且是以讲话者本人的嗓音输出普通话。但这个消息过了一段时间才慢慢传开。
英国《新科学家》周刊网站11月9日报道说,拉希德只对着实验室的最新语音识别、翻译和生成系统用英语说了8句话,但据公司透露,随即输出的普通话博得现场2000名师生的喝彩。
这看起来是一个了不起的开端。拉希德告诉听众:“再过几年,我们希望能够打破人与人之间的语言障碍。”
报道指出,该系统的先进能力来源于语音翻译程序各阶段的巨大进步。Nuance公司的Dragon Naturally Speaking等语音识别软件已经悄然进入办公室,以此为基础的产品现在也已推出,比如苹果公司的Siri能识别语音提问并从网上搜索答案。微软公司的Kinec也有语音界面。
虽然这种系统频频出错据拉希德说通常每四五个词会有一个错词但它们现在能够更好地识别讲话内容。微软的诀窍是利用一种新奇的神经联网(机器学习)系统,错词率降至七八个词里错一个。这就意味着翻译引擎Bing Translate有远远更大的可能性为语音引擎输入明白易懂的普通话文本。
报道称,真正的宝贵之处在于,它生成的普通话语音与讲话者本人的嗓音相似。假如能在翻译中保留讲话者的抑扬顿挫语调,其意思就会更加明确,交谈就会更加顺畅。为此,拉希德事先花了整整一个小时训练一个机器学习规则系统。
我来说两句排行榜