机器如何学会听懂人说话?

时间:2017-03-30 05:29内容来源:联合早报 版阅读:新闻归类:精选阅读
电脑语音识别技术为现代生活提供了很多便利。但这一技术已经走了很长很长的路才取得现在的成就,未来会如何发展呢?

(图片来源:Science Photo Library)

Image copyright Science Photo Library

一个刚学会走路的小孩摇摇晃晃穿过起居室,来到墙角的一个光滑的黑色圆柱体前停下来。他尖声说道:"Alexa,播放儿童音乐。"虽然发音含混不清,但是这个圆柱体明白了请求,房间里响起了音乐。

Alexa是亚马逊的云端语音识别软件,联合早报中文网,它是黑色圆柱体音箱Echo的大脑。Alexa的面世在全球造成了轰动,除了小孩以外,因为他们觉得这是理所当然的。小孩子会伴随着Alexa成长。在人工智能的支持下,Alexa学会了回答越来越多的问题,有朝一日可能会进化到能与人自由交谈的地步。

但是,任何10岁以上的人都知道,从前不是这样的。语音识别软件发展到今天经历了漫长的道路。虽然Echo比啤酒杯更瘦,但是第一批语音识别机器——二十世纪中叶开发的那些——几乎可以占满一整个房间。

Image copyright Amazon
Image caption 亚马逊Echo把语音识别带进人们的起居室(图片来源:Amazon)

人类很久以前就试图对机器讲话——或者至少让机器对我们说话。"语音能够让我们与机器实现难以置信的简单互动,它是最自然、最方便的交互方式,也是我们每天都在使用的东西,"亚马逊设备事业部和亚马逊Alexa欧洲区副总裁乔利特·凡德·穆勒恩(Jorrit Van der Meulen)说,"语音就是未来。"

1773年,俄国科学家、在哥本哈根生活的生理学教授克里斯蒂安·克拉特齐斯坦(Christian Kratzenstein)开始思考语音技术。他制造了一个特别的设备,把共鸣管和风琴管连接起来,发出类似于人类语言中元音的声音。就在十多年后,维也纳的沃尔夫冈·冯·肯佩伦(Wolfgang von Kempelen)制造了一台类似的机械声学语音机器。在十九世纪初,英国发明家查尔斯·惠斯通(Charles Wheatstone)用皮革共鸣器改进了冯·肯佩伦的系统。该系统可以通过手动调整或控制发出像语言一样的声音。

到1881年,亚历山大·格拉汉姆·贝尔(Alexander Graham Bell)和他的兄弟查尔斯·萨姆纳·天特(Charles Sumner Tainter)一起制造了一个蜡涂层的旋转圆柱体,一根唱针对传入的声音压力作出反应,切出垂直的凹槽。这一发明为1907年获得专利的第一台留声机铺平了道路。他们是希望用机器来听写秘书念的笔记和书信,这样就不再需要速记员。随后,这些记录可以用打字机打出来。这一发明很快在全球流行起来,在越来越多的办公室里,秘书会带着笨拙的耳机,聆听录音并完成转录。

但所有这些雏形都是被动式机器——直到1952年自动数字识别机"Audrey"的问世。它由贝尔实验室(Bell Labs)制造,体型巨大,占满了一个六英尺高的继电器架子,耗电量很大,连接着大量缆线。它能够识别语音的基本单位"音素"。

那时,计算机系统非常昂贵、笨重,存储空间和运算速度有限。但是Audrey仍然能够识别数字的发音——零到九——准确率高达90%,至少它的开发者戴维斯(HK Davis)发音时是这样。当面对其他几位指定的说话者时,它的准确率为70%到80%,但如果是不熟悉的声音,它的准确率就会大大降低。"这在当时是一个惊人的成就,但是那个系统需要一整个房间的电子设备,还需要专业的电路,才能识别单个数字,"贝尔实验室信息分析部的查理·巴哈尔(Charlie Bahr)说。

Image copyright Science Photo Library
Image caption 电话的发明者亚历山大·格拉汉姆·贝尔在语音识别方面也完成了重要的工作(图片来源:Science Photo Library)

由于Audrey只能识别指定说话者的声音,它的用途就比较有限:比如它可以为收费电话的接线员提供语音拨号的功能,但实际上没有这个必要,因为在大多数情况下,通过手动按钮拨号成本更低,且更简便。Audrey仍然是雏形——它领先于普通的计算机。虽然它并没有用在生产系统中,但是"它说明了语音识别是可以实现的,"巴哈尔说。

但是还有另一个目标。"我相信Audurey开发的最初目的是要减少带宽,即电线上传输的数据量,"巴哈尔的同事、诺基亚贝尔实验室(Nokia Bell Labs)的拉里·奥戈尔曼(Larry O'Gorman)说。语音识别所需带宽比原始声波要小。但是随着二十世纪七十和八十年代电话机开关的数字化,电话线路分配变的更快、更便宜,同时仍需要接线员来理解拨号请求。于是,二十世纪七十年代和八十年代,贝尔实验室语音研究投入了大量精力研究以下内容:识别数字零到十以及"是"与"否"。"电话系统在能够识别这12个单词后,就能够单纯依靠机器完成电话接线,"奥戈尔曼说。

Audrey并不是唯一。二十世纪六十年代,日本的几个团队也对语音识别进行研究,最著名的包括东京无线电研究实验室(Radio Research Lab)的元音识别器、京都大学的(Kyoto University)音素识别器和NEC实验室的数字语音识别器。

在1962年的世界博览会上,IBM展示了它的"鞋盒"(Shoebox)机器,它能够理解16个口头表达的英语单词。美国、英国和苏联还有其他研究。苏联的研究人员发明了动态规整(DTW)算法,并将其用来制造一个能够驾驭200个单词的识别器。但这些系统大都基于样本匹配,也就是把单词与存储在机器里的语音进行匹配。

最大的一次飞跃发生在1971年,当时美国国防部的研究机构Darpa出资开展一个为期五年的语音理解研究项目,目标是达到1000个单词的词汇量。很多公司和学术机构参与了该项目,包括IBM、卡内基梅隆大学(Carnegie Mellon University)和斯坦福研究所(Stanford Research Institute)。于是,Harpy在卡内基梅隆大学诞生。

和它的前辈不同,Harpy能够识别整句话。"我们不想查词典——所以我想要制造一个能够翻译话语的机器。这样,当你在讲一种语言时,它会把你说的话转换成文本,然后进行机器翻译,所有任务都一次完成,"卡内基梅隆大学曾经在Harpy项目和该大学的Hearsay-II项目工作的计算机科学教授亚历山大·韦贝尔(Alexander Waibel)说。

Image copyright iStock
Image caption 电话的到来加速了语音识别技术的发展(图片来源:iStock)
顶一下
(0)
0%
踩一下
(0)
0%


相关栏目推荐
推荐内容