传媒博览

语音,人机交互新热门


重庆科技馆,一工作人员利用语音识别技术与画中的“蒙娜丽莎”对话。“蒙娜丽莎”讲话时还不断变换着手势。 


未来,会不会出现这样一幅语言自然交融的场景:人与机器间问答自如,不同语言的人们能够进行实时对话?现在语音技术正在逐步突破,带领人类前往这样的境地。


1.语音技术全面走入普通人生活

一些语音技术的应用在生活中已经触手可及,走在路上你会发现,对着手机“自言自语”的人多了。

你可以进行语音搜索。比如,对着手机说:“我想听XXX的歌”,系统通过识别理解,很快就从手机上或者网上找到并播放歌曲给你听;或者只要轻轻哼唱一段音乐,手机就能搜索出相应的一首歌。

你还可以用语音输入信息。比如发送手机短信甚至长篇的电子邮件,只需对着电子终端说话,语言就能变成文字输入。

你也能与机器“对话交流”,它能跟你聊天、开玩笑,并满足搜寻信息等各种任务需求。

在中国参加普通话、英语等语言考试时,很可能你面对的评委将是一台机器,它们能更客观而不知疲倦地为你“打分”。

“语音最大的优势是,它是人类最自然的交互方式。”机器学习技术专家、百度多媒体部副总监余凯说,以语音搜索为例,基于自然语言的搜索请求将会成为移动互联时代的主流搜索方式之一。

“如今的语音搜索不同于传统搜索模式,不是基于无关联的几个关键词来反馈结果,而是能够理解用户指令,完成一项完整的任务。”余凯说。

在全世界范围内,语音技术走过了漫长的蛰伏期。但正是在近一两年,随着智能手机崛起,语音技术应用似乎迎来了爆发性增长。在中国已发展了20多年的语音技术,也真正进入到普通人的生活,开始了一个前所未有的快速发展阶段。不少中国本土的语音公司迅速崛起,改变了国外公司垄断中国语音技术市场的局面。

科大讯飞信息科技股份有限公司目前占有中文语音技术市场70%以上的市场份额,包括了电信、金融等领域的大型电信级应用以及手机、车载导航、玩具等小型嵌入式应用。

像这些以研发为主的语音技术公司,不仅自己研发语音技术产品,还凭借自身的技术优势,为各行各业的开发商提供易用的语音开发平台,为行业用户提供更加智能的语音技术解决方案。如科大讯飞目前已与联想、华为、东软、英特尔等公司合作,帮助他们在自己的系统和产品里进行语音技术的二次开发和推广。

像百度等一些国内互联网公司近几年也越来越重视语音技术的应用,成立了自己的语音技术研发团队,针对自己的产品需求来发展技术,研发直接为产品服务。

“国内正在形成持续的语音产业价值链,国内语音技术的市场应用正在大踏步前进。”科大讯飞董事长刘庆峰认为,目前中国在中英文语音产业方面的技术能力已完全和美国等世界一流同步。在产品应用中,只有在电信级大规模应用中,与美国、日本相比还略有差距。中国语音技术应用在消费类产品和终端产品方面的进展,反而超过了美国、韩国和日本。


2.语音技术大爆发是技术与需求的双重作用

从接受语音到识别语音,再到理解判断,最后反馈服务结果,在我们与机器的交流过程中,机器真的能像人一样思维吗?

刘庆峰介绍说,普通人容易理解的,人机交互的过程中主要包括两类语音技术,一类是语音合成,就是让机器“说话”,产生人造语音。另一类是语音识别,就是让机器听懂人说话。

“语音识别的目的,是让人说的话能被机器听清楚,之后还要听明白。语音合成,目的是要让机器能够用最自然、最清晰的方式说话。”微软亚洲研究院语音专家宋謌平说。

机器要能够准确识别语音并像人一样通过理解判断做出回应,需要基于大量的“学习”,通过学习,与人一样根据过去的经验进行判断预测。这种“学习”有两种方法:通过在数据中找寻类似事例来提供解决方案,或是通过归纳出许多数据样本的共性来对这件事情做出判断。这也是语音技术发展的难点。

余凯介绍,传统的语音识别中的语言模型是通过概率来“识别”,比如用户说“中”字,“国”字紧随其后的可能性很大,其他字出现概率相对就会小很多。利用不同的概率及数据建立的语言模型能够帮助机器识别语音。但是如果在口语化的环境下,用户语序不同或者有方言口音,就会大大干扰语音的解码识别过程,降低识别准确率。

“语音技术是一门交叉学科,它的突飞猛进还得仰仗着数字信号处理、人工智能、大数据合成等各种领域技术的突破。” 刘庆峰说。

余凯分析说,大数据和云计算为语音技术的发展立了大功,大大提高了机器对数据的处理能力,为机器学习提供了大量“素材”,并且提高了它的学习速度,“以前学术界做语音识别通常是几十小时,而互联网公司有大量的服务器集群并行计算,可以处理成千上万小时的训练语料。”

目前,国际上研究正热的机器深度学习网络的发展,可能将攻克“南腔北调”给语音技术带来的困境。机器的深度学习模仿人脑,分很多层对信息进行处理,逐级抽象。机器正获得更“深度”的学习能力,能将语音技术向前推进一大步。百度CEO李彦宏也透露,今年将建立百度历史上首个研究院,初期就将专注于深度学习技术。

“语音技术可能在今年还会有爆发式的发展。”余凯预测。在他看来,经过了漫长蛰伏期的语音技术近几年迎来爆发式增长,除了技术发展的功劳,主要还是市场需求爆发的结果。

“主要是移动互联网带来了爆发式需求,企业看到了巨大的市场愿意投入资金发展。”余凯说。在移动互联网时代,用户需要更为方便自然的人机交互方式。当互联网从个人电脑向移动终端迁移的过程中,意味着人们在走路、开车、吃饭时都可以通过互联网获取信息、完成任务,语音解放了双手,成为了最快捷方便的方式。

以语音搜索为例,2002年初时,百度语音搜索占移动搜索的流量大概是1%,到2012年底升至8%,预计今年的流量大概能达到20%,“去年国庆元旦长假期间,语音流量增长得非常快,我们本来预期长假过后流量会有下降,事实证明没有,说明用户有长期使用的需求。”余凯说。


3.从人机交互拓展到人与人无障碍交流

语音专家认为,未来的语音产品能够做到让用户随心所欲地进行语音输入,语音识别不受口音、语气、情绪等因素干扰,并且机器能更好地理解用户语音所传达的需求。

那么,在语音识别率更高、语音合成效果更好的未来,语音会如触摸技术一样,成为人机交互的主流方式吗?

刘庆峰认为在未来两三年内就能看到语音应用成为主流。“未来不仅是手机,还有电视、汽车等设备中语音技术都将大规模应用,2013年就将会成为智能电视迅速发展的一年,电视将进入无需遥控器的时代,观众只需对着电视说出想看的节目即可。”

刘庆峰还表示,语音技术未来激动人心的另一个大规模应用,将是能够沟通不同国家人群的语言隔阂,通过与机器间的无障碍沟通,不同语言的人群也能自如交流了。

宋謌平告诉记者,这已经是他们正在努力研究的一个尖端项目:“我们希望利用语音识别、机器翻译,最后用语音合成说出来的翻译器,达到同声传译的效果。”

宋謌平进一步介绍说,他们希望这种语音合成器能够达成的效果是“夹杂多种语言的文本,机器阅读时也像是同一个人在讲话”。比如中文说话的人,让他说英文,也能说得标准,就像本人说的一样,而且在多种语言述说的情况下,转换的时候达到无缝结合的效果,“以后大家都可以像会多种语言的钱钟书先生一样,用法语、拉丁文、英文、中文夹杂着说一段话。”

有了理想的“全球翻译器”,宋謌平想象了一下未来的美好图景:不同语种不同肤色的人们之间都可以无障碍沟通。

这个目标也对语音技术中的合成技术提出了更高的要求,刘庆峰认为,目前语音合成技术需要集中精力攻克的难题是,让机器“说话”更有语气情绪的表现力,更加具备男女老幼声线的个性化差异,并且能够胜任多语种、多方言的发音。

“当然语音也不是绝对的人机交互的方法,可以与鼠标、键盘、触摸、手势等其他人机交互的方式互补。”宋謌平认为未来最理想的人机交互方式应该是多模态的,是许多不同交互方式无缝的结合,用户在不同的环境下,选择他最喜欢、最习惯并且效果最好的方式,更自然地与机器交互。

此外,刘庆峰表示,语音技术未来还将在国家安全等领域大展拳脚。“与指纹一样,没有两个人说话声音是一样的。”刘庆峰说,“声纹库是一个国家的重要资源,目前声纹识别与声纹库建设在我国已经起步,未来在金融、证券、通信、社保、公安、军队及其他民用安全认证行业有着广泛的需求。”

(编辑:黄先昊)

新闻热点