苹果组建语音识别团队 微软让即时翻译服务采用了神经网络算法

2015-10-23

     故事要从加拿大惠斯勒的一场小型学术会议讲起。会议主题是语音识别,为了让计算机更加有效地识别人类语音,与会者共同探讨了是否存在新的机器智能(称作“深度学习”)模式。这次会议由微软资助,于2009年圣诞节前开幕,两位微软研究人员邀请全球知名深度学习专家、多伦多大学教授杰夫·辛顿(Geoff Hinton)发表了演讲。


辛顿认为,机器学习模式的工作方式非常类似人类大脑的神经元。他希望打造“神经网络”,当处理的话语越来越多,这种网络就可以逐渐理解话语。早在上世纪80年代,神经网络就是一个热门研究领域,但直到2009年,它还是没有发挥潜能。


在惠斯勒,研究者礼貌地接受了对辛顿的观点。“但他们不是很感兴趣。”微软研究部门主管彼得·李(Peter Lee)说道。这些研究者坚持自己的算法。但微软团队觉得深度学习值得尝试,因此微软派遣两名工程师与辛顿的研究人员合作,并针对真实数据进行了实验。


这位主管回忆,实验结果“令人吃惊”,精确度提升了25%以上。要知道,在语音识别领域,精确度提升5%就足以具有革命意义。他表示:“我们公布了实验结果,世界随之改变。”


如今,神经网络算法已经成为主流,计算机因此变得更加智能。谷歌用这种算法改进Android语言识别功能。IBM同样如此。最值得关注的是,微软让即时翻译服务Skype Translate采用了神经网络算法。


辛顿表示:“大家最初对这种算法满腹狐疑。如今,我们的算法已经被普遍采用。”


但是,有一家大名鼎鼎的科技公司尚未采用这种算法,它就是苹果。苹果拥有语音助理服务SiriSiri的技术是来自语音识别技术公司Nuance。但一些人工智能研究者认为,苹果即将改变策略。苹果已经组建了自己的语音识别团队,团队正在开发基于神经网络的Siri服务。


去年,苹果招募了微软语音识别项目高管亚历克斯·阿赛罗(Alex Acero)。阿赛罗在微软工作了接近20年,如今他是苹果Siri小组的一名高级总监,直接领导Li DengDong Yu,二人正是当年邀请辛顿出席惠斯勒会议的微软研究者。


苹果还招募了Nuance的语言技术研究人员,包括Siri项目经理贡纳尔·艾夫曼(Gunnar Evermann)。另外,爱丁堡大学语音技术研究者阿尔纳布·格沙尔(Arnab Ghoshal)也加盟苹果。


阿卜杜勒-拉曼·默罕默德(Abdel-rahman Mohamed)表示:“苹果不仅招募管理人才,而且招募项目经理和研究型人才。苹果正在打造一支实力强劲的语音识别研究团队。”默罕默德是多伦多大学博士后研究员。


雅虎研究部门负责人罗恩·布拉赫曼(Ron Brachman)指出,Siri不仅仅采用语音识别技术,它还采用了很多其他技术。


但微软研究部门主管彼得·李认为,要想追赶上微软和谷歌,并且采用神经网络,苹果还需要六个月的时间。神经网络将大幅改进Siri服务。他表示:“除了Siri,所有主流语言服务都已采用神经网络算法。Siri的转型只是时间问题。”