听你说话半小时,百度Deep Voice 2就能学会模仿你说话
36氪2017/5/29 12:40:08
之前,百度曾经推出一个叫SwiftScribe的软件,可以将语音转文字,这可说是记者的福音。除了语音转文字,其实百度AI还有一个文字转语音的软件,叫Deep Voice,它的作用是文字转语音。据The Verge报道,这个AI说起话来,简直跟真人没啥两样,而且还几乎能实时说话。可是,这个系统一次只能学习一种声音,而且需要好几小时甚至是以上的音频去学习。
最近,百度AI升级了这个软件,推出了Deep Voice 2,它可以依靠一个半小时音频,就能学习到一个人声音跟别人的细微差别,而且一个系统可以学习成百上千种口音,也就是能模仿数百个人讲话。
The Verge说,其实Siri也能模仿地域性的口音。只是当时Siri学这件事的时候,花的时间可不少,因为每学一种新的声音和口音,都需要一个真人去录制数千小时的音频。之后,工程师还需要花一段时间去“调教”这个软件,教它怎么说话。
而Deep Voice 2 的操作方法有点不一样,它首先会学习几百个人说话中的共性,建立一个人类说话的基本模型,然后根据不同人说话的特性、语气、口音,去调整这个模型。这个系统不需要人手动去调整。“给他正确的数据,它就会自己学会什么特性是重要的。”负责这个项目的百度硅谷实验室科学家Andrew Gibiansky这么说。
这个模仿不同人说话的功能,有什么用?
百度认为,这样的技术,可能会应用在智能语音助手这块,用户用声音来跟助手交流或者下达命令,后者也需要用语音去回复。如果每个语音助手有着不一样的声音,个性化定制的感觉就更强烈了,而不是每个都是千篇一律的Siri。
另一方面,现在很多人喜欢在上班路上听电子书,这也是一种应用的领域,有了这种技术,你听语音读物的时候,里面的每一个角色,都会有属于自己的声音和相应的情绪、语气,这样听起来就生动很多了。
其实,这样的技术也能用到语音客服上。据36氪了解,百度内部也有专门的语音客服团队。之前,百度和联通签署合作协议,李彦宏就说,未来要帮联通弄个智能客服。李彦宏说,人工智能为我们充值、换套餐的未来,或许已经依稀可见。在此前的百度世界大会上,李彦宏还演示了语音识别的其中一个应用场景:电话销售。如果电话客服,每次打过去,说话的人有不同的语气和口音,感觉也更像真人。
另外,用过语音导航的人都会知道,里面有不同的语音包。如果有了上面这个学说话的功能,你就能让你喜爱的人给你录制一个语音包,如果你喜欢某大明星,你可以在网上下载他唱歌、访谈或者演讲的音频,然后让AI学习吧。如此一来,以后你车上给你导航的,就是你最喜欢的人的声音了。
(来源:36氪)
(郑玉芬编辑)