早些时候,百度推出了一套名为DeepVoice的人工学习系统,目的是通过深度学习让文本到语音的转换变得自然。虽然发布时间不长,但DeepVoice已经更新了三个版本,从第一个版本的简单短句,到第二个版本学习数百种不同口音,再到第三个版本半小时学习2500个口音,DeepVoice的学霸属性随着时间的推移变得愈发明显。
事实上第一个版本DeepVoice表现平平,学习一个方言口音需要数个小时,而第三个版本半小时学习2500个口音也不会是上限,百度团队认为通过深度学习,DeepVoice在短时间内同时掌握10000个口音甚至更多不是问题。当下他们需要大量的高质量数据库来加强深度学习的效率。
TTS文本语音转换系统经过长时间进化已经有十足进步,但无奈词汇之间的衔接需要根据单词使用场景,文字所需要表达出的语气和情感相关联,这也是为什么在大多数时候,我们仍然认为现在的文本语音系统机械味十足。
DeepVoice诞生正是为了努力填平机器语音阅读与人类正常阅读之间的鸿沟。当然百度也不是第一家尝试自然语音的厂商,例如谷歌DeepMind也正在执行名为WaveNet项目,让机器的文字阅读变得更为口语化,并率先使用在英语和日语的语音翻译上。
除了同声翻译,更为自然的语音系统可以减少人工语音录制的大量成本,比如说游戏中数以万计的真人语音解说,或者残疾人的语音导航,乃至配音。随着深度学习速度的不断加快,上述都将可能成为现实。以此看来,又要有很多人会因此丢工作了。