百度在国内虽然声名狼藉,但它在海外开设的实验机构还是在干实事的。今天百度公布了一款借助DeepSpeech语音识别核心的网页式语音转录应用SwiftScribe,尽管还处在测试的初级阶段,不过据说至少效率相当不错。
SwiftScribe的使用方法和我们今天在多数网页应用里的操作大体一致,用户在一个简单的网页里上传.wav或.mp3音频文件——在SwiftScribe的情境下通常是记录人物讲话的录音,上传完成后,语音识别AI就会即刻开始听写用户刚刚上传的材料。它的动作很快,通常只需要话音频全长的三分之一时间便可完成听写。SwiftScribe单次能接受的最长语音材料为一小时,算下来处理时间需要20分钟。
因为技术尚未完善,SwiftScribe现阶段并不能做到听写100%准确,某些特定的单词它会写错,标点也不是很会打,这种时候仍需要用户做一遍检查,手工把它输出错误的文字给修改过来。SwiftScribe内置变速阅读工具,在人工复查时可以调慢音频的播放速度进行校对。
百度SwiftScribe的团队领导人表示该工具将能帮助转录人员提升三分之二的工作效率,不过目前来说它还需要花至少好几个月进行打磨,他们也计划邀请数十名专职做转录的行业人士参与公开测试,协助改进SwiftScribe。接下来这个转录AI还要面对视频转录和添加字母、适配更多文件格式,以及自动标点等挑战。
百度打算在SwiftScribe成熟之后在其上开发收费点,目前来说SwiftScribe还是免费的。不过按照百度的习性和天下没有免费午餐的定律,并不推荐使用它转录一些非常关键或敏感的信息。