Kaldi之父Daniel Povey领衔，智能语音前沿技术分享 | AICon

板桥胡同37号 2020-06-12

展开全文

Daniel Povey 是著名的语音识别开源工具 Kaldi 的主要开发者和维护者，被称为 Kaldi 之父。Kaldi 集成了多种语音识别模型，包括隐马尔可夫和最新的深度学习神经网络，公认是业界语音识别框架的基石。

2019 年 10 月，Daniel 正式加入小米公司，担任小米集团语音首席科学家，开发下一代 Kaldi。

在将于 9 月 24～25 日举行的 AICon 全球人工智能与机器学习技术大会上，Daniel Povey 将分享他们团队的研究成果。

除他之外，我们也邀请了多位国内一线公司的知名专家，来分享智能语音方面的最新进展，我们一起来看看。

李杰，快手资深语音算法专家。曾任微软（亚洲）互联网工程院语音科学家。2017 年加入快手，负责语音识别声学模型相关算法研究和产品落地，在国际主流语音会议上发表论文十余篇，主要研究方向包括语音识别、语音唤醒等。目前快手智能语音交互技术已经赋能多个产品和业务，包括小快直播间智能助理、快手音悦台、智能字幕、语音输入法、语音搜索等。

分享议题：《快手端到端语音识别技术的探索与实践》

智能语音技术在快手具有丰富的应用场景，一方面要对每天快手用户产生的海量语音数据进行内容分析，为接下来的信息安全、内容理解、广告与推荐等提供基础服务。另一方面，要赋能快手的众多产品，提升用户与产品交互的便利性和趣味性。大量多样化的场景和海量数据对语音识别的精度与效率提出了重大挑战。近年来，端到端语音识别技术以其框架简洁、高精度、高效率的优势，成为领域研究热点，短短几年经历了多次技术更新与迭代。本次分享将会介绍端到端语音识别技术的发展历程和最新进展，并结合快手业务，介绍快手团队在 SpeechTransformer 模型上进行的多项改进与落地实践。

王士进，科大讯飞北京研究院院长，科大讯飞研究院副院长。他带领团队在机器翻译、阅读理解、写作诊断等领域获得十余项国际比赛冠军，在 ICASSP、ACL、KDD、AAAI、Computer Speech and Language 等期刊会议发表数十篇论文，目前还担任中国人工智能产业发展联盟技术与产业工作组副组长。

分享议题：《科大讯飞多语种语音语言技术进展及应用实践》

智能语音语言技术旨在让机器“掌握”人类独有的语音和语言能力，包含语音识别、语音合成、机器翻译和语言理解等关键技术，近年来在深度学习的推动下取得了长足进步。多语种语音语言技术在人类语言互通、人机交互无障碍方面具有广阔的应用前景，受到业界的广泛关注。本次分享，在简要回顾多语种语音语言技术发展基础之上，重点介绍科大讯飞多语种最新技术进展和产业化应用实践，最后探讨多语种技术面临的挑战和未来的发展趋势。

陈云琳，出门问问高级语音工程师。曾在微软从事声学模型以及拼接系统的研究与优化工作。2018 年加入出门问问，研发并推动上线端到端语音合成系统 MeetVoice（Mobvoi End to End TTS Voice），大幅度提升语音合成质量，MeetVoice 目前已广泛应用在出门问问的车载、TicWatch、TicPods、魔音、小问秘书等多项产品和 ToB 业务中。

分享议题：《出门问问端到端语音合成系统的研究与应用》

近些年来，随着深度学习的快速发展，端到端（End-to-End）语音合成得到了广泛的关注和研究。传统的语音合成声学模型训练的流程复杂，包括 label 设计、问题集设计、HMM-GMM 训练以及决策树聚类等一系列流程。而端到端的声学模型直接使用单一的深度神经网络模型进行建模，极大的降低了模型的复杂度。另一方面，基于神经网络的声码器（Vocoder）在性能上也逐渐超越基于信号理论的传统声码器。端到端声学模型和神经网络 Vocoder 虽然能够合成非常高质量的声音，却面临着计算开销大和使用成本高的问题。如何解决这些难题，有效地将这一系列新技术落地，是语音合成从业者当前面临的最大挑战。本报告将介绍出门问问近期在端到端语音合成系统上取得的研发成果以及在语音合成技术产品化和 ToB 行业落地的经验。