国内最值得关注的10家人工智能语音识别公司

nxhujiee 2022-03-23

展开全文

在谈人工智能的时候，一定不能不谈语音识别，语音识别是人机交互的入口，是指机器/程序接收、解释声音，或理解和执行口头命令的能力。目前国内外都有公司在语音领域有所投入，其中包括才成立几年的初创企业，也包括中途入局的巨头企业，电子发烧友梳理了国内10家在语音领域影响较大的企业如下，排名不分先后，如有任何纰漏，欢迎留言指正。

科大讯飞

成立于1999年，具有语音合成、语音识别、口语评测、语言翻译、声纹识别、人脸识别、自然语言处理等智能语音与人工智能核心技术。

主要产品介绍：

讯飞输入法，支持语音输入；

咪咕灵犀，中国移动和科大讯飞联合推出的智能语音助手，支持粤语，既能语音打电话、发短信、查天气、搜航班，还能查话费、查流量、买彩票、订彩铃等；

发条，一款基于科大讯飞AIUI智能引擎，通过语音交互，迅速定位用户想要内容的AI音乐助手；

讯飞电视助手，可以语音播放、换台；

思必驰

成立于2007年，一家专注于智能硬件领域的语音公司，主要面向智能硬件三个垂直领域：智能车载、智能家居和智能机器人，提供自然语言交互解决方案。2018年6月26日，宣布完成D轮5亿元融资。

主要产品介绍：

对话操作系统AIOS系统（AISpeechOperatingSystem思必驰人工智能操作系统）——运行于Android、Linux、阿里云OS等主流操作系统之上，目前主要用于车载领域（AIOSForCar）和家居领域（AIOSForHome）；

软硬一体化的芯片模组，它提供声源定位、个性唤醒、语音识别、语义理解、多轮对话等功能，主要用于家居和机器人领域。

云知声

成立于2012年6月29日，一家智能语音识别AI技术企业，专注于物联网人工智能服务。2018年7月，云知声宣布已完成6亿元人民币C+轮融资，至此，云知声C轮系列融资总金额已达13亿元人民币。

主要产品介绍：

面向物联网的AI芯片UniOne，这是一款拥有自主知识产权和语音解决方案的物联网AI芯片，也是面向AIoT（AI+IoT）的AI芯片；

基于该款芯片的智慧家居和智能音箱方案，该方案可以帮助客户完成语音项目开发，加速客户AI产品落地，同时为客户定制AI语音模块，快速量产。

出门问问

成立于2012年，一家以语音交互和软硬结合为核心的人工智能公司，拥有自主研发的语音交互、智能推荐、计算机视觉及机器人SLAM技术。至2017年4月，出门问问共完成六轮融资，累计融资额超过2.55亿美元。

主要产品介绍：

硬件产品包括：TicWatch系列、TicPods系列、TicKasa系列、TicBand、TicMirror、TicWear等，所有硬件都围绕”出门问问”这款应用，它既是一款语音助手App也是连接所有硬件的核心。

声智科技

成立于2016年，一家专注声学前沿技术和人工智能交互的科技创新公司，提供从端到云的智能语音交互技术和服务方案，以及从芯片、模组、开发板到白牌产品的智能语音应用方案。

主要产品介绍：

SoundAIAzero，一款集成声波配网、波束形成、声源测向、噪声抑制、混响消除、回声消除、语音唤醒、端点检测、语音识别、声纹识别、语义理解、语音合成、双工通话等全链条智能语音交互开发系统，兼容主流智能语音芯片和硬件架构，支持DuerOS、AliGenies、小爱平台、腾讯叮当、Alexa等AI内容平台；

SoundAI麦克风阵列芯片，支持USB的低功耗麦克风阵列芯片SAI101C；

SoundAI麦克风阵列模组，基于声智科技麦克风阵列核心技术的软硬一体化方案，实现全方向唤醒、声源测向、定向拾音、噪声抑制、混响消除、回声抵消、语音识别、语义理解、声纹识别、语音合成等功能，满足用户在语音交互领域的全方位需求。

捷通华声

成立于2000年10月，是一家专注于智能语音、智能图像、生物特征识别、智能语义等全方位人工智能技术研究与应用，全面发展人工智能云服务的高新技术企业。

主要产品介绍：

灵云开放平台，合作伙伴可根据行业用户实际应用场景，灵活挑选、组合应用多项项人工智能技术，嵌入到系统集成商的平台中，可为各个行业的企业办公自动化提供各种人工智能能力，实现智能化应用。

语音合成，应用灵云提供的TTS技术，实时、准确地将文本转换为自然、流畅、清晰的语音；

语音识别，应用灵云提供的ASR技术，具备高识别准确率、高识别速度、领域模型可定制、支持多种处理模式等功能，同时具有SDK开发简单、开发包资源占用小等优势。

声纹识别，应用灵云提供的VPR技术，通过对说话者语音和数据库中登记的声纹做比较，从而确定该说话人是否为本人，文成对用户进行身份校验和鉴别。

智能语音导航，基于灵云平台应用灵云语音识别（ASR）、语音合成（TTS）、语义理解（NLU）等技术，允许电话呼入的客户以开放的方式表述业务需求，系统将用户的语音转化为文本。

智能语音质检，基于灵云平台应用灵云语音识别（ASR）技术，将海量录音数据进行智能化的自动语音转文本、关键词检出、语速分析、静音分析、情绪检测等核心技术产品，可大大提高企业质检效率、解决人工质检局限性、提升服务质量与管理水平、降低企业运营成本，辅助业务经营决策。

SpeakIn

成立于2015年，一家全球领先的声纹识别与身份安全人工智能公司，2018年5月SpeakIn及其全资子公司国音科技宣布完成近近亿元人民币融资，本轮融资由IDG资本领投。

主要产品介绍：

SpeakIn核心算法，使用目前学术界最前沿、基于深度学习声纹识别技术，使用大数据训练的深度神经网络（DNN）能够提取出更准确的说话人特征，拥有多种声纹识别的前端音频信号处理算法，极大的提高了准确度和鲁棒性，确保声纹提取和验证的速度，并适应多种不同场景与应用的需求。

SpeakIn核心技术，包括活体检测技术、情绪识别、人声分离、性别识别、声纹大数据检索与比对、云平台技术、动态声纹数据库技术、自研声纹采集专用硬件、前瞻性研究等。

百度

主要产品介绍：

语音识别，通过场景识别优化，为车载导航，智能家居和社交聊天等行业提供语音解决方案；

长语音识别，在会议、教学或者媒体采访中，长语音识别服务可快速准确的将长时间的语音转化为文字，方便进行拷贝和编辑等后续的工作；

远场语音识别，通过麦克风阵列前端处理算法，有效消除噪音，同时对目标说话人声音进行增强，使得智能家居、智能硬件、机器人语音交互等场景下的远场语音也可准确识别；

呼叫中心实时语音识别，通过MRCP或TCP协议进行低成本对接，将语音讯号转化为文本流实时输出。应用于智能客服，外呼机器人，实时电话质检，电销辅助机器人等场景；

呼叫中心音频文件转写，可将电销业务、客服业务、质检业务等多场景的语音精准地转为文字。

腾讯

语音识别，依托腾讯的语音技术，为开发者提供全面优质的语音转文字功能。

长语音识别，依托腾讯的语音技术，为开发者提供全面优质的近场长段语音转文字功能，目前支持汉语普通话，并涵盖南北地域重口音。

关键词检索依托微信AI的语音技术，在给定关键词文本列表的前提下，在音频中精准定位出现了哪个或哪几个关键词、具体时间起止点以及置信度，比语音识别更高效。

语音合成，依托腾讯领先的语音技术和深度学习算法，为开发者提供全面优质的文字转语音服务。

小米

小爱同学语音服务基于小米声学实验室、大数据及全生态建设，涵盖语音、NLP、搜索推荐等技术，为开发者提供高效、便捷、智能的语音服务。小爱同学语音服务涵盖影音视听，实用工具，生活，知识教育，游戏趣玩，休闲娱乐，儿童等近百款自研精品技能及上千款第三方技能，且支持语音控制所有小米IoT设备。

总结

语音识别的最终目的是能够真正的理解人类语言甚至是方言，过去几年，人们在人工智能领域和深度学习领域的突破，让语音识别取得了很大的进步，然而在方言识别方面，还极少公司取得比较瞩目的成绩，语言理解本身就是一个复杂的领域，期待未来能够有更多突破。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： nxhujiee > 《~胡子语音合成》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

nxhujiee

关注对话

TA的最新馆藏

python中的简易表格prettytable
vscode中运行python程序时先清除终端屏幕？
python文本加解密
[转] 中日韩三国语言日常用语，你知道几个？
拯救数百万人类免于饥饿的英雄没有身披斗篷
Roland AE-05电吹管连接安卓手机的方法

喜欢该文的人也喜欢更多

热门阅读换一换