小米声音识别算法性能新突破：国际排名第一

无言之名 2023-11-13 发布于广东

展开全文

快科技9月13日消息，小米自研声音识别算法在音频标记（Audio Tagging）任务中取得重要进展。

以公开数据集AudioSet-2M的音频数据作为训练集的音频标记模型，首次突破50 mAP的分数，此项突破标志着小米声音识别算法已在国际上性能排名第一。

据了解，Google将AudioSet数据集分为三个子集，前两个子集用于训练，被合并称为 “AudioSet-2M”。正是在这个合并后的训练集中，小米的声音识别算法模型首次在业界突破了50 mAP，刷新了音频标记技术指标，成为截至目前性能最好的模型。

此外，小米还发布了一个Mini版模型，适合资源受限的场景。该模型的参数量被压缩到了原模型的约九分之一，远小于其他机构的模型，但性能却优于其他所有机构。

这项技术的突破意味着小米的声音识别算法能力再次精进，小米的众多智能硬件设备应用此项技术后，可以更敏锐地捕捉和识别环境声音，大幅提升硬件的智能化程度，从而为用户创造更加便捷的智能生活体验。

小米此次精进后的声音识别算法，具有极高的应用价值。它能够广泛应用于小米的智能设备中，大幅提升用户的智能生活体验。具体来说，音频标记算法能够识别广泛的环境声音，比如婴儿的啼哭声、动物叫声、汽车引擎声、爆炸声、烟雾警报、门铃声、水流声等，并让环境中的声音以文字等模态表达。

此外，这项算法技术还广泛应用于小米机器人的研发中，大幅提升了机器人的感知能力。人形机器人CyberOne可以识别85种环境声音，能够通过听觉感知6类、45种人类情绪。而小米第二代仿生四足机器人CyberDog 2则可以识别38种环境声音，实现更强大的动态响应能力。

【本文结束】如需转载请务必注明出处：快科技

责任编辑：鹿角

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：无言之名 > 《科普》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多