搜索

分享

QQ空间 QQ好友新浪微博微信

多模态学习，英文全称 MultiModa...

taotao_2016 2021-01-18

展开全文

多模态学习，英文全称 MultiModal Machine Learning (MMML)，从1970年代起步。已经经历了多个发展阶段，在2010后，全面进入深度学习的阶段。多模态机器学习，以机器学习实现处理和理解多源模态信息的能力。图像、视频、音频、语义之间的多模态学习比较热门。
比如互联网大型视频平台，抖音快手爱奇艺优酷腾讯，都会将多模态技术用于视频理解业务，可以加视频封面，视频抽帧，加文本信息融合，比如做视频分类，视频质量评估。

当计算机能够看懂视频可以做的事情就很多了，比如说审核推荐搜索和特效这些都是增加客户粘性，提高用户使用时长的工具。

用学术的语言来表达，五多模态学习五个研究方向：1.多模态表示学习 Multimodal Representation；2.模态转化 Translation；3.对齐 Alignment；4.多模态融合 Multimodal Fusion；5.协同学习 Co-learning。
以多模态情感分析为例，综合利用多个模态的数据（图里文字、面部表情、声音），数据里的信息互补，得到准确的情感判断。
再比如在自动驾驶领域，毫米波和视觉（摄像头）融合，因为自动驾驶涉及多种传感器，会涉及多传感器信息融合。
多模态学习，工业界用的比较多。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： taotao_2016 > 《AI》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

taotao_2016

关注对话

TA的最新馆藏

【开源有限元软件介绍】OOFEM：开源有限元分析利器
管人，低三分；管事，高三分
管理之道：管人、管事、管自己
有仿真模拟才是真孪生～
苏联物理的奇迹
综述：人工智能（AI）驱动的传感技术发展

喜欢该文的人也喜欢更多

热门阅读换一换