分享

多模态学习,英文全称 MultiModa...

 taotao_2016 2021-01-18
多模态学习,英文全称 MultiModal Machine Learning (MMML),从1970年代起步。已经经历了多个发展阶段,在2010后,全面进入深度学习的阶段。多模态机器学习,以机器学习实现处理和理解多源模态信息的能力。图像、视频、音频、语义之间的多模态学习比较热门。
比如互联网大型视频平台,抖音快手爱奇艺优酷腾讯,都会将多模态技术用于视频理解业务,可以加视频封面,视频抽帧,加文本信息融合,比如做视频分类,视频质量评估。

当计算机能够看懂视频可以做的事情就很多了,比如说审核推荐搜索和特效这些都是增加客户粘性,提高用户使用时长的工具。

用学术的语言来表达,五多模态学习五个研究方向:1.多模态表示学习 Multimodal Representation;2.模态转化 Translation;3.对齐 Alignment;4.多模态融合 Multimodal Fusion;5.协同学习 Co-learning。
以多模态情感分析为例,综合利用多个模态的数据(图里文字、面部表情、声音),数据里的信息互补,得到准确的情感判断。
再比如在自动驾驶领域,毫米波和视觉(摄像头)融合,因为自动驾驶涉及多种传感器,会涉及多传感器信息融合。
多模态学习,工业界用的比较多。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多