我爱计算机视觉的图书馆

他的首页他的馆藏他的动态馆友反馈关于他分享对话

我爱计算机视觉 IP属地：江苏

文章		关注		粉丝		访问		贡献

关注

粉丝

访问

贡献

他的首页

他的馆藏

他的动态

馆友反馈

关于他

共 708 篇文章

显示摘要

每页显示

条

[原]综述 | 基于 Transformer 网络的多模态学习

综述 | 基于 Transformer 网络的多模态学习。伴随着近年来多模态应用和多模态大数据的蓬勃发展，基于Transformer 网络的多模态学习已经成为了人工智能领域的前沿热点之一。（2）以几何拓扑的思想角度对Transformer、视觉Transformer、多模态Transformer 进行了系统性回顾和总结；（3）从多模态预训练和面向特定多模态任务的两个维度对多模态Tra...

阅78 转0 评0 公众公开 23-05-23 00:00

[原]超200+篇文献！一文知晓"伪装场景理解"领域近况

一文知晓"伪装场景理解"领域近况。当前伪装场景理解领域内包含图像和视频两大类型任务，其中针对图像级别的任务有：伪装目标分割（见图2-a）、伪装目标定位（见图2-b）、伪装实例排序（见图2-c）、伪装实例分割（见图2-d）、伪装目标计数（见图2-e）；表格3总结了近年来伪装场景理解领域中所出现的十个不同的数据集，被广泛地应用于...

阅118 转0 评0 公众公开 23-04-28 14:45

[原]当AIGC遇见灌篮高手，一秒钟让动漫/艺术人物在虚拟世界中重现

当AIGC遇见灌篮高手，一秒钟让动漫/艺术人物在虚拟世界中重现。随着《灌篮高手》电影版的上映，笔者作为粉丝，也是关注AIGC科技领域的工作者，思考着如何让经典的动漫人物灵活地出现在AIGC世界里。笔者考虑这个工具可否输入灌篮高手里的动漫人物来生成高清照呢？进一步看看反向操作效果如何? 以真人照片来作为源ID，进入灌篮高手世界:既然可以...

阅61 转0 评0 公众公开 23-04-20 12:27

[原]全景鱼眼相机+俯视+深度学习：封闭场景视频监控的好选择

全景鱼眼相机+俯视+深度学习：封闭场景视频监控的好选择。全景鱼眼摄像头可以在高处朝下拍摄，用最少的摄像头捕捉大面积的场景，相比传统的多角度摄像头方案，这种俯视全景设置可以大大降低部署的工作量和成本。上图中作者总结了俯视全景鱼眼相机相关的数据集汇总表，总计16个数据集，时间跨度从12年到23年，尤其明显可以看得出来的是20年之后...

阅37 转0 评0 公众公开 23-04-19 00:06

[原]SAM 模型真的是强悍到可以“分割一切”了吗？

SAM 模型真的是强悍到可以“分割一切”了吗？论文地址：https://arxiv.org/abs/2304.06022该技术报告选择了在伪装物体分割任务上进行实验验证，发现SAM模型与当前尖端的伪装物体分割模型依旧有很大的差距，并通过对伪装动物、工业缺陷、医疗病灶中多个案例进行可视化分析，得出一些有趣的结论。图2. SAM模型不能很好的感知场景中的伪装动物其次...

阅867 转0 评0 公众公开 23-04-14 15:12

[原]我在Github上建了一个项目快1.2K stars了，你应该也需要！

我在Github上建了一个项目快1.2K stars了，你应该也需要！所以从2021年开始，CV君就在Github建立了一个收集综述论文的项目，几乎每周都更新，旨在帮助大家找到感兴趣的综述。该项目主要是跟踪arxiv上的论文，从2021年至今的计算机视觉综述论文“绝大多数”都已经收在这个项目中。（3）便捷下载：除了提供原始论文链接，为了方便读者能够快速获...

阅32 转0 评0 公众公开 23-04-14 15:12

[原]CVPR 2023 | 人脸识别路漫漫：清华、北大等提出AT3D人脸识别系统攻击方法

”攻击者“和”受害者“的人脸图片首先使用3DMM算法进行人脸重建，其得到的系数，定义了人脸的形状、姿态、纹理等，即一套系数就是一张特定的人脸。训练的时候是调整这套系数对人脸特定区域（眼鼻部位）进行建模，得到一个3D网格，这个3D网格渲染后”戴到“攻击者的人脸图像上，然后把这张图片和受害者的图片输入给人脸识别系统，人脸识别部分...

阅146 转0 评0 公众公开 23-03-30 12:51

[原]CVPR 2023 | 北大提出T-SEA: 自集成策略实现更强的黑盒攻击迁移性

许多基于迁移的黑盒攻击依靠多模型集成方式来提高攻击的迁移性，也即，在训练对抗样本阶段，通过集成多个不同的白盒模型，以期训练好的对抗样本能在新的黑盒模型上表现出更强的攻击能力。表示自集成的数据、模型和对抗补丁。对于模型泛化性，作者根据模型复杂度及训练数据规模来定义模型的泛化上界。而当上述讨论目标转化为对抗补丁泛化性时，...

阅191 转0 评0 公众公开 23-03-27 21:12

[原]CVPR2023 | 轻量高效的自监督深度估计框架Lite-Mono

CVPR2023 | 轻量高效的自监督深度估计框架Lite-Mono.3.2 DepthNet深度网络编码器：Lite-Mono 在4个阶段聚集多尺度特征。局部-全局特征交互（LGFI）：给定一个输入特征图X，尺寸为H×W×C，首先将它线性地投影到相同维度的Q=XWq, K=XWk, V=XWv，然后计算交叉协方差注意力来增强输入特征X：其中：根据设置不同的特征图通道数、CDC模块数...

阅215 转0 评0 公众公开 23-03-24 12:36

[原]NeurIPS 2022 Spotlight论文：高效高精度低显存消耗的位置编码点云配准

NeurIPS 2022 Spotlight论文：高效高精度低显存消耗的位置编码点云配准。从而使得编码的几何位置特征为建立匹配对应关系提供帮助。我们将位置编码整合到节点的特征学习过程中，将其与内点学习过程构造为联合优化任务，通过增强位置编码的辨识能力来提高粗匹配精度。w/o associated reference points为移除所提出的位置编码，并用基于质心的位置...

阅31 转0 评0 公众公开 23-02-19 12:18

他的文章
他的书籍

筛选

不限类型

网文

撰写

文档

不限 Word PPT Excel RTF PDF TXT

思维导图

相册

音乐

视频

显示摘要不显示摘要

每页10条每页30条每页50条

返回
顶部