配色: 字号:
融合VoVNetv2和置换注意力机制的鱼群摄食图像分割方法
2024-02-26 | 阅:  转:  |  分享 
  
2023 年 12 月 第 5 卷 第 4 期 智 慧 农 业 ( 中 英 文 ) Smart Agriculture Dec. 2023 Vol. 5, No. 4
融 合 VoVNetv2 和 置 换 注 意 力 机 制 的 鱼 群 摄 食 图 像 分 割 方 法

1 , 3 , 4 , 5 1 , 3 , 4 , 5 1 , 3 , 4 , 5 1 , 3 , 4 , 5 2 , 6
王 鹤 榕 , 陈 英 义 , 柴 莹 倩 , 徐 玲 , 于 辉 辉
(1. 中 国 农 业 大 学 国 家 数 字 渔 业 创 新 中 心 , 北 京 100083 , 中 国 ; 2. 北 京 林 业 大 学 信 息 学 院 , 北 京 100083 , 中 国 ; 3. 农 业 农 村 部
智 慧 养 殖 技 术 重 点 实 验 室 , 北 京 100083 , 中 国 ; 4. 北 京 市 农 业 物 联 网 工 程 技 术 研 究 中 心 , 北 京 100083 , 中 国 ; 5. 中 国 农 业 大 学
信 息 与 电 气 工 程 学 院 , 北 京 100083 , 中 国 ; 6. 国 家 林 业 和 草 原 局 林 业 智 能 信 息 处 理 工 程 技 术 研 究 中 心 , 北 京 100083 , 中 国 )
摘 要 : [ [ 目 目 的 的 / 意 意 义 义 ] ] 鱼 群 摄 食 图 像 分 割 是 提 取 鱼 群 分 布 特 征 及 量 化 鱼 群 摄 食 行 为 的 前 提 条 件 。 但 在 实 际 的 养 殖
环 境 中 , 由 于 鱼 群 摄 食 图 像 存 在 鱼 群 边 界 模 糊 、 目 标 相 似 等 问 题 , 使 得 处 于 养 殖 场 景 下 的 鱼 群 摄 食 图 像 分 割 成 为
难 题 。 [ [ 方 方 法 法 ] ] 为 解 决 上 述 问 题 , 提 出 一 种 用 于 养 殖 场 景 下 鱼 群 摄 食 图 像 分 割 方 法 。 该 方 法 首 先 通 过 数 据 清 洗 减 少
因 鱼 群 边 界 模 糊 等 问 题 导 致 的 数 据 集 不 良 标 记 问 题 , 并 在 Mask R-CNN (Mask Region-based Convolutional Neural
Network ) 的 基 础 上 使 用 融 合 置 换 注 意 力 机 制 的 轻 量 级 神 经 网 络 VoVNetv2 作 为 骨 干 网 络 , 建 立 鱼 群 摄 食 图 像 实 例
分 割 网 络 SA_VoVNetv2_RCNN , 提 升 模 型 对 鱼 群 关 键 特 征 的 提 取 能 力 以 及 对 重 点 信 息 的 关 注 能 力 , 同 时 减 少 网 络
参 数 。 [ [ 结 结 果 果 和 和 讨 讨 论 论 ] ] 该 方 法 的 平 均 分 割 精 度 达 71.014% , 相 比 于 SOLOv2 、 BlendMask 和 CondInst 分 别 提 升
18.258% 、3.982% 和 12.068% 。 为 进 一 步 验 证 模 型 对 鱼 群 摄 食 行 为 量 化 的 有 效 性 , 对 真 实 环 境 下 的 鱼 群 进 行 验 证 实
验 , 结 果 表 明 , 模 型 对 摄 食 和 非 摄 食 状 态 的 鱼 群 具 有 良 好 的 分 割 效 果 , 在 一 定 程 度 上 解 决 了 因 分 割 精 度 低 导 致 的
鱼 群 摄 食 行 为 量 化 错 误 的 问 题 。 [ [ 结 结 论 论 ] ] 本 研 究 提 出 的 SA_VoVNetv2_RCNN 网 络 能 够 实 现 鱼 群 摄 食 和 非 摄 食 图 像
的 准 确 分 割 , 为 水 下 鱼 群 的 摄 食 行 为 量 化 提 供 决 策 支 撑 。
关 键 词 : 深 度 学 习 ; 实 例 分 割 ;Mask R-CNN ; 注 意 力 机 制 ;VoVNetv2
中 图 分 类 号 : TP18 ; S951.2 文 献 标 志 码 : A 文 章 编 号 : SA202310003
引 用 格 式 : 王 鹤 榕, 陈 英 义, 柴 莹 倩, 徐 玲, 于 辉 辉 . 融 合 VoVNetv2 和 置 换 注 意 力 机 制 的 鱼 群 摄 食 图 像 分 割 方 法[J]. 智
慧 农 业( 中 英 文), 2023, 5(4): 137-149. DOI : 10.12133/j.smartag.SA202310003
WANG Herong, CHEN Yingyi, CHAI Yingqian, XU Ling, YU Huihui. Image segmentation method combined with
VoVNetv2 and shuffle attention mechanism for fish feeding in aquaculture[J]. Smart Agriculture, 2023, 5(4): 137-149.
DOI : 10.12133/j.smartag.SA202310003 (in Chinese with English abstract)
关 注 。 由 于 水 下 鱼 群 分 布 与 摄 食 行 为 密 切 相 关 , 使
0 引 言
得 基 于 图 像 分 割 技 术 提 取 鱼 群 的 空 间 特 征 成 为 鱼 群
在 水 产 养 殖 中 , 科 学 合 理 的 投 喂 是 提 高 养 殖 效
摄 食 行 为 量 化 的 研 究 热 点 。 然 而 , 在 实 际 养 殖 环 境
[1 ]
率 、 降 低 成 本 的 主 要 因 素 。 鱼 群 摄 食 行 为 量 化 分
中 , 鱼 群 摄 食 图 像 存 在 鱼 群 边 界 模 糊 、 目 标 相 似 等
析 可 以 为 工 厂 精 准 投 喂 提 供 主 要 数 据 依 据 。 随 着 中
问 题 , 需 要 探 索 一 种 适 用 于 鱼 群 摄 食 图 像 分 割 的 方
国 水 产 养 殖 产 量 的 逐 年 增 长 , 实 现 水 产 养 殖 的 智 能
法 , 实 现 图 像 的 精 准 分 割 , 为 鱼 群 摄 食 行 为 的 量 化
化 、 数 字 化 及 现 代 化 是 水 产 养 殖 领 域 可 持 续 发 展 的
提 供 技 术 支 撑 。
[2 ]
[3 ]
必 然 趋 势 之 一 。 近 年 来 , 机 器 视 觉 技 术 作 为 一 种
传 统 的 图 像 分 割 方 法 , 如 背 景 建 模 、 基 于 颜
[4 ]
图 像 处 理 的 新 兴 手 段 , 在 水 产 养 殖 领 域 引 起 了 广 泛 色 的 分 割 等 , 可 在 简 单 的 图 像 上 取 得 较 好 的 分
收 稿 日 期 :2023-10-07
基 金 项 目 : 国 家 自 然 科 学 基 金 青 年 基 金 (62206021 ) ; 北 京 市 数 字 农 业 创 新 团 队 项 目 (BAIC10-2023 )
作 者 简 介 : 王 鹤 榕 , 研 究 方 向 为 计 算 机 科 学 技 术 与 智 能 农 业 的 交 叉 应 用 。E-mail :bdcpro2021@163.com

通 信 作 者 : 于 辉 辉 , 博 士 , 讲 师 , 研 究 方 向 为 人 工 智 能 和 农 业 的 交 叉 应 用 。E-mail :yuhh1990@126.com
copyright?2023 by the authors138 智 慧 农 业 ( 中 英 文 ) Smart Agriculture Vol. 5, No. 4
割 效 果 , 但 由 于 其 受 控 于 单 一 场 景 , 此 类 方 法 在 复 图 像 之 间 差 异 较 大 , 因 此 对 鱼 群 摄 食 图 像 的 分 割 具
杂 场 景 下 会 导 致 特 征 提 取 不 充 分 , 使 得 群 体 计 数 的 有 更 大 的 挑 战 。 基 于 深 度 学 习 的 水 下 鱼 群 分 割 方 式
[5 ]
准 确 率 降 低 , 无 法 满 足 精 确 养 殖 作 业 的 需 求 。 与
主 要 分 为 语 义 分 割 和 实 例 分 割 。 语 义 分 割 根 据 像 素
传 统 的 分 割 方 法 相 比 , 基 于 深 度 学 习 的 分 割 方 法 具
所 属 类 别 进 行 划 分 , 不 区 分 像 素 所 属 实 例 ; 实 例 分
[6 ]
有 出 色 的 特 征 提 取 能 力 , 目 前 已 被 广 泛 应 用 于 鱼 割 在 语 义 分 割 的 基 础 上 , 进 一 步 划 分 像 素 所 属 的 不
[7 ]
群 图 像 分 割 领 域 。Alshdaifat 等 提 出 一 种 新 的 水 同 实 例 , 与 语 义 分 割 相 比 , 满 足 区 分 目 标 个 体 需
下 视 频 鱼 类 实 例 分 割 框 架 , 首 先 建 立 鱼 类 实 例 分 割 求 , 能 够 提 取 更 加 丰 富 的 图 像 特 征 , 为 鱼 群 摄 食 行
数 据 集 并 使 用 Blender 软 件 实 现 鱼 类 的 分 割 ; 其 次 , 为 的 量 化 分 析 提 供 可 能 性 。
使 用 区 域 建 议 网 络 增 强 网 络 对 多 种 鱼 的 分 割 与 检 本 研 究 针 对 水 下 鱼 群 摄 食 图 像 存 在 目 标 相 似 、
测 。 该 框 架 结 构 在 多 种 先 进 的 分 割 算 法 中 获 得 了 最
鱼 群 边 界 模 糊 等 问 题 , 在 Mask R-CNN 的 基 础 上 ,
[8 ]
高 的 性 能 。 田 志 新 等 设 计 了 融 合 边 缘 监 督 的 改
提 出 一 种 在 养 殖 场 景 下 鱼 群 摄 食 图 像 实 例 分 割 方
[9 ]
进 Deeplabv3+ 水 下 鱼 类 分 割 模 型 , 在 网 络 的 浅
法 , 并 利 用 分 割 模 型 统 计 鱼 群 摄 食 视 频 中 不 同 类 型
层 增 加 卷 积 块 注 意 力 机 制 (Convolutional Block At ‐
鱼 群 的 类 别 数 量 和 像 素 数 量 , 实 现 鱼 群 摄 食 行 为 的
[10 ]
tention Module ,CBAM ) , 改 进 空 洞 空 间 卷 积 池 量 化 分 析 , 为 鱼 群 摄 食 行 为 分 析 提 供 技 术 支 撑 。
化 金 字 塔 (Atrous Spatial Pyramid Pooling ,ASPP ) ,
1 材 料 与 方 法
提 升 了 模 型 的 语 义 分 割 性 能 , 实 现 了 水 下 鱼 类 的 精
[11 ]
准 分 割 。 覃 学 标 等 基 于 YOLO (You Only Look
1.1   鱼 群 摄 食 图 像 采 集 及 标 注  
Once ) 目 标 检 测 与 边 缘 支 持 搭 建 分 割 网 络 , 将 全 局
本 研 究 采 用 的 数 据 采 集 时 间 为 2020 年 7 月 24
分 割 问 题 转 换 成 检 测 区 域 内 局 部 分 割 问 题 , 并 结 合
日 ~9 月 11 日 , 采 集 地 点 为 莱 州 明 波 养 殖 试 验 基
Canny 边 缘 支 持 算 法 实 现 了 较 高 精 度 的 鱼 类 分 割 。
[12 ]
地 , 数 据 采 集 装 置 如 图 1 所 示 , 设 备 主 要 由 水 池 、
Yu 等 建 立 了 基 于 注 意 力 的 全 卷 积 实 例 分 割 网
络 , 通 过 串 联 方 式 融 合 低 级 特 征 与 高 级 特 征 , 并 将 摄 像 机 、 显 示 器 和 支 架 组 成 , 水 池 直 径 3.3 m , 高
像 素 位 置 信 息 与 通 道 注 意 力 机 制 相 结 合 , 最 终 解 决 度 64 cm , 水 深 43 cm 。 摄 像 机 使 用 支 架 安 置 在 水 池
上 方 1.87 m 的 高 度 , 在 显 示 中 调 整 摄 像 机 角 度 , 保
了 由 于 鱼 类 遮 挡 、 弯 曲 等 因 素 带 来 的 问 题 , 与 多 种
证 拍 摄 画 面 能 够 覆 盖 整 个 水 面 。 数 据 采 集 以 斑 石 鲷
实 例 分 割 网 络 相 比 具 有 最 佳 的 分 割 精 度 , 实 现 了 鱼
[13 ]
为 对 象 , 每 天 投 喂 两 次 。 利 用 摄 像 机 获 取 鱼 群 摄 食
类 重 量 的 准 确 估 算 。Chang 等 对 水 下 鱼 类 声 纳
前 、 摄 食 中 与 摄 食 后 的 视 频 。 在 获 取 视 频 过 程 中 ,
图 像 进 行 分 割 , 使 用 卷 积 网 络 PreCNN (Prepro ‐
保 持 车 间 走 廊 灯 打 开 , 为 视 频 补 充 适 宜 的 光 照 强
cessing Convolutional Neural Network ) 为 Mask R-
[14 ]
CNN 提 供 标 准 化 的 特 征 图 , 并 通 过 半 监 督 的 学 度 , 并 将 水 池 正 上 方 的 灯 关 闭 , 防 止 拍 摄 画 面 出 现
习 方 式 降 低 标 注 成 本 , 实 现 了 准 确 的 鱼 类 声 纳 图 像 反 光 现 象 , 同 时 , 保 持 水 池 水 面 稳 定 , 减 少 外 界 因
[15 ]
分 割 。 郭 奕 等 为 提 升 分 割 网 络 在 实 际 水 产 养 殖 素 对 水 池 中 水 面 波 动 的 干 扰 。
环 境 图 像 上 对 鱼 类 的 分 割 能 力 , 在 Mask R-CNN 实 获 取 视 频 数 据 后 , 每 隔 一 帧 截 取 一 张 图 像 , 并
[16 ]
删 除 部 分 相 似 图 像 , 使 用 Labelme 软 件 对 图 像 进 行
例 分 割 网 络 的 基 础 上 融 合 SimAM 注 意 力 机 制 ,
像 素 级 别 标 注 。 根 据 鱼 群 摄 食 聚 集 、 非 摄 食 分 散 的
并 在 网 络 数 据 集 Open Images DatasetV6 和 自 建 数 据
特 点 将 数 据 集 标 记 为 两 个 类 别 , 分 别 是 非 遮 挡 重 叠
集 上 进 行 两 次 网 络 预 训 练 , 在 一 定 程 度 上 缓 解 了 网
络 对 真 实 场 景 鱼 类 图 像 分 割 精 度 低 的 问 题 , 提 升 了 鱼 群 (fish1 ) 和 遮 挡 重 叠 鱼 群 (fish2 ) 。 标 记 规 则 :
真 实 环 境 下 的 鱼 类 分 割 精 度 。 当 个 体 鱼 与 其 他 个 体 鱼 或 群 体 鱼 之 间 存 在 明 显 距
上 述 研 究 成 果 表 明 , 基 于 深 度 学 习 的 分 割 方 式 离 , 或 距 离 不 明 显 但 肉 眼 可 明 确 粘 连 边 界 的 情 况 ,
在 水 下 鱼 类 分 割 应 用 中 具 有 明 显 优 势 , 然 而 由 于 鱼 将 每 一 个 个 体 鱼 标 记 为 fish1 ; 当 两 条 鱼 重 叠 面 积 小
群 摄 食 图 像 存 在 更 多 的 聚 集 和 遮 挡 现 象 , 与 非 摄 食 于 1/3 时 , 认 为 两 条 鱼 未 重 叠 , 每 条 个 体 鱼 标 记 为Vol. 5, No. 4 王 鹤 榕 等 : 融 合 VoVNetv2 和 置 换 注 意 力 机 制 的 鱼 群 摄 食 图 像 分 割 方 法 139
1.2   数 据 预 处 理  
鱼 群 摄 食 图 像 中 存 在 目 标 分 布 密 集 、 鱼 群 边 界
模 糊 等 问 题 , 为 数 据 集 的 准 确 标 记 带 来 一 定 影 响 ,
容 易 出 现 不 良 数 据 样 本 。 在 某 些 情 况 下 , 不 良 数 据
样 本 的 破 坏 性 会 变 得 十 分 显 著 , 对 网 络 训 练 造 成 恶
[17 ]
性 影 响 。 为 进 一 步 提 升 数 据 集 质 量 , 同 时 增 强
数 据 多 样 性 , 通 过 数 据 清 洗 与 图 像 增 强 的 方 式 对 数
据 集 进 行 预 处 理 操 作 。
图 1   鱼 群 图 像 采 集 装 置 结 构 图
1.2.1   数 据 清 洗  
Fig. 1 Structure diagram of image acquisition device
数 据 清 洗 是 对 数 据 进 行 重 新 检 查 和 校 正 的 过
fish1 ; 当 个 体 鱼 被 圆 柱 遮 挡 , 露 出 的 部 分 标 记 为
程 , 用 于 删 除 冗 余 、 错 误 的 数 据 信 息 , 提 升 数 据 质
fish1 ; 当 个 体 鱼 被 其 他 鱼 体 遮 挡 , 且 遮 挡 面 积 超 过
[18 ]
量 。 通 过 对 原 始 数 据 集 的 观 察 发 现 , 由 于 原 始
1/3 时 , 将 互 相 遮 挡 、 粘 连 的 整 体 标 记 为 fish2 。 按
图 像 中 存 在 鱼 群 边 界 模 糊 、 鱼 群 分 布 密 集 等 问 题 ,
照 以 上 规 则 对 图 像 进 行 标 注 。 标 记 示 意 图 如 图 2
数据 集中 出现 了标 注不 准确 的不 良图 像数 据 。 如 图 3
所 示 。
右 侧 深 紫 色 标 记 区 域 所 示 , 该 区 域 未 严 格 遵 守 标 注
规 则 , 将 若 干 可 独 立 鱼 群 整 体 进 行 了 标 记 , 此 类 标
记 中 含 有 较 多 的 背 景 像 素 , 如 图 3 (a ) 中 红 色 箭 头
所 示 , 会 对 后 续 网 络 学 习 造 成 干 扰 。 根 据 观 察 到 的
(a ) 个 体 鱼 与 其 他 个 体 鱼 或 群 体 鱼 之 间 存 在 明 显 距 离
现 象 , 针 对 图 像 中 不 良 标 记 问 题 编 写 数 据 清 洗 脚
本 , 统 计 原 始 数 据 集 中 每 张 图 像 目 标 标 注 区 域 的 面
积 分 布 , 如 图 4 所 示 , 并 根 据 分 布 设 定 目 标 面 积 阈
值 , 去 除 离 群 标 记 图 像 数 据 。
(b ) 距 离 不 明 显 但 肉 眼 可 明 确 粘 连 边 界 的 情 况
( a ) 原 始 图 像 ( b ) 不 良 标 记 图 像
(c ) 个 体 鱼 被 圆 柱 遮 挡
图 3   鱼 群 分 割 图 像 不 良 标 记 示 例
Fig. 3 Example of bad labeling in fish feeding
segmentation images
依 据 数 据 清 洗 方 法 中 的 “ 异 常 值 处 理 ” 方 法 ,
(d ) 个 体 鱼 被 其 他 鱼 体 遮 挡 , 且 遮 挡 面 积 超 过 1/3 时
结 合 数 据 集 的 特 点 , 制 定 清 洗 规 则 :1 ) 为 避 免 数
图 2   鱼 群 分 割 数 据 集 标 签 制 作 示 例
据 清 洗 直 接 影 响 大 面 积 聚 集 鱼 群 的 学 习 效 果 , 设 定
Fig. 2 Example of fish school segmentation dataset labeling
主 标 记 数 和 副 标 记 数 , 赋 予 不 同 标 注 面 积 大 小 不 同
最 终 得 到 原 始 数 据 集 1 361 张 , 图 像 大 小 为 的 比 重 。 副 标 记 数 比 重 为 主 标 计 数 的 1/3 , 当 副 标
2 560 ×1 440 , 平 均 每 张 图 像 含 有 65 个 目 标 , 目 标 记 数 大 于 等 于 3 时 , 主 标 计 数 加 1 , 副 标 记 数 清 零 。
数 量 超 过 大 多 数 鱼 类 分 割 数 据 集 , 同 时 , 由 于 采 集 2 ) 当 标 注 面 积 位 于 [9 000 ,25 000 ] 时 , 主 标 计
数 加 1 。3 ) 当 标 注 面 积 位 于 [8 000 ,9 000 ] 时 ,
过 程 中 鱼 类 摄 食 、 游 动 等 行 为 导 致 图 像 局 部 区 域 目
标 分 布 密 集 、 鱼 群 边 界 模 糊 , 为 鱼 群 摄 食 图 像 的 准 此 类 标 记 面 积 相 对 较 小 , 对 于 标 注 质 量 的 影 响 程 度
确 分 割 带 来 挑 战 。 较 小 , 出 现 一 次 副 标 记 数 加 1 。 依 照 此 规 则 遍 历 图140 智 慧 农 业 ( 中 英 文 ) Smart Agriculture Vol. 5, No. 4
像 中 所 有 目 标 , 遍 历 结 束 后 若 当 前 图 片 的 主 标 计 数 像 的 增 强 结 果 如 图 5 所 示 。 通 过 数 据 增 强 , 最 终 数
据 集 扩 充 3 倍 , 按 照 8 ∶2 的 比 例 对 数 据 集 进 行 划
大 于 等 于 3 , 说 明 此 图 像 目 标 存 在 离 群 标 注 的 可 能
分 , 最 终 获 得 训 练 集 数 据 1 612 张 , 测 试 集 数 据 404
性 , 则 清 除 此 图 像 。
张 , 其 中 ,fish1 的 数 量 共 计 116 328 个 ;fish2 的 数
量 共 计 20 924 个 。
( a ) 原 始 图 像 (b ) 平 移+ 亮 度 变 化+ 噪 声
(c ) 翻 转+ 噪 声+ 随 机 点 (d ) 平 移+ 随 机 点+ 噪 声
图 5   原 始 及 数 据 增 强 后 的 鱼 群 摄 食 图 像
Fig. 5 Original and data-augmented fish feeding images
图 4   鱼 群 分 割 图 像 标 记 面 积 统 计 结 果
Fig. 4 Statistics of fish school segmentation image target
1.3   鱼 群 分 割 模 型 构 建  
marker area
实 验 整 体 流 程 如 图 6 所 示 。 方 法 主 要 分 为 两 个
1.2.2   数 据 增 强  
阶 段 : 实 验 阶 段 使 用 数 据 清 洗 和 数 据 增 强 操 作 对 数
数 据 增 强 是 训 练 深 度 神 经 网 络 的 一 个 直 接 且 关
据 集 进 行 预 处 理 , 处 理 后 的 数 据 被 传 输 到
[19 ]
键 因 素 。 数 据 清 洗 后 数 据 集 中 的 数 据 量 下 降 ,
SA_VoVNetv2_RCNN 网 络 中 进 行 训 练 , 训 练 结 束
在 后 续 训 练 过 程 中 存 在 过 拟 合 的 风 险 。 为 避 免 网 络
后 , 保 存 模 型 最 高 权 重 , 并 将 其 用 于 模 型 的 应 用 阶
过 拟 合 现 象 , 同 时 增 强 网 络 训 练 的 稳 定 性 , 实 验 采
段 ; 模 型 应 用 阶 段 , 将 输 入 数 据 传 输 到 训 练 好 的 模
用 5 种 数 据 增 强 方 式 对 数 据 集 进 行 混 合 数 据 增 强 。
型 中 对 目 标 进 行 分 割 , 以 每 种 目 标 类 型 的 数 量 变 化
增 强 方 式 分 别 为 随 机 平 移 、 随 机 翻 转 、 亮 度 变 化 、
作 为 鱼 群 摄 食 行 为 量 化 的 关 键 因 素 , 当 遮 挡 聚 集 鱼
[20 ]
随 机 噪 声 添 加 和 随 机 点 添 加 。 每 张 图 像 增 强 3
群 的 数 量 明 显 上 升 时 说 明 鱼 群 的 聚 集 行 为 增 加 , 鱼
次 , 每 次 随 机 混 合 3 种 数 据 增 强 方 式 , 其 中 一 张 图 群 可 能 发 生 了 摄 食 行 为 。
图 6   鱼 群 摄 食 量 化 方 法 总 体 流 程 图
Fig. 6 The overall flow chart of fish feeding quantification methodVol. 5, No. 4 王 鹤 榕 等 : 融 合 VoVNetv2 和 置 换 注 意 力 机 制 的 鱼 群 摄 食 图 像 分 割 方 法 141
1.3.1  Mask R-CNN 网 络 结 构   特 征 层 ; 第 2 部 分 , 候 选 框 生 成 , 利 用 区 域 建 议 网
[14 ]
Mask R-CNN 由 He 等 于 2017 年 提 出 。
络 生 成 不 同 尺 度 的 锚 框 , 经 过 非 极 大 值 抑 制 算
[21 ]
[23 ]
Mask R-CNN 在 Faster R-CNN 的 基 础 上 添 加 用 于
法 筛 选 候 选 框 , 将 候 选 框 映 射 到 不 同 尺 寸 的 特
分 割 的 掩 膜 生 成 分 支 , 可 以 同 时 完 成 目 标 分 类 、 目 征 图 ; 第 3 部 分 ,RoIAlign 操 作 , 用 双 线 性 插 值 的
标 检 测 与 目 标 分 割 这 3 项 任 务 。
方 法 取 代 RoIPooling 中 直 接 取 整 的 操 作 , 将 候 选 框
Mask R-CNN 的 框 架 如 图 7 所 示 , 主 要 分 为 4 部 内 的 区 域 池 化 为 相 同 的 大 小 ; 第 4 部 分 , 将 特 征 区
分 : 第 1 部 分 , 特 征 图 生 成 , 使 用 主 干 网 络 提 取 图
域 分 别 传 送 给 目 标 检 测 分 支 与 掩 码 生 成 分 支 , 预 测
[22 ]
片 的 特 征 , 结 合 特 征 金 字 塔 获 得 不 同 采 样 率 的 目 标 的 边 界 框 、 类 别 与 掩 码 。
图 7   Mask R-CNN 结 构 图
Fig. 7 Structure of Mask R-CNN
H W
1.3.2   置 换 注 意 力 机 制   1
s = F (X ) = X (i , j ) (1 )
gp k1 ∑∑ k1
H × W
i = 1 j = 1
在 鱼 类 摄 食 图 像 中 不 同 语 义 类 别 之 间 存 在 相 似
X'' = σ ( F (s ) ) ? X = σ (W s + b ) ? X (2 )
k1 c k1 1 1 k1
性 问 题 , 将 注 意 力 机 制 整 合 到 网 络 中 已 被 证 明 可 以
C/2G × 1 × 1 C/2G × 1 × 1
式 中 :W ∈ R ;b ∈ R ; 其 中 ,
[24 ]
1 1
加 强 模 型 的 表 征 能 力 。 通 过 注 意 力 机 制 , 网 络
H 和 W 分 别 表 示 特 征 图 的 高 度 和 宽 度 。
可 以 更 加 有 效 地 关 注 鱼 群 目 标 , 从 而 缓 解 图 像 中 存
在 空 间 注 意 力 分 支 , 首 先 对 特 征 图 采 用 组 归 一
在 的 相 似 性 问 题 。
化 (GN ) 操 作 ; 其 次 通 过 变 换 增 强 分 支 的 输 入 表
[25 ]
置 换 注 意 力 机 制 (Shuffle Attention ,SA ) 是
示 ; 最 终 得 到 空 间 注 意 力 权 重 图 , 为 特 征 层 不 同 像
一 个 高 效 、 轻 量 的 卷 积 神 经 网 络 注 意 力 模 块 。 该 模
素 赋 予 不 同 权 重 , 以 突 出 重 要 区 域 并 抑 制 无 关 区
块 采 用 置 换 单 元 实 现 空 间 注 意 力 和 通 道 注 意 力 的 有
域 。 具 体 实 现 方 法 如 公 式 (3 ) 所 示 。
效 结 合 , 其 结 构 如 图 8 所 示 。
X'' = σ [W ? GN (X ) + b ] ? X (3 )
k2 2 k2 2 k2
模 块 首 先 将 C 维 特 征 图 X 沿 通 道 维 度 分 为 G
C/2G × 1 × 1 C/2G × 1 × 1
式 中 :W ∈ R ;b ∈ R 。
2 2
C/G × H × W
组 ,X = [ X ,... ,X ] ∈ R , 将 每 组 特 征 沿
1 G
在 完 成 两 种 注 意 力 计 算 后 , 对 所 有 子 特 征 进 行
C/2G × H × W
通 道 维 度 拆 分 成 两 组 X ,X ∈ R , 分 别 进
k1 k2
聚 合 。 模 块 首 先 采 用 拼 接 操 作 融 合 两 种 特 征 ; 其 次
行 通 道 和 空 间 维 度 的 学 习 。
利 用 置 换 单 元 实 现 通 道 维 度 的 组 间 通 信 ; 最 终 得 到
在 通 道 注 意 力 的 学 习 分 支 , 首 先 采 用 全 局 平 均
与 输 入 特 征 图 相 同 大 小 的 特 征 图 。
池 化 (F ) 嵌 入 全 局 信 息 , 生 成 通 道 统 计 权 重
gp
1.3.3   改 进 的 VoVNetv2 结 构  
C/2G × 1 × 1
[26 ]
s ∈ R ; 其 次 通 过 归 一 化 操 作 (F ) 和 Sig ‐
c 以 ResNet 为 骨 干 网 络 的 Mask R-CNN 网 络
moid 激 活 函 数 [ σ (?) ] 获 得 通 道 注 意 力 的 最 终 输
结 构 在 分 割 非 摄 食 鱼 群 图 像 时 效 果 较 好 , 但 在 具 有
出 , 实 现 不 同 特 征 通 道 表 达 能 力 的 强 化 。 具 体 实 现
多 尺 度 目 标 、 鱼 群 边 界 模 糊 的 摄 食 图 像 上 的 分 割 精
[27 ] [28 ]
方 法 如 公 式 (1 ) 和 公 式 (2 ) 所 示 。 度 还 有 待 进 一 步 加 强 。VoVNetv2 在 VoVNet142 智 慧 农 业 ( 中 英 文 ) Smart Agriculture Vol. 5, No. 4
仅 在 最 后 一 层 一 次 性 聚 合 所 有 的 特 征 。VoVNetv2
的 特 征 聚 合 能 够 有 效 实 现 不 同 层 次 特 征 的 融 合 , 提
取 多 样 化 的 特 征 表 示 , 从 而 更 好 地 捕 获 鱼 群 摄 食 图
像 中 不 同 尺 寸 和 形 状 的 鱼 群 , 实 现 图 像 中 目 标 的 准
确 识 别 与 分 割 。
图 8   Shuffle attention 结 构 图
VoVNetv2 中 OSA 模 块 如 图 9 (a ) 所 示 。 该 模
Fig. 8 Structure of shuffle attention
块 在 上 一 版 本 的 基 础 上 添 加 两 处 改 进 , 首 先 通 过 添
加 残 差 连 接 解 决 深 层 网 络 退 化 问 题 ; 其 次 通 过 添 加
的 基 础 上 提 出 , 是 一 种 具 有 较 强 计 算 能 力 的 骨 干 网
通 道 注 意 模 块 (Effective Squeeze and Excitation
络 。VoVNetv2 由 一 次 聚 合 模 块 (One-Shot Aggrega ‐
Block ,eSE ) 进 一 步 提 高 VoVNet 性 能 。VoVNetv2
tion ,OSA ) 组 成 。 该 模 块 由 连 续 的 卷 积 层 组 成 ,
常 见 的 结 构 配 置 如 表 1 所 示 。
( a ) OSA 模 块 ( b ) 改 进 的 OSA 模 块
图 9   改 进 前 后 的 OSA 模 块 结 构 图
Fig. 9 Structure of the original and improved OSA module
表 1 VoVNetv2 网 络 配 置
Table 1 The network configuration of VoVNetv2
阶 段 VoVNetv2-39 VoVNetv2-57 VoVNetv2-99
3 × 3 conv , 64 , s = 2 3 × 3 conv , 64 , s = 2 3 × 3 conv , 64 , s = 2
起 始
3 × 3 conv , 64 , s = 1 3 × 3 conv , 64 , s = 1 3 × 3 conv , 64 , s = 1
阶 段 1
3 × 3 conv , 128 , s = 1 3 × 3 conv , 128 , s = 1 3 × 3 conv , 128 , s = 1
OSA 模 块 3 × 3 conv , 128 , ×5 3 × 3 conv , 128 , ×5 3 × 3 conv , 128 , ×5
é ù é ù é ù
ê ê ú ú ê ê ú ú ê ê ú ú
× 1 × 1 × 1
ê ê ú ú ê ê ú ú ê ê ú ú
concat&1 × 1 conv , 256 concat&1 × 1 conv , 256 concat&1 × 1 conv , 256
阶 段 2 ? ? ? ? ? ?
OSA 模 块 3 × 3 conv , 160 , ×5 3 × 3 conv , 160 , ×5 3 × 3 conv , 160 , ×5
é ù é ù é ù
ê ê ú ú ê ê ú ú ê ê ú ú
× 1 × 1 × 3
ê ê ú ú ê ê ú ú ê ê ú ú
concat&1 × 1 conv , 512 concat&1 × 1 conv , 512 concat&1 × 1 conv , 512
阶 段 3 ? ? ? ? ? ?
OSA 模 块 3 × 3 conv , 192 , ×5 3 × 3 conv , 192 , ×5 3 × 3 conv , 192 , ×5
é ù é ù é ù
ê ê ú ú ê ê ú ú ê ê ú ú
ê ê ú ú × 2 ê ê ú ú × 4 ê ê ú ú × 9
concat&1 × 1 conv , 768 concat&1 × 1 conv , 768 concat&1 × 1 conv , 768
阶 段 4 ? ? ? ? ? ?
OSA 模 块 3 × 3 conv , 224 , ×5 3 × 3 conv , 224 , ×5 3 × 3 conv , 224 , ×5
é ù é ù é ù
ê ê ú ú ê ê ú ú ê ê ú ú
ê ê ú ú × 2 ê ê ú ú × 3 ê ê ú ú × 3
concat&1 × 1 conv , 1 024 concat&1 × 1 conv , 1 024 concat&1 × 1 conv , 1 024
阶 段 5 ? ? ? ? ? ?Vol. 5, No. 4 王 鹤 榕 等 : 融 合 VoVNetv2 和 置 换 注 意 力 机 制 的 鱼 群 摄 食 图 像 分 割 方 法 143
表 2 鱼 群 分 割 结 果 评 价 指 标
eSE 通 道 注 意 力 模 块 关 注 特 征 图 的 全 局 特 征 ,
Table 2 Evaluation metric of fish school segmentation
但 其 忽 略 了 对 图 像 中 像 素 点 之 间 的 关 注 , 导 致 特 征
指 标 描 述
图 的 像 素 关 联 关 系 不 能 被 充 分 提 取 , 影 响 图 像 分 割
mAP IoU=0.5 ∶0.05 ∶0.95 时 的 平 均 精 度
的 精 度 。 为 利 用 有 限 资 源 实 现 更 多 的 特 征 映 射 , 实
AP50 IoU=0.5
验 将 OSA 模 块 中 的 通 道 注 意 模 块 替 换 成 更 加 轻 量
AP75 IoU=0.75
且 有 效 的 SA 注 意 力 机 制 , 以 便 网 络 能 够 更 加 关 注
APs 小 型 目 标 ( 面 积<322 ) 的 AP 值
图 像 中 鱼 群 所 在 位 置 , 减 少 噪 声 等 不 相 关 信 息 对 分
APm 中 型 目 标 (322< 面 积<962 ) 的 AP 值
割 结 果 的 影 响 。OSA 模 块 改 进 后 的 结 构 如 图 9 (b )
Apl 大 型 目 标 (962< 面 积 ) 的 AP 值
所 示 。
2 结 果 与 分 析
1.4   分 割 评 价 指 标  
为 验 证 模 型 的 性 能 , 使 用 模 型 参 数 量 和 平 均 精
2.1   模 型 参 数 设 置  
度 (Average Precision ,AP ) 作 为 模 型 的 评 估 指 标 。
实 验 迭 代 30 000 次 , 初 始 学 习 率 设 置 为 0.01 ,
模 型 的 参 数 量 是 指 在 模 型 训 练 过 程 中 需 要 训 练 的 参
采 用 学 习 率 衰 减 策 略 , 当 训 练 的 迭 代 次 数 为
数 总 数 量 , 用 来 描 述 模 型 的 大 小 。AP 是 评 价 深 度
24 000 ~29 000 次 时 , 以 0.1 的 比 例 缩 小 学 习 率 ,
学 习 分 割 模 型 性 能 最 常 见 的 指 标 之 一 , 其 计 算 方
batch size 设 置 为 4 , 优 化 器 为 SGD 。 实 验 基 于 Py ‐
法 为 :
torch 深 度 学 习 框 架 训 练 模 型 , 在 Ubuntu20.04.3 操
交 并 比 (Intersection over Union ,IoU ) : 表 示
作 系 统 上 运 行 。
两 个 目 标 区 域 的 重 叠 程 度 , 其 大 小 为 两 个 区 域 重 叠
的 面 积 与 两 个 区 域 总 面 积 之 比 。 2.2   数 据 预 处 理 对 分 割 精 度 的 影 响  
真 正 例 (True Positive , TP ) :IoU> 某 一 阈 值
在 数 据 的 预 处 理 阶 段 , 采 用 数 据 清 洗 和 数 据 增
时 成 功 检 测 到 的 目 标 数 量 。
强 的 方 式 处 理 数 据 , 以 去 除 数 据 集 中 的 不 良 数 据 样
假 正 例 (False Positive , FP ) :IoU≤ 某 一 阈 值
本 , 同 时 增 加 训 练 数 据 的 多 样 性 , 提 升 模 型 的 鲁 棒
的 时 候 检 测 到 的 目 标 数 量 。
性 和 泛 化 能 力 。 为 验 证 数 据 预 处 理 对 网 络 在 图 像 分
假 负 例 (False Negative , FN ) : 没 有 检 测 到 的
割 任 务 中 的 影 响 , 在 相 同 训 练 条 件 下 对 处 理 前 后 的
目 标 数 量 。
数 据 集 进 行 训 练 。
查 准 率 (Precision ) 的 计 算 如 公 式 (4 ) 所 示 。
表 3 中 列 出 数 据 处 理 前 后 在 原 始 Mask R-CNN
TP
Precision = (4 )
网 络 上 的 分 割 精 度 。 从 分 割 结 果 中 可 以 看 出 , 经 过
TP + FP
数 据 清 洗 后 , 网 络 的 平 均 分 割 精 度 为 63.218% , 相
查 全 率 (Recall ) 的 计 算 如 公 式 (5 ) 所 示 。
TP 较 于 原 始 数 据 集 提 升 7.018% , 经 过 清 洗 和 增 强 后 ,
Recall = (5 )
TP + FN
网 络 对 数 据 集 的 平 均 分 割 精 度 为 67.284% , 相 较 于
P-R 曲 线 : 查 准 率 随 着 查 全 率 增 加 的 变 化 曲 线 。
原 始 数 据 集 提 升 11.084% , 相 较 于 清 洗 后 数 据 集 的
AP 的 大 小 为 P-R 曲 线 下 半 部 分 的 面 积 , 其 计 算
精 度 进 一 步 提 升 4.066% 。 数 据 预 处 理 对 于 图 像 分 割
如 公 式 (6 ) 所 示 。
精 度 的 提 升 具 有 积 极 作 用 。 通 过 有 效 的 数 据 清 洗 和
1
AP = p (r )dr (6 )
数 据 增 强 , 能 够 提 高 模 型 对 图 像 内 容 的 理 解 和 表 达

0
能 力 , 从 而 实 现 更 好 的 分 割 结 果 。
式 中 :p 表 示 查 准 率 的 值 ;r 表 示 查 全 率 的 值 。
实 验 数 据 集 为 COCO 格 式 , 其 平 均 分 割 精 度 的 描 述
2.3   改 进 骨 干 网 络 的 对 比 实 验  
如 表 2 所 示 。
实 验 使 用 以 ResNet50 为 骨 干 网 络 的 Mask R-
CNN 作 为 实 验 基 线 , 得 到 网 络 的 基 准 分 割 精 度 和144 智 慧 农 业 ( 中 英 文 ) Smart Agriculture Vol. 5, No. 4
表 3 数 据 预 处 理 前 后 鱼 群 分 割 精 度 对 比
模 型 参 数 量 。
Table 3 Comparison of fish school segmentation accuracy be ‐
VoVNetv2 作 为 一 种 基 于 注 意 力 机 制 的 轻 量 级
fore and after data preprocess
卷 积 神 经 网 络 , 能 够 更 好 地 关 注 图 像 中 的 关 键 信
预 处 理 方 式 mAP AP50 AP75 APs APm APl
息 , 通 过 多 尺 度 特 征 融 合 模 块 有 效 地 将 不 同 层 级 的
无 56.200 79.421 67.694 29.384 57.247 62.929
特 征 进 行 融 合 , 具 有 更 加 丰 富 的 特 征 表 示 , 将
数 据 清 洗 63.218 85.584 75.698 67.920 63.628 68.854
Mask R-CNN 的 骨 干 网 络 替 换 成 不 同 配 置 的
数 据 清 洗+ 增 强 67.284 93.265 83.317 35.457 68.135 75.056
VoVNetv2 进 行 训 练 , 其 结 果 如 表 4 所 示 。
表 4 改 进 骨 干 网 络 在 鱼 群 摄 食 分 割 数 据 集 上 的 分 割 结 果 对 比
Table4 Comparison of segmentation results of the improved backbone networks on fish feeding segmentation dataset
骨 干 网 络 mAP AP50 AP75 APs APm APl 参 数 量/M
ResNet50 67.284 93.265 83.317 35.457 68.135 75.056 44.3
VoVNetv2-39 69.795 93.382 85.457 35.878 70.792 75.716 45.7
VoVNetv2-57 70.624 93.828 86.959 37.708 71.447 77.152 62.0
VoVNetv2-99 71.580 94.151 88.369 36.168 72.363 77.860 90.0
SA_VoVNetv2-39 71.014 93.864 87.081 38.231 71.967 76.095 42.1
由 表 4 可 知 , 使 用 VoVNetv2 作 为 骨 干 网 络 时 dInst 、 SOLOv2 分 别 提 升 3.982% 、 12.068% 和
18.258% 。
分 割 精 度 较 基 准 网 络 上 升 2.511% , 但 同 时 也 增 加 了
模 型 的 参 数 量 。 置 换 注 意 力 机 制 不 仅 能 够 保 证 模 型
表 5 不 同 模 型 在 鱼 群 摄 食 分 割 数 据 集 上 的 分 割 结 果 对 比
Table 5 Comparison of segmentation results of different mod ‐
的 精 度 , 而 且 能 够 减 少 模 型 的 参 数 量 。 实 验 将
els on fish feeding segmentation dataset
VoVNetv2-39 的 eSE 模 块 改 进 为 置 换 注 意 力 机 制 ,
结 果 显 示 , 其 精 度 与 未 添 加 SA 注 意 力 机 制 时 进 一 网 络 mAP AP50 AP75 APs APm APl
SOLOv2 52.756 85.905 63.905 16.737 53.644 69.141
步 提 升 1.219% , 参 数 量 下 降 7.9% , 同 时 , 该 模 型
CondInst 58.946 92.196 73.463 23.803 60.100 71.053
的 分 割 精 度 超 过 结 构 更 深 的 VoVNetv2-57 模 型 , 虽
BlendMask 67.032 93.261 82.548 34.583 67.962 76.676
然 较 低 于 VoVNetv2-99 的 分 割 精 度 , 但 模 型 参 数 量
SA_VoVNetv2-39_RCNN 71.014 93.864 87.081 38.231 71.967 76.095
相 较 于 VoVNetv2-99 下 降 53% , 实 现 了 精 度 和 轻 量
化 的 平 衡 。
为 直 观 显 示 网 络 的 分 割 效 果 , 对 不 同 模 型 的 分
综 合 以 上 结 果 说 明 , 通 过 将 置 换 注 意 力 机 制 与 割 结 果 进 行 可 视 化 , 如 图 10 所 示 。 第 1 行 为 鱼 群 非
VoVNetv2 网 络 相 结 合 , 使 得 改 进 后 的 模 型 与 基 线 摄 食 图 像 ; 后 3 行 为 鱼 群 摄 食 过 程 中 的 图 像 。 图 10
中 红 框 圈 出 了 明 显 分 割 错 误 的 部 分 。 从 分 割 结 果 中
模 型 相 比 精 度 从 67.284% 增 加 到 71.014% , 同 时 参
可 以 看 出 , 本 研 究 提 出 的 分 割 方 法 对 图 像 中 绝 大 部
数 量 下 降 2.2 M , 证 明 提 出 的 模 型 能 够 在 减 少 模 型
参 数 量 的 同 时 保 证 更 优 质 的 分 割 性 能 。 分 目 标 做 出 了 正 确 的 分 类 与 分 割 , 其 余 算 法 均 出 现
不 同 情 况 的 错 误 。 进 一 步 证 实 本 研 究 提 出 的 模 型 性
2.4   与 其 他 分 割 算 法 的 性 能 比 较  
能 在 分 割 鱼 群 摄 食 图 像 方 面 表 现 卓 越 。
为 验 证 本 研 究 方 法 在 鱼 群 摄 食 图 像 分 割 效 果 上
图 11 显 示 了 4 个 分 割 网 络 在 训 练 过 程 中 总 损 失
的 优 越 性 , 使 用 相 同 的 数 据 集 及 训 练 参 数 , 对 比 3
随 迭 代 次 数 的 变 化 情 况 。 随 着 迭 代 轮 数 的 增 加 , 4
[29 ]
种 代 表 性 的 实 例 分 割 网 络 SOLOv2 、 Con ‐
个 网 络 的 损 失 均 呈 现 下 降 趋 势 , SOLOv2 和
[30 ] [31 ]
dInst 、BlendMask 和 本 研 究 提 出 模 型 的 鱼 群
SA_VoVNetv2-39_RCNN 的 收 敛 速 度 明 显 大 于
分 割 效 果 。 从 表 5 可 以 看 出 , 本 研 究 提 出 的 模 型 在 BlendMask 和 CondInst , 虽 然 SA_VoVNetv2-
各 种 目 标 尺 度 上 均 具 有 最 高 的 分 割 精 度 , 在 鱼 群 分 39_RCNN 收 敛 的 速 度 相 较 于 SOLOv2 较 低 , 但 其
割 数 据 集 上 平 均 分 割 精 度 相 较 于 BlendMask 、Con ‐ 分 割 精 度 比 SOLOv2 具 有 明 显 的 提 升 , 说 明Vol. 5, No. 4 王 鹤 榕 等 : 融 合 VoVNetv2 和 置 换 注 意 力 机 制 的 鱼 群 摄 食 图 像 分 割 方 法 145
( a ) 原 图 ( b ) 标 注 图 ( c ) SA_VoVNetv2_RCNN ( d ) BlendMask ( e ) SOLOv2 ( f ) CondInst
注 : 第 一 行 为 非 摄 食 阶 段 图 像 , 后 三 行 为 摄 食 阶 段 图 像 。
图 10   各 模 型 在 鱼 群 摄 食 图 像 上 的 分 割 结 果 可 视 化
Fig. 10 Visualized segmentation results for each model on the fish school feeding images
SA_VoVNetv2-39_RCNN 很 好 地 平 衡 了 网 络 学 习 的 未 来 的 研 究 中 , 将 针 对 以 上 问 题 进 行 探 讨 , 进 一 步
速 度 和 网 络 的 性 能 , 使 得 模 型 可 以 更 好 地 完 成 鱼 群 提 升 算 法 对 鱼 群 摄 食 过 程 中 的 分 割 准 确 度 。
摄 食 图 像 的 分 割 。
2.6   鱼 群 摄 食 行 为 量 化 分 析  
在 实 际 养 殖 场 景 中 , 鱼 群 的 聚 集 程 度 与 摄 食 行
为 之 间 具 有 显 著 的 相 关 性 , 且 鱼 群 聚 集 程 度 与 不 同
类 型 的 鱼 群 数 量 和 像 素 数 量 之 间 同 样 存 在 密 切 关
联 。 通 过 统 计 不 同 类 型 鱼 群 ( 非 遮 挡 重 叠 鱼 群 fish1
和 遮 挡 重 叠 鱼 群 fish2 ) 的 数 量 和 像 素 数 量 变 化 情
况 , 可 以 判 断 鱼 群 的 分 散 聚 集 程 度 , 进 一 步 实 现 对
鱼 群 摄 食 行 为 的 判 断 。
为 评 估 本 研 究 提 出 的 SA_VoVNetv2-39_RCNN
图 11   不 同 分 割 模 型 在 鱼 群 摄 食 分 割 数 据 集 上 的 损 失
方 法 在 实 际 应 用 中 的 效 果 , 对 一 段 时 长 3 min 的 鱼
Fig. 11 Loss function of different segmentation models on fish
群 视 频 进 行 分 割 。 在 视 频 中 期 , 投 饵 操 作 使 得 鱼 群
school feeding dataset
从 非 摄 食 状 态 转 为 摄 食 状 态 。 获 取 这 段 时 间 中 两 种
类 型 的 鱼 群 数 量 变 化 曲 线 。 图 13 展 示 了 3 min 内 两
2.5   模 型 局 限 性 分 析  
种 鱼 群 类 型 的 数 量 变 化 情 况 ; 图 14 展 示 了 3 min 内
两 种 鱼 群 类 型 的 像 素 数 量 变 化 情 况 。 可 以 看 出 , 在
虽 然 本 研 究 所 提 出 的 方 法 能 够 对 鱼 群 图 像 的 分
非 摄 食 阶 段 , 鱼 群 聚 集 程 度 较 低 , 非 遮 挡 重 叠 鱼 群
割 取 得 较 好 效 果 , 但 仍 存 在 一 些 局 限 性 。 首 先 , 算
法 存 在 一 些 错 误 分 割 的 情 况 。 图 12 给 出 了 错 误 分 (fish1 ) 的 数 量 显 著 多 于 遮 挡 重 叠 鱼 群 (fish2 ) 的
数 量 , 且 fish1 像 素 的 数 量 较 多 ; 在 摄 食 阶 段 , 非
割 的 示 意 图 。 从 图 12 中 可 以 看 出 , 当 鱼 群 与 背 景
遮 挡 重 叠 鱼 群 (fish1 ) 的 数 量 和 像 素 数 量 下 降 , 遮
颜 色 接 近 或 鱼 群 颜 色 较 浅 时 , 会 出 现 目 标 漏 检 现
象 ; 当 目 标 附 近 存 在 阴 影 时 , 会 出 现 阴 影 分 割 错 误 挡 重 叠 鱼 群 (fish2 ) 的 数 量 和 像 素 数 量 上 升 , 鱼 群
或 分 割 面 积 超 出 鱼 群 面 积 的 情 况 ; 由 于 水 面 波 动 或 的 聚 集 程 度 明 显 增 强 。
饲 料 遮 挡 等 原 因 , 会 出 现 分 割 类 别 错 误 的 情 况 。 在 实 验 结 果 表 明 ,SA_VoVNetv2-39_RCNN 方 法146 智 慧 农 业 ( 中 英 文 ) Smart Agriculture Vol. 5, No. 4
( a ) 原 图 ( b ) 标 记 图 ( c ) 改 进 模 型 分 割 结 果 图
注 : 第 2 列 和 第 3 列 图 像 中 红 框 内 为 改 进 模 型 的 错 误 分 割 区 域 , 文 字 为 错 误 分 割 类 型 标 注 。
图 12   改 进 模 型 (SA_VoVNetv2-39_RCNN ) 在 鱼 群 摄 食 分 割 数 据 集 上 的 错 误 分 割 结 果 示 意 图
Fig. 12 Error segmentation results on fish school feeding dataset for the improved model ( SA_VoVNetv2-39_RCNN )
图 13   不 同 摄 食 状 态 下 鱼 群 类 别 变 化 曲 线 图
图 14   不 同 摄 食 状 态 下 鱼 群 像 素 数 量 变 化 曲 线 图
Fig.13 Curve of fish school category change under different
Fig. 14 Curve of fish school pixel change under different feed ‐
feeding states
ing states
可 以 有 效 地 应 用 于 养 殖 场 景 下 的 鱼 群 分 割 。 通 过 分
食 行 为 的 量 化 分 析 , 为 鱼 群 摄 食 分 析 领 域 的 研 究 提
析 两 种 类 型 鱼 群 的 数 量 及 像 素 数 量 的 变 化 趋 势 , 推
供 了 有 力 支 持 , 为 未 来 的 养 殖 管 理 和 行 为 研 究 带 来
断 鱼 群 的 聚 集 程 度 , 进 一 步 实 现 对 鱼 群 摄 食 行 为 的
了 新 的 可 能 性 。 主 要 结 论 如 下 :
判 断 , 从 而 为 相 关 领 域 的 研 究 提 供 更 丰 富 的 数 据 支
1 ) 构 建 了 养 殖 场 景 下 鱼 群 摄 食 图 像 分 割 数 据
持 和 理 论 依 据 。
集 。 鱼 群 分 割 数 据 集 目 标 数 量 多 、 鱼 群 边 界 模 糊 ,
3 结 论
易 产 生 不 良 标 记 , 首 先 根 据 数 据 特 点 对 数 据 集 进 行
清 洗 , 过 滤 可 能 影 响 模 型 学 习 的 图 像 ; 其 次 对 数 据
在 本 研 究 中 , 面 对 养 殖 场 景 下 鱼 群 摄 食 图 像 分
集 进 行 平 移 、 翻 转 等 混 合 扩 充 操 作 , 增 加 样 本 数
割 的 挑 战 , 提 出 了 一 种 融 合 VoVNetv2 和 置 换 注 意
量 , 提 高 模 型 的 鲁 棒 性 和 泛 化 能 力 。
力 机 制 的 SA_VoVNetv2_RCNN 实 例 分 割 算 法 , 实
2 ) 提 出 了 基 于 深 度 学 习 的 鱼 群 摄 食 图 像 分 割
现 了 对 鱼 群 的 准 确 分 割 。 算 法 不 仅 取 得 了 显 著 的 分
割 精 度 提 升 , 而 且 在 实 际 应 用 中 成 功 实 现 了 鱼 群 摄 算 法 SA_VoVNetv2_RCNN 。 算 法 通 过 引 入 轻 量 级Vol. 5, No. 4 王 鹤 榕 等 : 融 合 VoVNetv2 和 置 换 注 意 力 机 制 的 鱼 群 摄 食 图 像 分 割 方 法 147
labv3+ 水 下 鱼 类 分 割 方 法 [J]. 电 子 测 量 与 仪 器 学 报 ,
骨 干 VoVNetv2 代 替 Mask R-CNN 原 有 的 主 干 网 络 ,
2022, 36(10): 208-216.
同 时 优 化 VoVNetv2 结 构 , 通 过 融 合 轻 量 级 注 意 力
TIAN Z X, LIAO W, MAO J, et al. Improved Deeplabv3+
机 制 实 现 更 加 精 准 的 鱼 群 摄 食 图 像 分 割 。 实 验 结 果
underwater fish segmentation method combining with
edge supervision[J]. Journal of electronic measurement
显 示 , 本 研 究 提 出 的 算 法 对 鱼 群 数 据 集 的 分 割 精 度
and instrumentation, 2022, 36(10): 208-216.
达 71.014% , 与 SOLOv2 、BlendMask 、CondInst 相
[ 9 ] CHEN L C, ZHU Y K, PAPANDREOU G, et al. Encoder-
decoder with atrous separable convolution for semantic
比 分 别 提 升 18.258% 、 3.982% 、 12.068% , 同 时 ,
image segmentation[C]// Computer Vision-ECCV 2018:
通 过 置 换 注 意 力 机 制 的 改 进 , 模 型 参 数 量 从 原 始 的
15th European Conference. New York, USA: ACM, 2018:
45.7 M 下 降 到 42.1 M , 参 数 量 下 降 7.9% , 实 现 了 833-851.
[10] WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional
精 度 和 轻 量 化 的 平 衡 。
block attention module[M]// Computer vision-ECCV
本 研 究 实 现 了 鱼 群 摄 食 行 为 的 量 化 。 将 算 法 应
2018. Cham: Springer International Publishing, 2018:
3-19.
用 于 鱼 群 视 频 , 对 视 频 中 不 同 类 型 的 鱼 群 进 行 分
[11] 覃 学 标, 黄 冬 梅, 宋 巍, 等 . 基 于 目 标 检 测 及 边 缘 支 持 的
割 , 通 过 不 同 类 别 鱼 群 的 类 别 数 量 和 像 素 数 量 变 化
鱼 类 图 像 分 割 方 法 [J]. 农 业 机 械 学 报 , 2023, 54(1):
实 现 鱼 群 摄 食 行 为 的 量 化 分 析 , 为 鱼 群 摄 食 分 析 领 280-286.
QIN X B, HUANG D M, SONG W, et al. Fish image seg ‐
域 的 研 究 提 供 了 有 力 的 支 持 。
mentation method based on object detection and edge sup ‐
port[J]. Transactions of the Chinese society for agricultur ‐
利 益 冲 突 声 明 : 本 研 究 不 存 在 研 究 者 以 及 与 公 开
al machinery, 2023, 54(1): 280-286.
研 究 成 果 有 关 的 利 益 冲 突 。
[12] YU X N, WANG Y Q, LIU J C, et al. Non-contact weight
estimation system for fish based on instance segmenta ‐
tion[J]. Expert systems with applications, 2022, 210: ID
参 参 考 考 文 文 献 献 :
118403.
[13] CHANG C C, WANG Y P, CHENG S C. Fish segmenta ‐
[ 1 ] 李 道 亮, 刘 畅 . 人 工 智 能 在 水 产 养 殖 中 研 究 应 用 分 析 与
未 来 展 望[J]. 智 慧 农 业( 中 英 文), 2020, 2(3): 1-20. tion in sonar images by mask R-CNN on feature maps of
LI D L, LIU C. Recent advances and future outlook for ar ‐ conditional random fields[J]. Sensors, 2021, 21(22): ID
tificial intelligence in aquaculture[J]. Smart agriculture, 7625.
[14] HE K M, GKIOXARI G, DOLLAR P, et al. Mask R-
2020, 2(3): 1-20.
CNN[C]// 2017 IEEE International Conference on Com ‐
[ 2 ] 杨 玲 . 基 于 机 器 视 觉 的 工 厂 化 鱼 群 摄 食 行 为 智 能 分 析 方
puter Vision (ICCV). Piscataway, New Jersey, USA:
法 研 究[D]. 北 京: 中 国 农 业 大 学, 2022.
YANG L. Computer vision technologies for fish school IEEE, 2017: 2980-2988.
feeding behavior analysis in industrial aquaculture[D]. [15] 郭 奕, 黄 佳 芯, 邓 博 奇, 等 . 改 进 Mask R-CNN 的 真 实 环
Beijing: China Agricultural University, 2022. 境 下 鱼 体 语 义 分 割 [J]. 农 业 工 程 学 报 , 2022, 38(23):
162-169.
[ 3 ] LIU H Y, LIU T, GU Y Z, et al. A high-density fish school
GUO Y, HUANG J X, DENG B Q, et al. Semantic seg ‐
segmentation framework for biomass statistics in a deep-
sea cage[J]. Ecological informatics, 2021, 64: ID 101367. mentation of the fish bodies in real environment using im ‐
[ 4 ] ZHANG L, WANG J P, DUAN Q L. Estimation for fish proved Mask-RCNN model[J]. Transactions of the Chi ‐
mass using image analysis and neural network[J]. Com ‐ nese society of agricultural engineering, 2022, 38(23):
puters and electronics in agriculture, 2020, 173: ID 162-169.
[16] YANG L, ZHANG R, LI L, et al. SimAM: A Simple, Pa ‐
105439.
rameter-Free Attention Module for Convolutional Neural
[ 5 ] KHALID EL MOUTAOUAKIL, NOUREDDINE FALIH.
Deep learning-based classification of cattle behavior using Networks[C/OL]// Proceedings of the 38 th International
accelerometer sensors[J]. IAES international journal of ar ‐ Conference on Machine Learning. New York, USA:
tificial intelligence, 2024, 13(1): 524-5532. PMLR, 2021: 11863-11874.
[ 6 ] ZHANG T W, ZHANG X L. A mask attention interaction [17] VARKARAKIS V, CORCORAN P. Dataset cleaning: A
and scale enhancement network for SAR ship instance cross validation methodology for large facial datasets us ‐
ing face recognition[C]// 2020 Twelfth International Con ‐
segmentation[J]. IEEE geoscience and remote sensing let ‐
ters, 2022, 19: 1-5. ference on Quality of Multimedia Experience (QoMEX).
[ 7 ] ALSHDAIFAT N F F, TALIB A Z, OSMAN M A. Im ‐ Piscataway, New Jersey, USA: IEEE, 2020: 1-6.
proved deep learning framework for fish segmentation in [18] 姜 波 . 基 于 计 算 机 视 觉 与 深 度 学 习 的 奶 牛 跛 行 检 测 方 法
underwater videos[J]. Ecological informatics, 2020, 59: 研 究[D]. 杨 凌: 西 北 农 林 科 技 大 学, 2020.
ID 101121. JIANG B. Detection of dairy cow lameness based on com ‐
[ 8 ] 田 志 新, 廖 薇, 茅 健, 等 . 融 合 边 缘 监 督 的 改 进 Deep ‐ puter vision and deep learning[D]. Yangling: Northwest A 148 智 慧 农 业 ( 中 英 文 ) Smart Agriculture Vol. 5, No. 4
& F University, 2020. USA: IEEE, 2021: 2235-2239.
[19] WU S F, CHANG M C, LYU S W, et al. FlagDetSeg: [26] HE K M, ZHANG X Y, REN S Q, et al. Deep residual
Multi-nation flag detection and segmentation in the learning for image recognition[C]// 2016 IEEE Confer ‐
wild[C]// 2021 17th IEEE International Conference on Ad ‐ ence on Computer Vision and Pattern Recognition
vanced Video and Signal Based Surveillance (AVSS). Pis ‐ (CVPR). Piscataway, New Jersey, USA: IEEE, 2016:
cataway, New Jersey, USA: IEEE, 2021: 1-8. 770-778.
[20] KAMILARIS A, PRENAFETA-BOLDú F X. Deep learn ‐ [27] LEE Y, PARK J. CenterMask: Real-time anchor-free in ‐
ing in agriculture: A survey[J]. Computers and electronics stance segmentation[C]// 2020 IEEE/CVF Conference on
in agriculture, 2018, 147: 70-90. Computer Vision and Pattern Recognition (CVPR). Piscat ‐
[21] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: away, New Jersey, USA: IEEE, 2020: 13906-13915.
Towards real-time object detection with region proposal [28] LEE Y, HWANG J W, LEE S, et al. An energy and GPU-
networks[J]. IEEE transactions on pattern analysis and computation efficient backbone network for real-time ob ‐
machine intelligence, 2017, 39(6): 1137-1149. ject detection[C]// 2019 IEEE/CVF Conference on Com ‐
[22] LIN T Y, DOLLAR P, GIRSHICK R, et al. Feature pyra ‐ puter Vision and Pattern Recognition Workshops
mid networks for object detection[C]// 2017 IEEE Confer ‐ (CVPRW). Piscataway, New Jersey, USA: IEEE, 2019:
ence on Computer Vision and Pattern Recognition 752-760.
(CVPR). Piscataway, New Jersey, USA: IEEE, 2017: [29] WANG X L, ZHANG R F, KONG T, et al. SOLOv2: Dy ‐
2117-2125. namic and fast instance segmentation[C]// Proceedings of
[23] NEUBECK A, VAN GOOL L. Efficient non-maximum the 34th International Conference on Neural Information
suppression[C]//18th International Conference on Pattern Processing Systems. New York, USA: ACM, 2020: 17721-
Recognition (ICPR''06). Piscataway, New Jersey, USA: 17732.
IEEE, 2006: 850-855. [30] TIAN Z, SHEN C H, CHEN H. Conditional convolutions
[24] CHEN Y Y, LIU H H, YANG L, et al. A lightweight detec ‐ for instance segmentation[M]// Computer vision-ECCV
tion method for the spatial distribution of underwater fish 2020. Cham: Springer International Publishing, 2020:
school quantification in intensive aquaculture[J]. Aquacul ‐ 282-298.
ture international, 2023, 31(1): 31-52. [31] CHEN H, SUN K Y, TIAN Z, et al. BlendMask: Top-
[25] ZHANG Q L, YANG Y B. SA-net: Shuffle attention for down meets bottom-up for instance segmentation[C]//
deep convolutional neural networks[C]// ICASSP 2021 — 2020 IEEE/CVF Conference on Computer Vision and Pat ‐
2021 IEEE International Conference on Acoustics, Speech tern Recognition (CVPR). Piscataway, New Jersey, USA:
and Signal Processing (ICASSP). Piscataway, New Jersey, IEEE, 2020: 8573-8581.
Image Segmentation Method Combined with VoVNetv2 and
Shuffle Attention Mechanism for Fish Feeding in Aquaculture
1,3,4,5 1,3,4,5 1,3,4,5 1,3,4,5 2,6
WANG Herong , CHEN Yingyi , CHAI Yingqian , XU Ling , YU Huihui
(1. National Innovation Center for Digital Fishery, China Agricultural University, Beijing 100083, China; 2. School of Informa ‐
tion Science and Technology, Beijing Forestry University, Beijing 100083, China; 3. Key Laboratory of Smart Farming Technol ‐
ogies for Aquatic Animal and Livestock, Ministry of Agriculture and Rural Affairs, Beijing 100083, China; 4. Beijing Engineer ‐
ing and Technology Research Centre for Internet of Things in Agriculture, Beijing 100083, China; 5. College of Information and
Electrical Engineering, China Agricultural University, Beijing 100083, China; 6. Engineering Research Center for Forestry-ori ‐
ented Intelligent Information Processing, National Forestry and Grassland Administration, Beijing 100083, China )
Abstract:
[Objective]   Intelligent feeding methods are significant for improving breeding efficiency and reducing water quality pollution in cur ‐
rent aquaculture. Feeding image segmentation of fish schools is a critical step in extracting the distribution characteristics of fish
schools and quantifying their feeding behavior for intelligent feeding method development. While, an applicable approach is lacking
due to images challenges caused by blurred boundaries and similar individuals in practical aquaculture environment. In this study, a
high-precision segmentation method was proposed for fish school feeding images and provides technical support for the quantitative
analysis of fish school feeding behavior.
[Methods]   The novel proposed method for fish school feeding images segmentation combined VoVNetv2 with an attention mecha ‐Vol. 5, No. 4 王 鹤 榕 等 : 融 合 VoVNetv2 和 置 换 注 意 力 机 制 的 鱼 群 摄 食 图 像 分 割 方 法 149
nism named Shuffle Attention. Firstly, a fish feeding segmentation dataset was presented. The dataset was collected at the intensive
aquaculture base of Laizhou Mingbo Company in Shandong province, with a focus on Oplegnathus punctatus as the research target.
Cameras were used to capture videos of the fish school before, during, and after feeding. The images were annotated at the pixel level
using Labelme software. According to the distribution characteristics of fish feeding and non-feeding stage, the data was classified in ‐
to two semantic categories — non-occlusion and non-aggregation fish (fish1) and occlusion or aggregation fish (fish2). In the prepro ‐
cessing stage, data cleaning and image augmentation were employed to further enhance the quality and diversity of the dataset. Initial ‐
ly, data cleaning rules were established based on the distribution of annotated areas within the dataset. Images with outlier annotations
were removed, resulting in an improvement in the overall quality of the dataset. Subsequently, to prevent the risk of overfitting, five
data augmentation techniques (random translation, random flip, brightness variation, random noise injection, random point addition)
were applied for mixed augmentation on the dataset, contributing to an increased diversity of the dataset. Through data augmentation
operations, the dataset was expanded to three times its original size. Eventually, the dataset was divided into a training dataset and test ‐
ing dataset at a ratio of 8:2. Thus, the final dataset consisted of 1 612 training images and 404 testing images. In detail, there were a to ‐
tal of 116 328 instances of fish1 and 20 924 instances of fish2. Secondly, a fish feeding image segmentation method was proposed.
Specifically, VoVNetv2 was used as the backbone network for the Mask R-CNN model to extract image features. VoVNetv2 is a back ‐
bone network with strong computational capabilities. Its unique feature aggregation structure enables effective fusion of features at dif ‐
ferent levels, extracting diverse feature representations. This facilitates better capturing of fish schools of different sizes and shapes in
fish feeding images, achieving accurate identification and segmentation of targets within the images. To maximize feature mappings
with limited resources, the experiment replaced the channel attention mechanism in the one-shot aggregation (OSA) module of
VoVNetv2 with a more lightweight and efficient attention mechanism named shuffle attention. This improvement allowed the network
to concentrate more on the location of fish in the image, thus reducing the impact of irrelevant information, such as noise, on the seg ‐
mentation results. Finally, experiments were conducted on the fish segmentation dataset to test the performance of the proposed
method.
[Results and Discussions]  The results showed that the average segmentation accuracy of the Mask R-CNN network reached
63.218% after data cleaning, representing an improvement of 7.018% compared to the original dataset. With both data cleaning and
augmentation, the network achieved an average segmentation accuracy of 67.284%, indicating an enhancement of 11.084% over the
original dataset. Furthermore, there was an improvement of 4.066% compared to the accuracy of the dataset after cleaning alone.
These results demonstrated that data preprocessing had a positive effect on improving the accuracy of image segmentation. The abla ‐
tion experiments on the backbone network revealed that replacing the ResNet50 backbone with VoVNetv2-39 in Mask R-CNN led to
a 2.511% improvement in model accuracy. After improving VoVNetv2 through the Shuffle Attention mechanism, the accuracy of the
model was further improved by 1.219%. Simultaneously, the parameters of the model decreased by 7.9%, achieving a balance be ‐
tween accuracy and lightweight design. Comparing with the classic segmentation networks SOLOv2, BlendMask and CondInst, the
proposed model achieved the highest segmentation accuracy across various target scales. For the fish feeding segmentation dataset,
the average segmentation accuracy of the proposed model surpassed BlendMask, CondInst, and SOLOv2 by 3.982%, 12.068%, and
18.258%, respectively. Although the proposed method demonstrated effective segmentation of fish feeding images, it still exhibited
certain limitations, such as omissive detection, error segmentation, and false classification.
[Conclusions]   The proposed instance segmentation algorithm (SA_VoVNetv2_RCNN) effectively achieved accurate segmentation of
fish feeding images. It can be utilized for counting the number and pixel quantities of two types of fish in fish feeding videos, facilitat ‐
ing quantitative analysis of fish feeding behavior. Therefore, this technique can provide technical support for the analysis of piscine
feeding actions. In future research, these issues will be addressed to further enhance the accuracy of fish feeding image segmentation.
Key words: deep learning; instance segmentation; Mask R-CNN; attention mechanism; VoVNetv2
Foundation items: National Natural Science Foundation of China (62206021); Beijing Digital Agriculture Innovation Consortium Proj ‐
ect (BAIC10-2023)
Biography: WANG Herong, E-mail: bdcpro2021@163.com
Corresponding author: YU Huihui, E-mail: yuhh1990@126.com
( 登 陆 www.smartag.net.cn 免 费 获 取 电 子 版 全 文 )
献花(0)
+1
(本文系智慧农业资...原创)