(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210748109.8
(22)申请日 2022.06.29
(71)申请人 华东师范大学
地址 200241 上海市闵行区东川路5 00号
(72)发明人 孙翊铭 赵静
(74)专利代理 机构 上海蓝迪专利商标事务所
(普通合伙) 31215
专利代理师 徐筱梅 张翔
(51)Int.Cl.
G06T 7/246(2017.01)
G06V 10/44(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于时序自适应卷积与注意力机制的
目标跟踪方法
(57)摘要
本发明公开了一种基于时序自适应卷积与
注意力机制的目标跟踪方法, 在特征提取方面,
该方法提出了一种适用于目标跟踪的时序自适
应卷积处理, 利用时间信息来辅助空间特征的提
取。 同时还提出了一种全新的基于注 意力的特征
融合网络, 相较于其他基于注意力的跟踪方法,
该网络利用注意力更有效地结合了模板和搜索
区域的特征,增强了目标经历干扰时模板信息与
搜索区域信息的耦合性。 本发明对运动模糊,目
标遮挡,目标形变和目标超出视角等极端环境具
有较强的鲁棒 性。
权利要求书2页 说明书7页 附图4页
CN 115147456 A
2022.10.04
CN 115147456 A
1.一种基于时序自适应卷积与注意力机制的目标跟踪方法, 其特征在于, 包括如下步
骤:
步骤1: 对于给定的模板图像, 利用特征提取骨干网络进行特征提取, 得到模板初级特
征向量; 具体是: 将所述模板图像
输入骨干网络得到模板初级特征向量fz0,
其中Hz0, Wz0为输入模板图像高度与宽度;
步骤2: 对于给定的搜索图像, 利用特征提取骨干网络进行特征提取, 得到搜索区域初
级特征向量; 具体是: 将所述搜索图像
输入骨干网络得到搜索区域初级特征
向量fx0, 其中Hx0, Wx0为搜索图像高度与宽度;
步骤3: 将步骤1提取的模板初级特征向量和步骤2提取的搜索区域初级特征向量进行
时序自适应卷积处 理, 得到模板特 征向量与搜索区域特 征向量;
步骤4: 将步骤3得到的搜索区域特征向量和模板特征向量输入基于注意力的特征融合
网络, 得到 搜索区域与模板特 征的相似度响应图;
步骤5: 将响应图输入预测网络, 得到跟踪结果; 其中:
步骤3所述进行时序自适应卷积处 理, 具体包括:
对于输入的模板初级特征向量fz0, 使用时序自适应 卷积的权重参数Wb和偏置参数bb, 对
模板初级特征向量进行特征强化, 得到模板特征向量fz, 模板特征向量 fz的计算表示式为:
fz=Wb*fz0+bb; 对于搜索区域初级特征向量fx0, 首先构造长度为L、 元素类型为帧描述符的
队列, 称为帧描述符队列, 其符号为
其中帧描述符通过对每一帧的搜索区域初级特征向
量fx0进行全局平均池化GAP获得, 即
帧描述符队列
通过下式计算得到:
其中Cat表示在空间维度的拼接操作; 随后使用帧描述符队列
生成权重标定因子
和偏置标定因子
权重和偏置标定因子的计算表示式为:
其中
表示卷积运算; 进一步的, 使用权重标定因子
偏置标定因子
自适应卷积层权重参数Wb和偏置参数bb计算更新后的自适应卷积的权重
参数Wt和偏置参数bt; Wt和bt通过下式计算得到:
最后使用更
新后自适应卷积层权重 参数Wt和偏置参数bt, 对搜索区域初级特征向量进行特征强化, 得到
搜索区域的特 征向量fx; 搜索区域的特 征向量fx的计算表示式为: fx=Wt*fx0+bt;
所述步骤4具体包括:
首先对搜索区域特征向量fx和模板特征向量fz在空间维度上进行展平操作, 得到展平
后的搜索区域特征向量fx1和展平后的模板特征向量fz1; fz1和fx1输入基于注意力的特征融
合网络处理, 得到搜索区域与模板特征的相似度响应图f; 所述基于注意力的特征融合网络
由模板分支和搜索分支构成; 每个分支, 由一个自注意力模块和一个交叉注意力模块组成;
首先搜索分支的自注 意力模块和模板分支的自注 意力模块自适应地聚焦于目标轮廓信息,
从而增强搜索区域特征向量fx和模板特征向量fz的表征能力; 其中搜索 分支的自注意力模
块输出为: fx2=fx1+MultiHead(fx1+Px, fx1+Px, fx1), 其中
是对fx1的空间位置编
码, d为搜索区域特征向量中每个特征的维度, Nx为搜索区域特征向量中特征的数目,
MultiHead为多头注意力机制; 多头注意力机制的计算式如下:
权 利 要 求 书 1/2 页
2
CN 115147456 A
2其中
与W为学习参数矩阵; Q, K, V为多头注意力机制的输入; 模板分支的自
注意力模块输出为: fz2=fz1+MultiHead(fz1+Px, fz1+Px, fz1), 其中
是对fz1的位置
编码, d为模板特征向量中每个特征的维度, Nq为模板特征向量中特征的数目, MultiHe ad为
式(1)表示的多头注 意力机制; 然后, 搜索分支的交叉注意力模块和模板 分支的交叉注 意力
模块同时接 收各自分支和另一分支的特征向量, 使用模板 向量突出搜索区域的目标特征,
抑制随机分布的背景噪音 ; 其中搜索分支的自注意力模块输出为 :
其中
是对fz2的位置
编码, Pkv是对fx2的位置编码, F FN为前馈网络, 由下式计算得到:
FFN(x)=max(0, xW1+b1)W2+b2 (2)
其中wi和bi分别表示第i层的权重矩阵和偏置向量, MultiHead为式(1)计算的多头注意
力 机 制 ; 模 板 分 支的 交 叉 注 意 力 模 块 输 出 为 :
其中fz3为模板分支的交叉注意力模块的输出, FFN(.)为
由式(2)计算的前馈网络,
是对fx2的位置编码, Pkv是对fz2的位置编码; 最后一个
交叉注意力模块用来交汇搜索分支和模板分支的输出, 其计算表示为下式:
其中f为搜索区域与模板特征的相似
度响应图, FFN(.)为由式(2)计算的前馈网络,
是对fx3的位置编 码, Pkv是对fz3的
位置编码。
2.如权利要求1所述的一种基于时序自适应卷积与注意力机制的目标跟踪方法, 其特
征在于: 步骤5所述将响应图输入预测网络, 得到跟踪结果, 具体包括:
预测网络由分类分支和回归分支组成, 每个分支由一个使用ReLU激活函数、 隐藏层维
为d的三层感知机组成; 对于特征融合网络生成的相似度响应图f,预测网络对每个 向量进
行预测, 以得到前景或背景的分类结果, 以及正则化后的坐标; 然后为了抑制目标漂移现
象,采用余弦 窗惩罚对得到的置信度进 行后处理; 最后,选择置信度得分最高的坐标作为跟
踪结果。权 利 要 求 书 2/2 页
3
CN 115147456 A
3
专利 一种基于时序自适应卷积与注意力机制的目标跟踪方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 00:40:50上传分享