专利 一种基于时序自适应卷积与注意力机制的目标跟踪方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210748109.8 (22)申请日 2022.06.29 (71)申请人华东师范大学地址 200241 上海市闵行区东川路5 00号 (72)发明人孙翊铭　赵静　 (74)专利代理机构上海蓝迪专利商标事务所 (普通合伙) 31215 专利代理师徐筱梅　张翔 (51)Int.Cl. G06T 7/246(2017.01) G06V 10/44(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于时序自适应卷积与注意力机制的目标跟踪方法 (57)摘要本发明公开了一种基于时序自适应卷积与注意力机制的目标跟踪方法，在特征提取方面，该方法提出了一种适用于目标跟踪的时序自适应卷积处理，利用时间信息来辅助空间特征的提取。同时还提出了一种全新的基于注意力的特征融合网络，相较于其他基于注意力的跟踪方法, 该网络利用注意力更有效地结合了模板和搜索区域的特征,增强了目标经历干扰时模板信息与搜索区域信息的耦合性。本发明对运动模糊,目标遮挡,目标形变和目标超出视角等极端环境具有较强的鲁棒性。权利要求书2页说明书7页附图4页 CN 115147456 A 2022.10.04 CN 115147456 A 1.一种基于时序自适应卷积与注意力机制的目标跟踪方法，其特征在于，包括如下步骤：步骤1：对于给定的模板图像，利用特征提取骨干网络进行特征提取，得到模板初级特征向量；具体是：将所述模板图像输入骨干网络得到模板初级特征向量fz0，其中Hz0， Wz0为输入模板图像高度与宽度；步骤2：对于给定的搜索图像，利用特征提取骨干网络进行特征提取，得到搜索区域初级特征向量；具体是：将所述搜索图像输入骨干网络得到搜索区域初级特征向量fx0，其中Hx0， Wx0为搜索图像高度与宽度；步骤3：将步骤1提取的模板初级特征向量和步骤2提取的搜索区域初级特征向量进行时序自适应卷积处理，得到模板特征向量与搜索区域特征向量；步骤4：将步骤3得到的搜索区域特征向量和模板特征向量输入基于注意力的特征融合网络，得到搜索区域与模板特征的相似度响应图；步骤5：将响应图输入预测网络，得到跟踪结果；其中：步骤3所述进行时序自适应卷积处理，具体包括：对于输入的模板初级特征向量fz0，使用时序自适应卷积的权重参数Wb和偏置参数bb，对模板初级特征向量进行特征强化，得到模板特征向量fz，模板特征向量 fz的计算表示式为： fz＝Wb*fz0+bb；对于搜索区域初级特征向量fx0，首先构造长度为L、元素类型为帧描述符的队列，称为帧描述符队列，其符号为其中帧描述符通过对每一帧的搜索区域初级特征向量fx0进行全局平均池化GAP获得，即帧描述符队列通过下式计算得到：其中Cat表示在空间维度的拼接操作；随后使用帧描述符队列生成权重标定因子和偏置标定因子权重和偏置标定因子的计算表示式为：其中表示卷积运算；进一步的，使用权重标定因子偏置标定因子自适应卷积层权重参数Wb和偏置参数bb计算更新后的自适应卷积的权重参数Wt和偏置参数bt； Wt和bt通过下式计算得到：最后使用更新后自适应卷积层权重参数Wt和偏置参数bt，对搜索区域初级特征向量进行特征强化，得到搜索区域的特征向量fx；搜索区域的特征向量fx的计算表示式为： fx＝Wt*fx0+bt；所述步骤4具体包括：首先对搜索区域特征向量fx和模板特征向量fz在空间维度上进行展平操作，得到展平后的搜索区域特征向量fx1和展平后的模板特征向量fz1； fz1和fx1输入基于注意力的特征融合网络处理，得到搜索区域与模板特征的相似度响应图f；所述基于注意力的特征融合网络由模板分支和搜索分支构成；每个分支，由一个自注意力模块和一个交叉注意力模块组成；首先搜索分支的自注意力模块和模板分支的自注意力模块自适应地聚焦于目标轮廓信息，从而增强搜索区域特征向量fx和模板特征向量fz的表征能力；其中搜索分支的自注意力模块输出为： fx2＝fx1+MultiHead(fx1+Px， fx1+Px， fx1)，其中是对fx1的空间位置编码， d为搜索区域特征向量中每个特征的维度， Nx为搜索区域特征向量中特征的数目， MultiHead为多头注意力机制；多头注意力机制的计算式如下：权　利　要　求　书 1/2 页 2 CN 115147456 A 2其中与W为学习参数矩阵； Q， K， V为多头注意力机制的输入；模板分支的自注意力模块输出为： fz2＝fz1+MultiHead(fz1+Px， fz1+Px， fz1)，其中是对fz1的位置编码， d为模板特征向量中每个特征的维度， Nq为模板特征向量中特征的数目， MultiHe ad为式(1)表示的多头注意力机制；然后，搜索分支的交叉注意力模块和模板分支的交叉注意力模块同时接收各自分支和另一分支的特征向量，使用模板向量突出搜索区域的目标特征，抑制随机分布的背景噪音；其中搜索分支的自注意力模块输出为：其中是对fz2的位置编码， Pkv是对fx2的位置编码， F FN为前馈网络，由下式计算得到： FFN(x)＝max(0， xW1+b1)W2+b2 (2) 其中wi和bi分别表示第i层的权重矩阵和偏置向量， MultiHead为式(1)计算的多头注意力机制；模板分支的交叉注意力模块输出为：其中fz3为模板分支的交叉注意力模块的输出， FFN(.)为由式(2)计算的前馈网络，是对fx2的位置编码， Pkv是对fz2的位置编码；最后一个交叉注意力模块用来交汇搜索分支和模板分支的输出，其计算表示为下式：其中f为搜索区域与模板特征的相似度响应图， FFN(.)为由式(2)计算的前馈网络，是对fx3的位置编码， Pkv是对fz3的位置编码。 2.如权利要求1所述的一种基于时序自适应卷积与注意力机制的目标跟踪方法，其特征在于：步骤5所述将响应图输入预测网络，得到跟踪结果，具体包括：预测网络由分类分支和回归分支组成，每个分支由一个使用ReLU激活函数、隐藏层维为d的三层感知机组成；对于特征融合网络生成的相似度响应图f,预测网络对每个向量进行预测，以得到前景或背景的分类结果，以及正则化后的坐标；然后为了抑制目标漂移现象,采用余弦窗惩罚对得到的置信度进行后处理；最后,选择置信度得分最高的坐标作为跟踪结果。权　利　要　求　书 2/2 页 3 CN 115147456 A 3

专利 一种基于时序自适应卷积与注意力机制的目标跟踪方法

专利一种基于时序自适应卷积与注意力机制的目标跟踪方法