专利 一种基于对抗多模态领域自适应的跨类别视频时间定位方法、系统和存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210707517.9 (22)申请日 2022.06.21 (71)申请人浙江大学地址 310058 浙江省杭州市西湖区余杭塘路866号申请人杭州一知智能科技有限公司 (72)发明人佘清顺　黄海烽　赵洲　陈哲乾　 (74)专利代理机构杭州求是专利事务所有限公司 33200 专利代理师郑海峰 (51)Int.Cl. G06V 20/40(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/74(2022.01)G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称一种基于对抗多模态领域自适应的跨类别视频时间定位方法、系统和存储介质 (57)摘要本发明公开了一种基于对抗多模态领域自适应的跨类别视频时间定位方法、系统和存储介质，属于计算机视觉领域。获取不同类别视频及对应的查询文本，提取视觉特征和文本特征；通过跨模态特征校准器目标类别视频的视觉特征和文本特征进行语义信息校准；通过视频特征重构器对目标类别视频的视觉特征随机掩码并进行视觉特征重构；通过跨模态特征融合器对视频特征和文本特征进行融合；通过领域鉴别器对视频特征和文本特征进行单模态领域不变性特征表达学习，以及对初始融合特征进行跨模态领域不变性特征表达学习；通过双仿射预测器对源类别视频的最终融合特征进行预测。本发明实现了针对跨类别视频的时间定位，提高了模型应对未知目标视频的泛化能力。权利要求书5页说明书11页附图2页 CN 115035455 A 2022.09.09 CN 115035455 A 1.一种基于对抗多模态领域自适应的跨类别视频时间定位方法，其特征在于，包括如下步骤： S1：获取源类别视频、目标类别视频及其对应的每一个视频的查询文本，提取视频的初始视觉特征和查询文本的初始文本特征，编码后作为最终的视觉特征和文本特征； S2：通过跨模态特征校准器对步骤S1得到的目标类别视频的视觉特征和文本特征进行语义信息校准； S3：通过视频特征重构器对步骤S1得到的目标类别视频的视觉特征随机掩码并进行视觉特征重构，得到重构视觉特征； S4：通过跨模态特征融合器对步骤S1得到的视频特征和文本特征进行融合，得到源类别视频的初始融合特征和最终融合特征，以及目标类别视频的初始融合特征和最终融合特征； S5：通过领域鉴别器分别对步骤S1得到的视频特征和文本特征进行单模态领域不变性特征表达学习，以及对步骤S4得到的初始融合特征进行跨模态领域不变性特征表达学习； S6：通过双仿射预测器对步骤S4得到的源类别视频的最终融合特征进行预测，得到每个查询文本对应的所有可能结果的预测概率，预测概率最大的即为最终的预测结果。 2.根据权利要求1所述的基于对抗多模态领域自适应的跨类别视频时间定位方法，其特征在于，所述的步骤S1包括： S1‑1：定义输入数据： Tt＝φ 其中， Vs是源类别视频， Qs是源类别视频的查询文本集合， Ts是源类别数据的标签集合， Vis、代表源类别视频中的第i个源视频及其对应的查询文本，代表源类别视频中第i个查询文本匹配第i个源视频的真实时间边界； Vt是目标类别视频， Qt是目标类别视频的查询文本集合， Tt是目标类别数据的标签集合，本实施例为空； Vit、代表目标类别视频中第i个目标视频及其对应的查询文本； B代表批大小； S1‑2：提取源类别视频Vs和目标类别视频Vt的语义信息，得到初始视觉特征提取源类别视频的查询文本Qs和目标类别视频的查询文本Qt的语义信息，得到初始文本特征 S1‑3：对步骤S1 ‑2得到的初始视觉特征和初始文本特征分别进行编码，得到编码后的视觉特征和文本特征作为最终特征；所述的编码后的视觉特征和文本特征表示为：权　利　要　求　书 1/5 页 2 CN 115035455 A 2其中， n为每一个视频中的帧个数， m为查询文本长度， d为隐藏维度，为源类别视频的视觉特征，为第i个源类别视频的视觉特征，为第i个源类别视频第j帧的视觉特征，为目标类别视频的视觉特征，为第i个目标类别视频的视觉特征，为第i个目标类别视频第j帧的视觉特征，为源类别视频的查询文本的文本特征，为第i个源类别视频的查询文本的文本特征，为第i个源类别视频的查询文本中第j个单词的文本特征，为目标类别视频的查询文本的文本特征，第i个目标类别视频的查询文本的文本特征，第i个目标类别视频的查询文本中第j个单词的文本特征。 3.根据权利要求2所述的基于对抗多模态领域自适应的跨类别视频时间定位方法，其特征在于，所述的步骤S3中，对步骤S1得到的目标类别视频的初始视觉特征随机掩码并进行视觉特征重构。 4.根据权利要求3所述的基于对抗多模态领域自适应的跨类别视频时间定位方法，其特征在于，所述的步骤S3包括： S3‑1：随机对步骤S1得到的目标类别视频的初始视觉特征以β 概率进行掩码操作，并通过视觉编码器进行编码，得到编码后的掩码视觉特征 S3‑2：通过跨模态特征融合器对步骤S3 ‑1得到的掩码视觉特征和步骤S1得到的目标类别视频的查询文本的文本特征进行融合，得到掩码视频的初始融合特征Fm； S3‑3：根据步骤S 3‑1得到的掩码视觉特征和步骤S3‑2得到的初始融合特征Fm进行视频特征重构，得到重构视觉特征Vrecon，计算过程如下：其中， Conv1D为1维卷积层， ReLU为激活函数，代表按元素添加操作；所述的跨模态特征融合器的训练损失采用均方差损失。 5.根据权利要求1所述的基于对抗多模态领域自适应的跨类别视频时间定位方法，其特征在于，所述的步骤S2包括： S2‑1：计算目标类别视频的视觉特征和文本特征沿时间轴的平均值：其中，表示第i个目标类别视频所有帧的视觉特征的均值，表示第i个目标类别视频所有帧的视觉特征的均值的集合，表示第i个源类别视频的查询文本中所有单词的文本特征的均值，表示第i个源类别视频的查询文本中所有单词的文本特征的均值的集合； S2‑2：利用构建正负样本：将作为正样本，作为负样本，表示为：权　利　要　求　书 2/5 页 3 CN 115035455 A 3

专利 一种基于对抗多模态领域自适应的跨类别视频时间定位方法、系统和存储介质

专利一种基于对抗多模态领域自适应的跨类别视频时间定位方法、系统和存储介质