说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210707517.9 (22)申请日 2022.06.21 (71)申请人 浙江大学 地址 310058 浙江省杭州市西湖区余杭塘 路866号 申请人 杭州一知智能科技有限公司 (72)发明人 佘清顺 黄海烽 赵洲 陈哲乾 (74)专利代理 机构 杭州求是专利事务所有限公 司 33200 专利代理师 郑海峰 (51)Int.Cl. G06V 20/40(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/74(2022.01)G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称 一种基于对抗多模态领域自适应的跨类别 视频时间定位方法、 系统和存 储介质 (57)摘要 本发明公开了一种基于对抗多模态领域自 适应的跨类别视频时间定位方法、 系统和存储介 质, 属于计算机视觉领域。 获取不同类别视频及 对应的查询文本, 提取视觉特征和文本特征; 通 过跨模态特征校准器目标类别视频的视觉特征 和文本特征进行语义信息校准; 通过视频特征重 构器对目标类别视频的视觉特征随机掩码并进 行视觉特征重构; 通过跨模态特征融合器对视频 特征和文本特征进行融合; 通过领域鉴别器对视 频特征和文本特征进行单模态领域不变性特征 表达学习, 以及对初始融合特征进行跨模态领域 不变性特征表达学习; 通过双仿射预测器对源类 别视频的最终 融合特征进行预测。 本发明实现了 针对跨类别视频的时间定位, 提高了模型应对未 知目标视频的泛化能力。 权利要求书5页 说明书11页 附图2页 CN 115035455 A 2022.09.09 CN 115035455 A 1.一种基于对抗多模态领域自适应的跨类别视频时间定位方法, 其特征在于, 包括如 下步骤: S1: 获取源类别视频、 目标类别视频及其对应的每一个视频的查询文本, 提取视频的初 始视觉特征和查询文本的初始文本特 征, 编码后作为 最终的视 觉特征和文本特 征; S2: 通过跨模态特征校准器对步骤S1得到的目标类别视频的视觉特征和文本特征进行 语义信息校准; S3: 通过视频特征重构器对步骤S1得到的目标类别视频的视觉特征随机掩码并进行视 觉特征重构, 得到 重构视觉特征; S4: 通过跨模态特征融合器对步骤S1得到的视频特征和文本特征进行融合, 得到源类 别视频的初始融合特征和最 终融合特征, 以及目标类别视频的初始融合特征和最 终融合特 征; S5: 通过领域鉴别器分别 对步骤S1得到的视频特征和文本特征进行单模态领域不变性 特征表达学习, 以及对步骤S4得到的初始融合特 征进行跨模态领域 不变性特 征表达学习; S6: 通过双仿射预测器对步骤S4得到的源类别视频的最终融合特征进行预测, 得到每 个查询文本对应的所有可能结果的预测概 率, 预测概 率最大的即为 最终的预测结果。 2.根据权利要求1所述的基于对抗多模态领域自适应的跨类别视频时间定位方法, 其 特征在于, 所述的步骤S1包括: S1‑1: 定义输入数据: Tt=φ 其中, Vs是源类别视频, Qs是源类别视频的查询文本集合, Ts是源类别数据的标签集合, Vis、 代表源类别视频中的第i个源视频及其对应的查询文本, 代表源类别视频中第i个 查询文本匹配第i个源视频的真实时间边界; Vt是目标类别 视频, Qt是目标类别 视频的查询 文本集合, Tt是目标类别数据的标签集合, 本实施例为空; Vit、 代表目标类别视频中第i个 目标视频及其对应的查询文本; B代 表批大小; S1‑2: 提取源类别视频Vs和目标类别视频Vt的语义信息, 得到初始视觉特征 提 取源类别 视频的查询文本Qs和目标类别 视频的查询文本Qt的语义信息, 得到初始文本特征 S1‑3: 对步骤S1 ‑2得到的初始视觉特征 和初始文本特征 分别进行编码, 得到编码后的视觉特征和文本特征作为最终特征; 所述的编码后的视觉特征和文本特征表 示为: 权 利 要 求 书 1/5 页 2 CN 115035455 A 2其中, n为每一个视频中的帧个数, m为查询文本长度, d为隐藏维度, 为源类别视频的 视觉特征, 为第i个源类别视频的视 觉特征, 为第i个源类别视频第j帧的视 觉特征, 为目标类别视频的视觉特征, 为第i个目标类别视频的视觉特征, 为第i个目标类别视 频第j帧的视觉特征, 为源类别视频的查询文本的文本特征, 为第i个源类别视频的查 询文本的文本 特征, 为第i个源类别视 频的查询文本中第j个单词的文本特征, 为目标 类别视频的查询文本的文本特征, 第i个目标类别视频的查询文本的文本特征, 第i个 目标类别视频的查询文本中第j个单词的文本特 征。 3.根据权利要求2所述的基于对抗多模态领域自适应的跨类别视频时间定位方法, 其 特征在于, 所述的步骤S3中, 对步骤S1得到的目标类别视频的初始视觉特征 随机掩码并 进行视觉特征重构。 4.根据权利要求3所述的基于对抗多模态领域自适应的跨类别视频时间定位方法, 其 特征在于, 所述的步骤S3包括: S3‑1: 随机对步骤S1得到的目标类别视频的初始视觉特征 以β 概率进行掩码操作, 并 通过视觉编码器进行编码, 得到编码后的掩码视 觉特征 S3‑2: 通过跨模态特征融合器对步骤S3 ‑1得到的掩码视觉特征 和步骤S1得到的目标 类别视频的查询文本的文本特 征 进行融合, 得到掩码视频的初始融合特 征Fm; S3‑3: 根据步骤S 3‑1得到的掩码视觉特征 和步骤S3‑2得到的初始融合特征Fm进行视 频特征重构, 得到 重构视觉特征Vrecon, 计算过程如下: 其中, Conv1D为1维卷积层, ReLU为激活函数, 代表按元素添加操作; 所述的跨模态特 征融合器的训练损失采用均方差损失。 5.根据权利要求1所述的基于对抗多模态领域自适应的跨类别视频时间定位方法, 其 特征在于, 所述的步骤S2包括: S2‑1: 计算目标类别视频的视 觉特征和文本特 征沿时间轴的平均值: 其中, 表示第i个目标类别视频所有帧的视觉特征 的均值, 表示第i个目标类别 视频所有帧的视觉特征 的均值的集合, 表示第i个源类别视频的查询文本中所有单词 的文本特征的均值, 表示第i个源类别视频的查询文本中所有单词的文本特征的均值的 集合; S2‑2: 利用 构建正负 样本: 将 作为正样本, 作为负样本, 表示 为:权 利 要 求 书 2/5 页 3 CN 115035455 A 3
专利 一种基于对抗多模态领域自适应的跨类别视频时间定位方法、系统和存储介质
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-18 22:28:57
上传分享
举报
下载
原文档
(1.2 MB)
分享
友情链接
GB-T 2900.65-2023 电工术语 照明.pdf
GB-T 25059-2010 信息安全技术 公钥基础设施 简易在线证书状态协议.pdf
法律法规 贵州省大数据安全保障条例2019-08-01.pdf
GB-T 12167-2006 带电作业用铝合金紧线卡线器.pdf
GB-T 35966-2018 高技术服务业服务质量评价指南.pdf
GB-T 19113-2022 桑蚕鲜茧分级 茧层量法.pdf
GB-T 41570-2022 流程生产能效计量技术规范.pdf
T-ZYYX 001—2020 医疗机构患者满意度第三方评价要求.pdf
DB14-T 2984—2024 电子政务外网 接入规范 山西省.pdf
TB-T 1346-2018 木枕用道钉.pdf
T-CRES 0008—2020 海上风力发电机组 验收规程.pdf
GB-T 42536-2023 车用高压储氢气瓶组合阀门.pdf
GB-T 31722-2015信息技术安全技术信息安全风险管理.pdf
GB-T 30294-2013 聚丁二酸丁二酯.pdf
GB-T 42066-2022 急性病毒性感染呼吸道样本采集.pdf
HJ 91.2-2022 地表水环境质量监测技术规范.pdf
GB-T 33319-2016 塑料 聚乙烯 PE 透气膜专用料.pdf
GB-T 41670-2022 安全与韧性 社区韧性 突发事件弱势群体救援指南 ISO 22395-2018.pdf
WS 539-2017 远程医疗信息基本数据集.pdf
GB-T 38664.2-2020 信息技术 大数据 政务数据开放共享 第2部分:基本要求.pdf
交流群
-->
1
/
19
评价文档
赞助2元 点击下载(1.2 MB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。