说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210612980.5 (22)申请日 2022.05.31 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518057 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 郑茂 袁宇辰 柴子峰 蒋树强 黎向阳 朱永清 杨嘉豪 (74)专利代理 机构 北京励诚知识产权代理有限 公司 11647 专利代理师 熊金凤 (51)Int.Cl. G06V 10/80(2022.01) G06V 10/74(2022.01) G06V 10/82(2022.01) G06V 10/764(2022.01)G06V 20/62(2022.01) G06K 9/62(2022.01) G06N 3/08(2006.01) (54)发明名称 视觉文本预训练模型的训练方法、 装置、 介 质和设备 (57)摘要 本申请提供了一种视觉文本预训练模型的 训练方法、 装置、 介质和设备, 可应用于人工智 能、 计算机视觉、 智慧交通等场景, 该方法包括: 根据视频文本样本对进行特征提取得到初始视 频特征和初始文本特征; 根据初始视频特征和初 始文本特征进行特征融合得到融合特征; 根据融 合特征和预设的多个中间特征确定桥接特征; 根 据初始视频特征、 初始文本特征、 桥接特征和预 设的掩码矩 阵确定目标视频特征和目标文本特 征, 预设的掩码矩阵用于使初始视频特征和初始 文本特征相互掩模; 根据初始视频特征、 初始文 本特征、 桥接特征、 目标视频特征 以及目标文本 特征确定目标函数, 并根据目标函数对进行模型 训练, 以学习多模态交互信息、 且保持多模态之 间的模态分离性。 权利要求书4页 说明书19页 附图7页 CN 115131638 A 2022.09.30 CN 115131638 A 1.一种视 觉文本预训练模型的训练方法, 其特 征在于, 所述方法包括: 获取成对标注 的视频文本样本对, 并对所述视频文本样本对进行特征提取, 得到所述 视频文本样本对中视频样本的初始视频特征、 以及所述视频文本样本对中文本样本的初始 文本特征; 根据所述初始视频 特征以及所述初始文本特 征进行特征融合, 得到第一融合特 征; 根据所述第一融合特 征和预设的多个中间特 征确定桥接特 征; 根据所述初始视频特征、 所述初始文本特征、 所述桥接特征和预设的掩码矩阵确定目 标视频特征和目标文本特征, 其中, 所述预设的掩码矩阵用于使所述初始视频特征和所述 初始文本特 征相互掩 模; 根据所述初始视频特征、 所述初始文本特征、 所述桥接特征、 所述目标视频特征以及所 述目标文本特 征确定目标函数; 根据所述目标函数对所述视觉文本预训练模型进行训练, 以使训练后的视觉文本预训 练模型用于学习所述视频文本样本对的所述初始视频特征与所述初始文本特征之间的细 粒度交互信息、 且所述初始视频 特征与所述初始文本特 征之间保持模态分离性。 2.根据权利要求1所述的视觉文本预训练模型的训练方法, 其特征在于, 所述根据 所述 第一融合特 征和预设的多个中间特 征确定桥接特 征, 包括: 确定所述第一融合特 征和每个所述中间特 征之间的第一相似度; 根据所述第一相似度对所述多个中间特 征进行加权求和, 得到所述 桥接特征。 3.根据权利要求2所述的视觉文本预训练模型的训练方法, 其特征在于, 所述初始视频 特征包括多个第一视频帧特征, 所述初始文本特征包括第一文本结尾特征, 所述根据所述 初始视频 特征以及所述初始文本特 征进行特征融合, 得到第一融合特 征, 包括: 将所述多个第一视频帧特 征进行均值池化, 得到第一整体视频 特征; 根据所述第 一整体视频特征和所述第 一文本结尾特征进行特征融合, 得到第 一融合特 征。 4.根据权利要求3所述的视觉文本预训练模型的训练方法, 其特征在于, 所述根据 所述 初始视频特征、 所述初始文本特征、 所述桥接特征、 所述目标视频特征以及所述目标文本特 征确定目标函数, 包括: 根据所述目标视频特征、 所述目标文本特征以及预设的可学习矩 阵, 确定所述目标视频 特征和所述目标文本特 征之间是否匹配的二分类概 率; 根据所述二分类概率与所述视频文本样本对所对应的真实匹配标注确定第一损失函 数, 并根据所述第一损失函数确定目标函数, 其中, 所述真实匹配标注用于标注所述视频文 本样本对中的视频样本与文本样本是否匹配。 5.根据权利要求3所述的视觉文本预训练模型的训练方法, 其特征在于, 所述方法还包 括: 获取包含有多个所述视频文本样本对的训练样本集; 基于所述训练样本集中多个所述视频文本样本对所对应的所述初始视频特征、 所述初 始文本特征、 所述桥接特征和所述预设的掩码矩阵, 确定目标视频特征集合和目标文本特 征集合, 其中, 所述目标视频特征集合中包含每个所述视频样本对应的目标视频特征、 以及 每个所述文本样本对应的目标文本特征, 所述目标文本特征集合中的每个目标文本特征包 括第二文本结尾特征, 所述目标视频特征集合中的每个目标视频特征包括多个第二视频帧权 利 要 求 书 1/4 页 2 CN 115131638 A 2特征; 根据所述第 一整体视频特征, 从所述目标文本特征集合对应的多个所述第 二文本结尾 特征中确定一个难负文本特 征; 分别将所述目标视频特征集合中的每个目标视频特征所对应的多个第二视频帧特征 进行均值池化, 得到所述目标视频特征集合中的每个目标视频特征所对应的第二整体视频 特征; 根据所述第 一文本结尾特征, 从所述目标视频特征集合对应的多个所述第 二整体视频 特征中确定一个难负视频 特征。 6.根据权利要求5所述的视觉文本预训练模型的训练方法, 其特征在于, 所述根据 所述 初始视频特征、 所述初始文本特征、 所述桥接特征、 所述目标视频特征以及所述目标文本特 征确定目标函数, 包括: 根据所述目标视频特征、 所述目标文本特征、 以及预设的可学习矩阵, 确定所述目标视 频特征和所述目标文本特征之 间是否匹配的二分类概率、 所述目标视频特征和所述难负文 本特征之 间是否匹配的二分类概率、 以及所述目标文本特征和所述难负视频特征之 间是否 匹配的二分类概 率; 根据所述目标视频特征和所述目标文本特征之间是否匹配的二分类概率、 所述目标视 频特征和所述难负文本特征之 间是否匹配的二分类概率、 所述目标文本特征和所述难负视 频特征之 间是否匹配的二分类概率、 以及所述目标视频特征和所述目标文本特征对应的真 实匹配标注、 所述 目标视频特征和所述难负文本特征对应的真实匹配标注、 所述 目标文本 特征和所述难负视频特征之 间的真实匹配标注确定第一损失函数, 并根据所述第一损失函 数确定目标函数, 其中, 所述真实匹配标注用于标注不同特 征之间是否匹配。 7.根据权利要求5所述的视觉文本预训练模型的训练方法, 其特征在于, 所述根据 所述 初始视频特征、 所述初始文本特征、 所述桥接特征、 所述目标视频特征以及所述目标文本特 征确定目标函数, 包括: 计算所述第一整体视频 特征与所述第一文本结尾特 征之间的第二相似度; 计算所述第 一整体视频特征, 以及多个所述第 二文本结尾特征中不与 所述第一整体视 频特征对应的第二文本结尾特 征之间的第三相似度; 根据所述第 二相似度和所述第 三相似度确定第 二损失函数, 并根据所述第 二损失函数 确定目标函数。 8.根据权利要求7所述的视觉文本预训练模型的训练方法, 其特征在于, 所述根据 所述 初始视频特征、 所述初始文本特征、 所述桥接特征、 所述目标视频特征以及所述目标文本特 征确定目标函数, 包括: 计算所述第一文本结尾特 征与所述第一整体视频 特征之间的第四相似度; 计算所述第 一文本结尾特征, 以及多个所述第 二整体视频特征中不与 所述第一文本结 尾特征相对应的第二整体视频 特征之间的第五相似度; 根据所述第四相似度和所述第五相似度确定第 三损失函数, 并根据所述第 三损失函数 确定目标函数。 9.根据权利要求8所述的视觉文本预训练模型的训练方法, 其特征在于, 所述根据 所述 初始视频特征、 所述初始文本特征、 所述桥接特征、 所述目标视频特征以及所述目标文本特权 利 要 求 书 2/4 页 3 CN 115131638 A 3
专利 视觉文本预训练模型的训练方法、装置、介质和设备
文档预览
中文文档
31 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共31页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-18 22:29:01
上传分享
举报
下载
原文档
(1.3 MB)
分享
友情链接
GM-T 0066-2019 商用密码产品生产和保障能力建设实施指南.pdf
福建省数字政府改革和建设总体方案1.10.pdf
许天翔 人工智能与网络空间安全.pdf
T-CES 143—2022 分布式电化学储能电站智能运维技术规范.pdf
T-CFA 02010120.1—2017 耐低温耐大气腐蚀铸钢件.pdf
GB-T 22071.1-2018 互感器试验导则 第1部分:电流互感器.pdf
2021年数据安全法律手册-完整版.pdf
GB-T 15851.3-2018 信息技术 安全技术 带消息恢复的数字签名方案 第3部分:基于离散对数的机制.pdf
GB-T 41974.1-2022 塑料 色母料 第1部分:命名系统和分类基础.pdf
MZ-T 121-2018 护理床用桌子.pdf
GY-T 352-2021 广播电视网络安全等级保护基本要求.pdf
T-SHJNXH 0008—2021 镁基氢化物固态储运氢系统技术要求.pdf
GB-T 6995.2-2008 电线电缆识别标志方法 第2部分 标准颜色.pdf
GB-T 9969-2008 工业产品使用说明书 总则.pdf
GB-T 41570-2022 流程生产能效计量技术规范.pdf
民航 MH-T 0046-2014 民航重要信息系统灾难备份与恢复实施规范.pdf
GB-T 31034-2014 晶体硅太阳电池组件用绝缘背板.pdf
GA-T 766-2020 人精液PSA检测 金标试剂条法.pdf
DB13-T 2262-2015 在用工业锅炉节能运行监测技术规程 河北省.pdf
T-CSTM 00790.4—2022 汽车用薄钢板 第4部分:双向拉伸试验十字形拉伸试样.pdf
交流群
-->
1
/
31
评价文档
赞助2元 点击下载(1.3 MB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。