说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210705813.5 (22)申请日 2022.06.21 (71)申请人 有米科技股份有限公司 地址 510006 广东省广州市番禺区小谷围 街青蓝街26号1701 (72)发明人 陈畅新 黄于晏 陈第 (74)专利代理 机构 广州三环 专利商标代理有限 公司 44202 专利代理师 江银会 (51)Int.Cl. G06V 20/40(2022.01) G06N 3/08(2006.01) G06V 10/74(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) (54)发明名称 基于视频和文本的模型训练方法及装置 (57)摘要 本发明公开了一种基于视频和文本的模型 训练方法及装置, 该方法包括: 确定用于训练模 型的训练视频和对应的描述文本; 对 所述训练视 频进行抽帧操作, 得到所述训练视频对应的多个 训练视频帧; 将所述多个训练视频帧和所述描述 文本输入基于Tran sformer网络 结构的视频重建 预测模型进行训练, 在训练中计算所述视频重建 预测模型输出的多个预测视频帧和输入的所述 多个训练视频帧之间的损失函数值, 根据所述损 失函数值对所述视频重建预测模型的模型参数 进行优化直至收敛, 得到训练好的所述视频重建 预测模型。 可见, 本发明能够利用了Transformer 网络结构的算法优势, 使 得训练得到的模型能够 实现根据文本 重建视频的效果。 权利要求书2页 说明书17页 附图3页 CN 115240103 A 2022.10.25 CN 115240103 A 1.一种基于 视频和文本的模型训练方法, 其特 征在于, 所述方法包括: 确定用于训练模型的训练视频和对应的描述文本; 对所述训练视频进行抽帧操作, 得到所述训练视频对应的多个训练视频帧; 将所述多个训练视频帧和所述描述文本输入基于Transformer网络结构的视频重建预 测模型进 行训练, 在训练中计算所述视频重建预测模型输出的多个预测视频帧和输入的所 述多个训练视频帧之间的损失函数值, 根据所述损失函数值对所述视频重 建预测模型的模 型参数进行优化 直至收敛, 得到训练好的所述视频重建预测模型。 2.根据权利要求1所述的基于视频和文本的模型训练方法, 其特征在于, 所述对所述训 练视频进行抽帧操作, 得到所述训练视频对应的多个训练视频帧, 包括: 根据所述训练视频的视频参数, 确定所述训练视频对应的第一抽帧间隔; 根据所述第 一抽帧间隔对所述训练视频进行抽帧操作, 得到所述训练视频对应的多个 训练视频帧。 3.根据权利要求2所述的基于视频和文本的模型训练方法, 其特征在于, 所述根据 所述 第一抽帧间隔对所述训练视频进行抽帧操作, 得到所述训练视频对应的多个训练视频帧, 包括: 根据所述第 一抽帧间隔对所述训练视频进行抽帧操作, 得到所述训练视频对应的多个 候选视频帧; 对于任意两个相邻的所述 候选视频帧, 计算该两个候选 视频帧之间的画面相似度; 判断所述画面相似度是否满足预设的相似度阈值条件; 若判断结果 为是, 将该两个候选 视频帧确定为关键 视频帧; 根据所述多个候选视频帧中的所有所述关键视频帧, 确定所述训练视频对应的多个训 练视频帧。 4.根据权利要求3所述的基于视频和文本的模型训练方法, 其特征在于, 所述根据 所述 多个候选视频帧中的所有所述关键视频帧, 确定所述训练视频对应的多个训练视频帧, 包 括: 对所述多个候选视频帧中除所述关键视频帧 以外的其他候选视频帧, 根据第 二抽帧间 隔进行抽帧操作, 得到多个抽取视频帧; 所述第二抽帧间隔大于所述第一抽帧间隔; 将所有所述关键视频帧和所述抽取视频帧, 确定为所述训练视频对应的多个训练视频 帧。 5.根据权利要求1所述的基于视频和文本的模型训练方法, 其特征在于, 在所述对所述 训练视频进行抽帧操作, 得到所述训练视频对应的多个训练视频帧之后, 所述方法还 包括: 判断所述多个训练视频帧的数量是否大于预设的第一帧数阈值; 若是, 将所述多个训练视频帧划分为至少两个视频帧数量小于或等于所述第 一帧数阈 值的划分训练视频帧组; 每个所述划分训练视频帧组用于在对视频重 建预测模型进行训练 时作为单次输入的训练数据; 和/或, 判断所述多个训练视频帧的数量是否小于预设的第二帧数阈值; 若是, 从所述训练视频中抽取视频帧填充至所述多个训练视频帧中, 直至所述多个训 练视频帧的数量 等于所述第二帧数阈值。权 利 要 求 书 1/2 页 2 CN 115240103 A 26.根据权利要求1所述的基于视频和文本的模型训练方法, 其特征在于, 在所述将所述 多个训练视频帧和所述描述文本输入基于Transformer网络结构的视频重建预测模型进 行 训练之前, 所述方法还 包括: 对按照原始时间顺序排列的所述多个训练视频帧的排列顺序进行打乱, 得到乱序训练 视频帧; 所述乱序训练视频帧用于输入至所述视频重建预测模型 的编码器; 所述编码器根 据所述乱序训练视频帧的编码输出数据用于在恢复为所述原始 时间顺序后输入至所述视 频重建预测模型的解码器; 和/或, 确定出所述多个训练视频帧中的掩膜视频帧; 对所述掩膜视频帧进行删除, 将所述多个训练视频帧剩余的训练视频帧确定为输入视 频帧; 所述输入视频帧用于输入至所述视频重建预测模型 的编码器; 所述掩膜视频帧用于 与所述编码器根据所述输入视频帧的编码输出数据一起输入至所述视频重建预测模型的 解码器; 所述掩膜视频帧的数量与所述多个训练视频帧的总数量的比值大于 50%。 7.根据权利要求1所述的基于视频和文本的模型训练方法, 其特征在于, 所述视频重建 预测模型包括编码器; 所述编码器包括视频嵌入层、 文本嵌入层、 特征融合层和第一 Transformer层; 所述视频嵌入层用于接收所述训练视频帧并处理得到视频特征; 所述文本 嵌入层用于接收所述描述文本并处理得到文本特征; 所述特征融合层用于将所述视频特征 和所述文本特征进行融合以得到训练特征, 并将所述训练特征输入至所述第一 Transformer层。 8.根据权利要求1所述的基于视频和文本的模型训练方法, 其特征在于, 所述多个预测 视频帧和输入的所述多个训练视频帧之间的损失函数值的计算方式如下: 对于任一所述预测视频帧, 计算该预测视频帧与对应的所述训练视频帧之间的帧损失 函数值; 计算所有所述预测视频帧的所述帧损失函数值的平均值, 得到多个预测视频帧和输入 的所述多个训练视频帧之间的损失函数值。 9.一种基于 视频和文本的模型训练装置, 其特 征在于, 所述装置包括: 数据确定模块, 用于确定用于训练模型的训练视频和对应的描述文本; 抽帧操作模块, 用于对所述训练视频进行抽帧操作, 得到所述训练视频对应的多个训 练视频帧; 模型训练模块, 用于将所述多个训练视频帧和所述描述文本输入基于Transformer网 络结构的视频重建预测模型进 行训练, 在训练中计算所述视频重建预测模 型输出的多个预 测视频帧和输入的所述多个训练视频帧之 间的损失函数值, 根据所述损失函数值对所述视 频重建预测模型的模型参数进行优化 直至收敛, 得到训练好的所述视频重建预测模型。 10.一种基于 视频和文本的模型训练装置, 其特 征在于, 所述装置包括: 存储有可执行程序代码的存 储器; 与所述存 储器耦合的处 理器; 所述处理器调用所述存储器中存储的所述可执行程序代码, 执行如权利要求1 ‑8任一 项所述的基于 视频和文本的模型训练方法。权 利 要 求 书 2/2 页 3 CN 115240103 A 3
专利 基于视频和文本的模型训练方法及装置
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-18 22:28:57
上传分享
举报
下载
原文档
(656.0 KB)
分享
友情链接
T-CHIA 14.4—2018 医疗健康物联网 感知设备通信数据命名表 第4部分:血氧仪.pdf
T-CI 155—2023 基于多模态大模型的智慧交通出行技术规范.pdf
NY-T 3180-2018 土壤墒情监测数据采集规范.pdf
GB-T 39853.1-2021 供电系统中的电能质量测量 第1部分:电能质量监测设备(PQI).pdf
GB-T 28557-2012 电力企业节能降耗主要指标的监管评价.pdf
GB-T 6516-2010 电解镍.pdf
GB-T 16903.2-2023 标志用图形符号表示规则 第2部分:公共信息图形符号的通用符号要素.pdf
DB31-T 540-2022 重点单位消防安全管理要求 上海市.pdf
DB31-T 1214-2020 工业烘箱经济运行与节能监测 上海市.pdf
GB-T 13749-2022 冲击式打桩机 安全操作规程.pdf
T-ZACA 010—2019 审核员服务行为规范.pdf
GB-T 30810-2014 水泥胶砂中可浸出重金属的测定方法.pdf
GB-T 28159-2011 电子级磷酸.pdf
GB-T 37988-2019 信息安全技术 数据安全能力成熟度模型.pdf
T-NIFA 26—2023 移动金融客户端应用软件上架资质指引.pdf
GB-T 33647-2017 车用汽油中硅含量的测定 电感耦合等离子体发射光谱法.pdf
JR-T 0059-2010 证券期货经营机构信息系统备份能力标准.pdf
DB36-T 1099-2018 电子政务云平台安全规范 江西省.pdf
DB11-T 945.1-2023 建设工程施工现场安全防护、场容卫生及消防保卫标准 第1部分:通则 北京市.pdf
GB-T 33445-2023 煤制合成天然气.pdf
交流群
-->
1
/
23
评价文档
赞助2元 点击下载(656.0 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。