(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210762539.5
(22)申请日 2022.06.30
(71)申请人 合肥学院
地址 230601 安徽省合肥市经济技 术开发
区锦绣大道 99号
(72)发明人 唐超 童安炀
(74)专利代理 机构 合肥拓信专利代理事务所
(普通合伙) 34251
专利代理师 徐海燕
(51)Int.Cl.
G06V 40/10(2022.01)
G06V 10/44(2022.01)
G06V 10/764(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于一致性半监督深度学习的人体行
为识别方法
(57)摘要
本发明公开了一种基于一致性半监督深度
学习的人体行为识别方法, 涉及计算机视觉领
域; 包括: 获取有标签的视频集X以及无标记视频
集U, 建立训练数据样本集; 对训练数据样本集,
进行视频数据增强处理 ; 搭建改进的3D ‑
Resnet18网络, 构建损失函数, 基于损失函数, 利
用训练数据样本集对改进的3D ‑Resnet18网络进
行训练, 利用优化好的改进的3D ‑Resnet18网络
识别视频中的人体行为; 本发明利用这种人体行
为识别方法解决现有人体行为识别方法缺乏有
效的数据增强方法而发展相对缓慢的问题; 以及
现有人体行为识别方法没有探索视频中动作在
时序上的关联性, 导致训练出的模 型鲁棒性不高
的问题。
权利要求书4页 说明书15页 附图5页
CN 115188022 A
2022.10.14
CN 115188022 A
1.一种基于一 致性半监督深度学习的人体行为识别方法, 其特 征在于, 包括以下步骤:
(1)获取有标签的视频集X以及无标记视频集U, 分别从X、 U中获取小批量的频集X'、 U'
作为训练数据样本集;
(2)对训练数据样本集进行视频数据增强处理, 包括视频数据空间增强和视频数据时
序增强;
(3)搭建改进3D ‑Resnet18网络, 改进3D ‑Resnet18网络包括17层卷积层和 一层全连接
层;
(4)构建损失函数L1=Ls; 其中, 损失函数Ls为监督信号, 用于计算真实标签和预测概率
之间的交叉熵损失;
(5)加载初 始化网络参数的改进3D ‑Resnet18网络, 基于损失函数Ls, 利用训练数据样本
集X'对网络进行训练, 计算Ls的损失值, 即损失函数L1的损失值, 第 一次的损失值作为初始
损失值, 将当前的损失值与上一次的损失值做比较, 如果当前损失值小于上一次的损失值,
使用随机梯度下降算法更新网络参数, 重复上述优化过程, 直到损失值不再下降时, 网络达
到了当前迭代下的拟合, 得到优化 好的改进3D ‑Resnet18网络;
(6)构建损失函数L2=Ls+λdLd; 其中, 损失函数Ld为时序信号, 用于计算视频数据时序增
强后动作预测之间的詹森香浓熵散度; λd为时序信号 Ld的权重;
(7)加载步骤(5)中优化 好的改进3D ‑Resnet18网络;
基于损失函数Ls, 利用训练数据样本集X'对改进的3D ‑Resnet18网络进行训练, 计算Ls
的损失值;
基于损失函数Ld, 利用训练数据样本集(X', U')对改进3D ‑Resnet18网络进行训练, 计算
Ld的损失值;
根据步骤(6)中构建的损失函数, 计算L2的损失值, 将L2第一次的损失值作为初始损失
值, 将当前L2损失值与上一次L2损失值做比较, 如果当前L2损失值小于上一次L2损失值, 使
用随机梯度下降算法更新网络参数, 直到L2损失值不再下降时, 模型达到了当前迭代下的
拟合, 得到优化 好的改进的3D ‑Resnet18网络;
(8)构建损失函数L=Ls+λuLu+λdLd, 其中, Lu为伪监督信号, 用于计算未标记样本的视频
数据空间增强预测类别和视频数据时序增强预测概率之间的交叉熵损失, λu为伪监督信号
Lu的权重;
(9)加载步骤(7)中优化 好的改进3D ‑Resnet18网络;
基于损失函数Ls, 利用训练数据样本集X'改进3D ‑Resnet18 网络进行训练, 计算Ls的损
失值;
基于损失函数Lu, 利用训练数据样本集U'对改进3D ‑Resnet18网络进行训练, 计算Lu的
损失值;
基于损失函数Ld, 利用训练数据样本集(X', U')对改进3D ‑Resnet18网络进行训练, 计算
Ld的损失值;
根据步骤(8)中构建的损失函数, 计算L3的损失值, 将 L3第一次损失值作为初始损失值,
将当前L3的损失值与上一次L3的损失值做比较, 如果当前L3的损失值小于上一次L3的损失
值, 使用随机梯度下降算法更新 网络参数, 直到L3的损失值不再下降时, 网络达到了当前迭
代下的拟合, 得到优化 好的改进的3D ‑Resnet18网络;权 利 要 求 书 1/4 页
2
CN 115188022 A
2(10)加载步骤(9)中优化好的改进3D ‑Resnet18网络对需要进行行为识别的视频进行
人体行为识别。
2.根据权利要求1所述一种基于一致性半监督深度学习的人体行为识别方法, 其特征
在于,
所述视频数据空间增强: 视频是由视频序列F构成的, 从视频序列F=[f1,f2,...,fM],
从m帧开始以x=[ft,ft+ υ,ft+2 υ,...,ft+(N‑1)υ]帧率提取N帧, 得到视频中动作的粗粒度表达x
=[fm,fm+υ,fm+2υ,...,fm+(N‑1)υ]; 对视频动作的粗粒度表达x以概率P进行空间增强, 得到视
频数据空间增强表达α(x), 空间增强包括图像水平翻转和图像随机 裁剪;
所述视频数据时序增强处理可以获得细粒度动作的前时动作表达、 细粒度动作的后时
动作表达;
细粒度动作的前时动作表 达: 从视频序列F=[f1,f2,...,fM], 我们以v1帧率提取n帧, n<
N, 再以v2帧率提取N‑n帧, v1>v2, 得到细粒度动作的前时动作表达βpre(x);
细粒度动作的后时动作表 达: 从视频序列F=[f1,f2,...,fM], 我们以v2帧率提取n帧, 再
以v1帧率提取N‑n帧, v1>v2, 得到细粒度动作的后时动作表达βpost(x)。
3.根据权利要求1所述一种基于一致性半监督深度学习的人体行为识别方法, 其特征
在于, 所述改进3D ‑Resnet18网络包括17层卷积层, 最后一层是全 连接层; 其中, 2 ‑16层的卷
积层中, 使用Leaky ‑ReLU函数代替ReLU, 并且在全连接层后添加Dropout, 用于缓解模型的
过拟合问题。
4.根据权利要求2所述一种基于一致性半监督深度学习的人体行为识别方法, 其特征
在于, 步骤(5)中计算 监督信号Ls的损失值, 具体如下:
从有标签的视频集X中选取小批量视频集
为有标签的视频,
为视频
所对应的标签, 对视频
进行视频数据空间增强处理, 得到视频数据空间增强表达
将
使用改进的3D ‑Resnet18网络进行训练, 获得每个视频属于其对应标签的预测
概率
使用交叉熵损失函数计算识别模型预测的概率
和真实类别
之间
的交叉熵损失:
5.根据权利要求2所述一种基于一致性半监督深度学习的人体行为识别方法, 其特征
在于, 步骤(7)中计算时序信号 Ld的损失值, 具体如下:
对于视频x∈{X',U'}, 对视频x进行视频数据时序增强, 得到细 粒度动作的前 时动作表
达βpre(x)和细粒度动作的后时动作表达βpost(x); 将βpre(x)、 βpost(x)使用改进3D ‑Resnet18
网络进行训练, 分别获得每个视频属于其对应标签的预测概率P( βpre(x))、 P(βpost(x)), 计
算视频数据时序增强后 动作预测之间的詹森香农熵散度:
P( βavg(x))=(P( βpost(x))+P( βpre(x)))/2 (2)
权 利 要 求 书 2/4 页
3
CN 115188022 A
3
专利 一种基于一致性半监督深度学习的人体行为识别方法
文档预览
中文文档
25 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 00:40:49上传分享