专利 一种基于一致性半监督深度学习的人体行为识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210762539.5 (22)申请日 2022.06.30 (71)申请人合肥学院地址 230601 安徽省合肥市经济技术开发区锦绣大道 99号 (72)发明人唐超　童安炀　 (74)专利代理机构合肥拓信专利代理事务所 (普通合伙) 34251 专利代理师徐海燕 (51)Int.Cl. G06V 40/10(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于一致性半监督深度学习的人体行为识别方法 (57)摘要本发明公开了一种基于一致性半监督深度学习的人体行为识别方法，涉及计算机视觉领域；包括：获取有标签的视频集X以及无标记视频集U，建立训练数据样本集；对训练数据样本集，进行视频数据增强处理；搭建改进的3D ‑ Resnet18网络，构建损失函数，基于损失函数，利用训练数据样本集对改进的3D ‑Resnet18网络进行训练，利用优化好的改进的3D ‑Resnet18网络识别视频中的人体行为；本发明利用这种人体行为识别方法解决现有人体行为识别方法缺乏有效的数据增强方法而发展相对缓慢的问题；以及现有人体行为识别方法没有探索视频中动作在时序上的关联性，导致训练出的模型鲁棒性不高的问题。权利要求书4页说明书15页附图5页 CN 115188022 A 2022.10.14 CN 115188022 A 1.一种基于一致性半监督深度学习的人体行为识别方法，其特征在于，包括以下步骤： (1)获取有标签的视频集X以及无标记视频集U，分别从X、 U中获取小批量的频集X'、 U' 作为训练数据样本集； (2)对训练数据样本集进行视频数据增强处理，包括视频数据空间增强和视频数据时序增强； (3)搭建改进3D ‑Resnet18网络，改进3D ‑Resnet18网络包括17层卷积层和一层全连接层； (4)构建损失函数L1＝Ls；其中，损失函数Ls为监督信号，用于计算真实标签和预测概率之间的交叉熵损失； (5)加载初始化网络参数的改进3D ‑Resnet18网络，基于损失函数Ls，利用训练数据样本集X'对网络进行训练，计算Ls的损失值，即损失函数L1的损失值，第一次的损失值作为初始损失值，将当前的损失值与上一次的损失值做比较，如果当前损失值小于上一次的损失值，使用随机梯度下降算法更新网络参数，重复上述优化过程，直到损失值不再下降时，网络达到了当前迭代下的拟合，得到优化好的改进3D ‑Resnet18网络； (6)构建损失函数L2＝Ls+λdLd；其中，损失函数Ld为时序信号，用于计算视频数据时序增强后动作预测之间的詹森香浓熵散度； λd为时序信号 Ld的权重； (7)加载步骤(5)中优化好的改进3D ‑Resnet18网络；基于损失函数Ls，利用训练数据样本集X'对改进的3D ‑Resnet18网络进行训练，计算Ls 的损失值；基于损失函数Ld，利用训练数据样本集(X'， U')对改进3D ‑Resnet18网络进行训练，计算 Ld的损失值；根据步骤(6)中构建的损失函数，计算L2的损失值，将L2第一次的损失值作为初始损失值，将当前L2损失值与上一次L2损失值做比较，如果当前L2损失值小于上一次L2损失值，使用随机梯度下降算法更新网络参数，直到L2损失值不再下降时，模型达到了当前迭代下的拟合，得到优化好的改进的3D ‑Resnet18网络； (8)构建损失函数L＝Ls+λuLu+λdLd，其中， Lu为伪监督信号，用于计算未标记样本的视频数据空间增强预测类别和视频数据时序增强预测概率之间的交叉熵损失， λu为伪监督信号 Lu的权重； (9)加载步骤(7)中优化好的改进3D ‑Resnet18网络；基于损失函数Ls，利用训练数据样本集X'改进3D ‑Resnet18 网络进行训练，计算Ls的损失值；基于损失函数Lu，利用训练数据样本集U'对改进3D ‑Resnet18网络进行训练，计算Lu的损失值；基于损失函数Ld，利用训练数据样本集(X'， U')对改进3D ‑Resnet18网络进行训练，计算 Ld的损失值；根据步骤(8)中构建的损失函数，计算L3的损失值，将 L3第一次损失值作为初始损失值，将当前L3的损失值与上一次L3的损失值做比较，如果当前L3的损失值小于上一次L3的损失值，使用随机梯度下降算法更新网络参数，直到L3的损失值不再下降时，网络达到了当前迭代下的拟合，得到优化好的改进的3D ‑Resnet18网络；权　利　要　求　书 1/4 页 2 CN 115188022 A 2(10)加载步骤(9)中优化好的改进3D ‑Resnet18网络对需要进行行为识别的视频进行人体行为识别。 2.根据权利要求1所述一种基于一致性半监督深度学习的人体行为识别方法，其特征在于，所述视频数据空间增强：视频是由视频序列F构成的，从视频序列F＝[f1,f2,...,fM]，从m帧开始以x＝[ft,ft+ υ,ft+2 υ,...,ft+(N‑1)υ]帧率提取N帧，得到视频中动作的粗粒度表达x ＝[fm,fm+υ,fm+2υ,...,fm+(N‑1)υ]；对视频动作的粗粒度表达x以概率P进行空间增强，得到视频数据空间增强表达α(x)，空间增强包括图像水平翻转和图像随机裁剪；所述视频数据时序增强处理可以获得细粒度动作的前时动作表达、细粒度动作的后时动作表达；细粒度动作的前时动作表达：从视频序列F＝[f1,f2,...,fM]，我们以v1帧率提取n帧， n< N，再以v2帧率提取N‑n帧， v1＞v2，得到细粒度动作的前时动作表达βpre(x)；细粒度动作的后时动作表达：从视频序列F＝[f1,f2,...,fM]，我们以v2帧率提取n帧，再以v1帧率提取N‑n帧， v1＞v2，得到细粒度动作的后时动作表达βpost(x)。 3.根据权利要求1所述一种基于一致性半监督深度学习的人体行为识别方法，其特征在于，所述改进3D ‑Resnet18网络包括17层卷积层，最后一层是全连接层；其中， 2 ‑16层的卷积层中，使用Leaky ‑ReLU函数代替ReLU，并且在全连接层后添加Dropout，用于缓解模型的过拟合问题。 4.根据权利要求2所述一种基于一致性半监督深度学习的人体行为识别方法，其特征在于，步骤(5)中计算监督信号Ls的损失值，具体如下：从有标签的视频集X中选取小批量视频集为有标签的视频，为视频所对应的标签，对视频进行视频数据空间增强处理，得到视频数据空间增强表达将使用改进的3D ‑Resnet18网络进行训练，获得每个视频属于其对应标签的预测概率使用交叉熵损失函数计算识别模型预测的概率和真实类别之间的交叉熵损失： 5.根据权利要求2所述一种基于一致性半监督深度学习的人体行为识别方法，其特征在于，步骤(7)中计算时序信号 Ld的损失值，具体如下：对于视频x∈{X',U'}，对视频x进行视频数据时序增强，得到细粒度动作的前时动作表达βpre(x)和细粒度动作的后时动作表达βpost(x)；将βpre(x)、 βpost(x)使用改进3D ‑Resnet18 网络进行训练，分别获得每个视频属于其对应标签的预测概率P( βpre(x))、 P(βpost(x))，计算视频数据时序增强后动作预测之间的詹森香农熵散度： P( βavg(x))＝(P( βpost(x))+P( βpre(x)))/2 (2) 权　利　要　求　书 2/4 页 3 CN 115188022 A 3

专利 一种基于一致性半监督深度学习的人体行为识别方法

专利一种基于一致性半监督深度学习的人体行为识别方法