(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210858439.2
(22)申请日 2022.07.20
(71)申请人 华南农业大 学
地址 510642 广东省广州市天河区五山路
483号
(72)发明人 钟浩 梁炜健 黄远航
(74)专利代理 机构 广州粤高专利商标代理有限
公司 44102
专利代理师 林丽明
(51)Int.Cl.
G06V 20/00(2022.01)
G06V 10/82(2022.01)
G06V 10/44(2022.01)
G06V 10/80(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
基于双流自注意力神经网络的图像篡改定
位方法及系统
(57)摘要
本发明涉及图像篡改定位技术领域, 提出一
种基于双流自注意力神经网络的图像篡改定位
方法及系统, 包括以下步骤: 将待检测定位的输
入图像进行约束卷积滤波处理, 得到滤波图像;
将输入图像和滤波图像分别进行重组编码后, 分
别输入基于自注意力的第一篡改图像编码器和
第二篡改图像编码器中, 分别输出第一特征图和
第二特征图; 其中, 第一篡改图像编码器和第二
篡改图像编码器中每个计算阶段包括若干堆叠
设置的自注 意力模块; 将第一特征图和第二特征
图进行拼接后, 分别经过通道域和空间域解码,
得到篡改区域定位结果。 本发明通过自注意力神
经网络捕获局部与全局不一致的能力, 并通过
RGB模态与异常噪声提取模态的互补, 有效提高
了篡改图像 定位的精度。
权利要求书3页 说明书10页 附图4页
CN 115082774 A
2022.09.20
CN 115082774 A
1.基于双流自注意力神经网络的图像篡改定位方法, 其特 征在于, 包括以下步骤:
将待检测定位的输入图像进行约束卷积滤波处 理, 得到滤波图像;
将所述输入图像和滤波图像分别进行重组编码后, 分别 输入基于自注意力的第 一篡改
图像编码器和 第二篡改图像编码器中, 分别输出第一特征图和 第二特征图; 其中, 所述第一
篡改图像编码器和第二篡改图像编码器中分别包括至少 3个计算阶段, 每个计算阶段包括
若干堆叠设置的自注意力模块;
将第一特征图和第二特征图进行拼接后, 分别经过通道域和 空间域解码, 得到篡改区
域定位结果。
2.根据权利要求1所述的图像篡改定位方法, 其特征在于, 所述自注意力模块包括用于
获取图像块间的关系信息的多头自注意力计算单元, 和用于对图像各通道关系进 行自学习
加权的多层感知机; 所述多头 自注意力计算单元中包括若干并行 的自注意力计算层, 以及
用于对并行的自注意力计算层的输出进行拼接和自学习的多头注意力层;
其中所述第一篡改图像编码器与所述第二篡改图像编码器之间不共享可 学习参数。
3.根据权利要求2所述的图像篡改定位方法, 其特征在于, 所述输入图像进行重组编码
后得到维度为 N×C的二维矩阵Z; 将二维矩阵Z输入自注意力计算层进行编码的步骤 包括:
将二维矩阵Z分别与三个由维度为C ×C的可学习参数构成的自学习矩阵相乘, 得到查
询矩阵Q、 键矩阵K和值矩阵V;
通过内积计算对查询矩阵Q与键矩阵K进行匹配并进行缩放, 然后通过softmax函数激
活得到归一 化的权重矩阵;
通过权重矩阵对值矩阵V进行加权处 理, 得到自注意力特 征图; 其表达式如下:
式中, Zl‑1为输入第l层自注意力模块的图像, WQ、 WK、 WV∈C×C分别为具有可学习参数的
矩阵。
4.根据权利要求3所述的图像篡改定位方法, 其特征在于, 所述多头注意力层进行编码
的步骤包括: 将并行的自注意力计算层输出的自注意力特征图采用多头注意力机制在通道
维度上进 行拼接, 并在通道维度上与可学习参数矩阵相乘, 得到多头注意力特征图; 其表达
式如下:
式中, SAm(Zl‑1)表示图像Zl‑1在第m个通道维度的自注意力特征图; m为关系头数;
[...; ...; ...]表示拼接操作; W0为一个可学习参数矩阵。
5.根据权利要求4所述的图像篡改定位方法, 其特征在于, 所述多层感知机包括用于编
码扩张的第一全连接层, 以及用于编码恢复的第二全连接层; 所述多层感知机进行编码的
步骤包括:
将多头注意力特征图输入所述多层感知机中对各通道关系 进行自学习加权; 其表达式
如下:
权 利 要 求 书 1/3 页
2
CN 115082774 A
2式中,
表示图像Zl‑1对应的多头注意力特征图; WL1、 WL2分别为第一全 连接层、 第二全
连接层中具有可学习参数的矩阵, 且WL1∈C×4C, WL2∈4C×C; Conv3×3(·)表示进行二维展
开后进行3 ×3的二维卷积; GELU( ·)为GELU激活函数。
6.根据权利要求2~5任一项所述的图像篡改定位方法, 其特征在于, 所述自注意力模
块中的多头自注意力计算单 元和多层感知机采用残差连接方式连接; 其表达式如下:
式中, Zl‑1为输入第l层自注意力模块的图像,
为多头自注意力计算单元输出的多
头注意力特征图, Zl为第l层自注意力模块输出的特征图; MSA( ·)表示多头自注意力计算
单元的编码处理, MLP( ·)表示多层感知机的编码处理; LN( ·)为归一化函数, 用于进行通
道上数据归一 化。
7.根据权利要求1所述的图像篡改定位方法, 其特征在于, 将待检测定位的输入图像进
行约束卷积滤波处 理的步骤 包括:
采用约束卷积模块进行约束卷积滤波处理; 其中, 卷积核中心点的值固定为 ‑1, 无法进
行自学习; 卷积核中其他坐标的参数相加的值限制为 1, 且卷积核中其他 非中心点坐标的参
数可自学习; 其表达式如下:
式中, ωk(0,0)表示约束卷积模块中第k个卷积核的中心点坐标对应的值, ωk(m,n)表
示约束卷积模块中第k个卷积核的其 他坐标对应的值。
8.根据权利要求1所述的图像篡改定位方法, 其特征在于, 将第 一特征图和第 二特征图
进行拼接后得到H ×W×C的拼接矩阵Zori, 拼接矩阵Zori分别经过通道域和空间域解码后相
加处理的步骤 包括:
(1)进行通道域加权:
将拼接矩阵Zori通过一个1 ×1的卷积核后, 在长宽上进行展平, 得到大小为(H ×W)×C
的二维矩阵ZC;
将二维矩阵ZC的转置矩阵与二维矩阵ZC相乘, 得到大小为C ×C的通道注意力矩阵, 再经
过softmax函数进行归一 化;
将二维矩阵ZC与归一化的C ×C通道注意力矩阵的转置矩阵进行相乘, 得到每一像素通
道加权后的输出, 将 输出经过重组处理后与拼接矩阵Zori进行残差连接, 得到通道 域加权结
果OutputC; 其表达式如下:
ZC=ZoriWC
OutputC=Reshape(ZC×softmax(ZCTZC)T)+Zori
式中, Reshape( ·)表示重组 处理;
(2)进行空间域加权:
将拼接矩阵Zori通过三个1 ×1的卷积核后, 在长宽上进行展平, 得到大小为(H ×W)×C
的二维矩阵ZSQ、 ZSK、 ZSV;权 利 要 求 书 2/3 页
3
CN 115082774 A
3
专利 基于双流自注意力神经网络的图像篡改定位方法及系统
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 00:40:43上传分享