专利 图像生成模型的训练方法、图像生成方法及装置

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210865417.9 (22)申请日 2022.07.22 (65)同一申请的已公布的文献号申请公布号 CN 115082300 A (43)申请公布日 2022.09.20 (73)专利权人中国科学技术大学地址 230026 安徽省合肥市包河区金寨路 96号 (72)发明人刘斌　张雅琪　 (74)专利代理机构中科专利商标代理有限责任公司 11021 专利代理师张博 (51)Int.Cl. G06T 3/00(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/44(2022.01)G06V 10/80(2022.01) G06V 10/82(2022.01) (56)对比文件 CN 111669647 A,2020.09.15 CN 111508048 A,2020.08.07 CN 113194348 A,2021.07.3 0 CN 114429658 A,202 2.05.03 CN 113689527 A,2021.1 1.23 US 2022222832 A1,202 2.07.14 US 2022207649 A1,202 2.06.30 年福东等.基于关键点表示的语音驱动说话人脸视频生成. 《模式识别与人工智能》 .2021, KAＲＲAS T， et al. .Audio-Driven Facial Animation by Joint End-to- End Learn ing of Pose and Emoti on. 《ACM Transacti ons on Graphics》 .2017, 审查员张敏 (54)发明名称图像生成模型的训练方法、图像生成方法及装置 (57)摘要本发明提供了图像生成模型的训练方法、图像生成方法及装置，用于人工智能和图像处理领域。训练方法包括：利用样本源视频信息与样本目标图像信息训练初始关键点转换器，得到候选关键点转换器；利用特征嵌入器处理样本第一关键点集合与样本目标图像信息，得到样本风格特征向量；将样本第二关键点集合、样本风格特征向量和样本第一视频帧集合输入至初始图像生成器，生成样本目标视频帧；利用样本目标视频帧更新样本第一视频帧集合，得到样本第二视频帧集合；利用新的样本目标视频帧迭代地生成其他的样本目标视频帧，得到样本目标视频帧序列；利用鉴别器处理样本目标视频帧序列，得到图像生成模型。图像生成模型生成的视频提升跨身份的泛化能力。权利要求书4页说明书21页附图9页 CN 115082300 B 2022.12.30 CN 115082300 B 1.一种图像生成模型的训练方法，其特征在于，包括：利用样本源视频信息与样本目标图像信息训练初始关键点转换器，得到训练后的候选关键点转换器，其中，所述初始关键点转换器输出样本第一关键点集合，所述候选关键点转换器输出样本第二关键点集合；利用特征嵌入器处理所述样本第一关键点集合与所述样本目标图像信息，得到样本风格特征向量；将所述样本第二关键点集合、所述样本风格特征向量和样本第一视频帧集合输入至初始图像生成器，生成重建后的样本目标视频帧；利用所述样本目标视频帧更新所述样本第一视频帧集合，得到更新后的样本第二视频帧集合；将所述样本第二关键点集合、所述样本风格特征向量和更新后的样本第二视频帧集合输入至所述初始图像生成器，生成新的样本目标视频帧，以便利用所述新的样本目标视频帧更新所述样本第二视频帧集合，以及利用所述样本第二关键点集合、所述样本风格特征向量和更新后的样本第二视频帧集合，迭代地生成其他的样本目标视频帧，直至所述样本目标视频帧的数量与样本第二视频帧的数量相同，得到样本目标视频帧序列；以及利用鉴别器处理所述样本目标视频帧序列，以便迭代地调整所述候选关键点转换器、所述特征嵌入器和所述初始图像生成器各自的权重参数，得到训练后的图像生成模型，其中，所述图像生成模型包括训练后的目标关键点转换器、目标特征嵌入器和目标图像生成器。 2.根据权利要求1所述的训练方法，其特征在于，所述样本第一视频帧集合包括R个空视频帧，所述初始图像生成器包括第一编码层、第二编码层和风格特征融合层；将所述样本第二关键点集合、所述样本风格特征向量和样本第一视频帧集合输入至初始图像生成器，生成重建后的样本目标视频帧包括：将所述样本第二关键点集合输入至所述第一编码层，得到样本第一编码信息；将R个所述空视频帧输入至所述第二编码层，得到样本第二编码信息；以及将所述样本第一编码信息与所述样本第二编码信息的级联操作结果，以及所述样本风格特征向量输入至所述风格特征融合层，输出所述样本目标视频帧。 3.根据权利要求2所述的训练方法，其特征在于，所述风格特征融合层包括顺序连接的第一残差子层、第一归一化子层和第一卷积采样子层；将所述样本第一编码信息与所述样本第二编码信息的级联操作结果，以及所述样本风格特征向量输入至所述风格特征融合层，输出所述样本目标视频帧包括：将所述样本第一编码信息与所述样本第二编码信息的级联操作结果输入至所述第一残差子层，输出第一编码特征；将所述第一编码特征与所述样本风格特征向量输入至所述第一归一化子层，输出第一归一化编码特征；以及利用所述第一卷积采样子层处理所述第一归一化编码特征，得到所述样本目标视频帧。 4.根据权利要求2所述的训练方法，其特征在于，所述风格特征融合层包括顺序连接的 L个风格融合模型块，以及与所述L个风格融合模型块中，排序末位的风格融合模型块连接权　利　要　求　书 1/4 页 2 CN 115082300 B 2的第一卷积采样子层，所述风格融合模型块包括第一残差子层和第一归一化子层，所述样本风格特征向量包括顺序排列的L个；将所述样本第一编码信息与所述样本第二编码信息的级联操作结果，以及所述样本风格特征向量输入至所述风格特征融合层，输出所述样本目标视频帧包括：将所述样本第一编码信息与所述样本第二编码信息的级联操作结果输入至所述顺序连接的L个风格融合模型块中的第一个风格融合模型块的第一残差子层，输出第一编码特征；按照L个所述样本风格特征向量的排列顺序与所述风格模型融合模型连接顺序的对应关系，将每个所述风格融合模型块各自的第一残差子层输出的第一编码特征，以及与每个所述风格融合模型块对应的样本风格特征向量，输入至每个所述风格融合模型块各自的第一归一化子层，以便每个所述第一归一化子层各自输出归一化第一编码特征；其中， L个所述第一归一化子层中，除了排序末位的第 L第一归一化子层之外，每个所述第一归一化子层各自输出第一归一化编码特征，输入至与每个所述第一归一化子层连接的下一个第一残差子层；以及将第L第一归一化子层输出的第一归一化编码特征输入至所述第一卷积采样子层，输出所述样本目标视频帧。 5.根据权利要求1所述的训练方法，其特征在于，所述样本第一视频帧集合包括R个空视频帧，所述样本源视频帧的数量包括 N个；利用所述样本目标视频帧更新所述样本第一视频帧集合，得到更新后的样本第二视频帧集合包括：利用重建后的样本目标视频帧替换所述样本第一视频帧集合中R个空视频帧中的一个，得到更新后的样本第二视频帧集合；利用所述新的样本目标视频帧更新所述样本第二视频帧集合包括：按照所述样本第二视频帧集合中的视频帧的时间属性，利用所述初始图像生成器迭代输出的新的第二样本目标视频帧，迭代更新所述样本第二视频帧集合，得到更新后的新的样本第二视频帧集合，直至所述初始图像生成器迭代输出第N ‑1个新的第二样本目标视频帧；其中，所述样本目标视频帧序列包括所述重建后的样本目标视频帧，以及所述初始图像生成器迭代输出的N ‑1个第二样本目标视频帧。 6.根据权利要求1所述的训练方法，其特征在于，所述样本目标图像信息包括多个，所述特征嵌入器包括L个顺序连接的第一卷积子层， L个顺序连接的特征调制模型块，以及连接在每个特征调制模型块输出端的风格特征生成模型块，所述特征调制模型块包括第二卷积子层和SFT子层；利用特征嵌入器处理所述样本第一关键点集合与所述样本目标图像信息，得到样本风格特征向量包括：将多个所述样本目标图像信息进行拼接，得到样本风格信息；将所述样本风格信息输入至L个顺序连接的所述特征调制模型块，以及将所述样本第一关键点集合输入至L个顺序连接的所述第一卷积子层，以便每个所述第一卷积子层各自输出的第一图像特征，和每个所述第二卷积子层各自输出的第二图像特征，输入至连接在所述第二卷积子层输出端的SFT子层，得到每个所述SFT子层各自输出的调制特征；按照所述特征调制模型块的排列顺序，将每个所述SFT子层各自输出的调制特征输入权　利　要　求　书 2/4 页 3 CN 115082300 B 3

专利 图像生成模型的训练方法、图像生成方法及装置

专利图像生成模型的训练方法、图像生成方法及装置