专利 一种融合局部目标特征与协作特征的多智能体信息交互方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210812033.0 (22)申请日 2022.07.11 (71)申请人上海大学地址 200444 上海市宝山区上大路99号 (72)发明人骆祥峰　张瀚　谢少荣　陈雪　 (74)专利代理机构上海上大专利事务所(普通合伙) 3120 5 专利代理师何文欣 (51)Int.Cl. G06V 20/17(2022.01) G06V 10/44(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称一种融合局部目标特征与协作特征的多智能体信息交互方法 (57)摘要本发明公开了一种融合局部目标特征与协作特征的多智能体信息交互方法。该方法包括： (1)初始化 “多目标协作导航 ”任务场景，其中每个智能体包括一个动作生成器和一个动作评价器； (2)构建智能体信息交互通道，该通道根据各智能体t时刻的局部观测，提取局部目标特征与协作特征，分别编码为t时刻的两类交互信息，发送给各交互对象； (3)对于每个智能体，将自身局部观测与接收到的各个交互信息，根据分层重要性权重进行融合，得到全局观测输入到动作生成器中，输出智能体的动作； (4)循环步骤2 ‑3，收集交互轨迹样本； (5)使用损失函数La和Lc训练每个智能体的动作生成器和动作评价器，以达到最大化团队奖励，完成协作任务的目标。权利要求书2页说明书6页附图2页 CN 115294474 A 2022.11.04 CN 115294474 A 1.一种融合局部目标特征与协作特征的多智能体信息交互方法，其特征在于，包括以下步骤：步骤1、初始化 “多目标协作导航 ”任务场景，任务目标为多个智能体在不碰撞不冲突的同时协作到达所有目标点，其中每个智能体包括一个动作生成器和一个动作评价器；步骤2、构建智能体信息交互通道，该通道根据各智能体t时刻的局部观测，提取局部目标特征与协作特征，分别编码为t时刻的两类交互信息，发送给各交互对象；步骤3、对于每个智能体，将自身局部观测与接收到的各个交互信息，根据分层重要性权重进行融合，得到全局观测，输入到动作生成器中，输出智能体的动作；步骤4、循环步骤2 ‑3，收集交互轨迹样本；步骤5、使用损失函数La和Lc训练每个智能体的动作生成器和动作评价器，以达到最大化团队奖励，完成协作任务的目标。 2.根据权利要求1所述的融合局部目标特征与协作特征的多智能体信息交互方法，其特征在于，所述步骤1的过程如下：初始化 “多目标协作导航 ”任务场景，任务目标为在不碰撞、不产生内部目标竞争的前提下，各智能体自主选择合适的目标，协作到达各自目标点；初始化智能体数量为N，目标点数量为L；初始化N个智能体的局部感知范围、位置与速度以及L个目标点的位置，其中局部感知范围内观测到的目标数量为l，队友智能体数量为j；初始化N个智能体动作生成器与动作评价器的参数。 3.根据权利要求1所述的融合局部目标特征与协作特征的多智能体信息交互方法，其特征在于，所述步骤2的过程如下： (2‑1)获取智能体局部观测信息：从步骤1的初始化场景状态中，提取智能体i的局部观测，包含智能体自身位置与速度信息、智能体i感知范围内观测到的l个目标实体的位置信息、感知范围内j个协作队友的位置与速度信息； (2‑2)局部目标特征提取与交互信息生成：将智能体i感知范围内观测到的l个目标实体的位置信息编码为目标特征向量，并将l个目标特征与智能体i自身特征作为节点组成目标关系图，提取图特征作为目标交互信息Et，其中包含了目标与智能体之间的拓扑结构特征，能够体现智能体的目标选择偏好； (2‑3)局部协作特征提取与交互信息生成：将智能体i感知范围内j个协作队友的位置与速度信息编码为队友特征向量，并将j 个队友特征与智能体i自身特征作为节点组成协作关系图，提取图特征作为协作交互信息Tt，其中包含了智能体之间的拓扑结构特征，能够体现智能体之间的局部协作状态； (2‑4)交互信息传递：将两类交互信息传递给交互对象，每个智能体获得 4.根据权利要求1所述的融合局部目标特征与协作特征的多智能体信息交互方法，其特征在于，所述步骤3的过程如下： (3‑1)第一层交互信息融合：根据重要性权重αN‑1和βN‑1对同类交互信息进行加权，目标交互信息融合为协作交互信息融合为 (3‑2)第二层交互信息融合：根据重要性权重ωE和ωT对不同类别交互信息进行加权，权　利　要　求　书 1/2 页 2 CN 115294474 A 2融合为全局观测通过分层融合，智能体在多目标导航不同阶段灵活选择侧重目标选择或进行协作； (3‑3)动作选择：将融合交互信息得到的全局观测输入到动作生成器中，动作生成器由多层感知机构成，将全局观测映射为要执行的动作进行输出。 5.根据权利要求1所述的融合局部目标特征与协作特征的多智能体信息交互方法，其特征在于，所述步骤4中收集交互轨迹样本，包含每个时刻的环境观测、动作选择、环境反馈的奖励。 6.根据权利要求1所述的融合局部目标特征与协作特征的多智能体信息交互方法，其特征在于，所述步骤5的过程如下： (5‑1)使用损失函数Lc对动作评价器进行更新，具体为：其中， φ为动作评价器的参数，为信息交互通道的参数， Et表示时刻t的期望值， rt为环境反馈的奖励， γ为超参数，为t时刻以信息交互后得到的全局观测作为输入得到的动作评价值； (5‑2)使用损失函数La对动作生成器进行更新，具体为：其中， θ为动作评价器参数，为信息交互通道的参数， c为超参数； S表示信息熵奖励； πθ 表示动作生成器的策略输出；表示智能体在时刻t的全局观测；其中，表示一次迭代更新中旧动作生成器与新动作生成器的比值， πθ(at|gcut)表示新动作生成器πθ在t时刻观测为gcu、输出动作为a的概率，表示旧动作生成器在t时刻观测为gcu、输出动作为a的概率， At表示优势函数，由奖励值与动作评价器输出的动作价值计算得到， ∈表示预设的用于控制策略更新幅度的常数。权　利　要　求　书 2/2 页 3 CN 115294474 A 3

专利 一种融合局部目标特征与协作特征的多智能体信息交互方法

专利一种融合局部目标特征与协作特征的多智能体信息交互方法