说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210812033.0 (22)申请日 2022.07.11 (71)申请人 上海大学 地址 200444 上海市宝山区上 大路99号 (72)发明人 骆祥峰 张瀚 谢少荣 陈雪 (74)专利代理 机构 上海上大专利事务所(普通 合伙) 3120 5 专利代理师 何文欣 (51)Int.Cl. G06V 20/17(2022.01) G06V 10/44(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 一种融合局部目标特征与协作特征的多智 能体信息交 互方法 (57)摘要 本发明公开了一种融合局部目标特征与协 作特征的多智能体信息交互方法。 该方法包括: (1)初始化 “多目标协作导航 ”任务场景, 其中每 个智能体包括一个动作生成器和一个动作评价 器; (2)构建智能体信息交互通道, 该通道根据各 智能体t时刻的局部观测, 提取局部目标特征与 协作特征, 分别编码为t时刻的两类交互信息, 发 送给各交互对象; (3)对于每个智能体, 将自身局 部观测与接收到的各个交互信息, 根据分层重要 性权重进行融合, 得到全局观测输入到动作生成 器中, 输出智能体的动作; (4)循环步骤2 ‑3, 收集 交互轨迹样本; (5)使用损失函数La和Lc训练每 个智能体的动作生成器和动作评价器, 以达到最 大化团队奖励, 完成协作任务的目标。 权利要求书2页 说明书6页 附图2页 CN 115294474 A 2022.11.04 CN 115294474 A 1.一种融合局部目标特征与协作特征的多智能体信息交互方法, 其特征在于, 包括以 下步骤: 步骤1、 初始化 “多目标协作导航 ”任务场景, 任务目标为多个智能体在不碰撞不冲突的 同时协作到 达所有目标点, 其中每 个智能体包括 一个动作生成器和一个动作评价器; 步骤2、 构建智能体信息交互通道, 该通道根据各智能体t时刻的局部观测, 提取局部目 标特征与协作特 征, 分别编码为t时刻的两类交 互信息, 发送给 各交互对象; 步骤3、 对于每个智能体, 将自身局部观测与接收到的各个交互信息, 根据分层重要性 权重进行融合, 得到全局观测, 输入到动作生成器中, 输出智能体的动作; 步骤4、 循环步骤2 ‑3, 收集交 互轨迹样本; 步骤5、 使用损失函数La和Lc训练每个智能体的动作 生成器和动作评价器, 以达到最大 化团队奖励, 完成协作任务的目标。 2.根据权利要求1所述的融合局部目标特征与协作特征的多智能体信息交互方法, 其 特征在于, 所述步骤1的过程如下: 初始化 “多目标协作导航 ”任务场景, 任务目标为在不碰 撞、 不产生内部目标竞争的前提下, 各智能体自主选择合适的目标, 协作到达各自目标点; 初始化智能体数量为N, 目标点数量为L; 初始化N个智能体的局部感知范围、 位置与速度以 及L个目标点的位置, 其中局部感知范围内观测到的目标数量为l, 队友智能体数量为j; 初 始化N个智能体动作生成器与动作评价器的参数。 3.根据权利要求1所述的融合局部目标特征与协作特征的多智能体信息交互方法, 其 特征在于, 所述 步骤2的过程如下: (2‑1)获取智能体局部观测信息: 从步骤1的初始化场景状态中, 提取智能体i的局部观 测, 包含智能体自身位置与速度信息、 智能体i感知范围内观测到的l个目标实体的位置信 息、 感知范围内j个协作队友的位置与速度信息; (2‑2)局部目标特征提取与交互信息生成: 将智能体i感知范围内观测到的l个目标实 体的位置信息编 码为目标特征向量, 并将l个目标特征与智能体i自身 特征作为节点组成目 标关系图, 提取 图特征作为目标交互信息Et, 其中包含了目标与智能体之间的拓扑结构特 征, 能够体现智能体的目标选择偏好; (2‑3)局部协作特征提取与交互信息生成: 将智能体i感知范围内j个协作队友的位置 与速度信息编 码为队友特征向量, 并将j 个队友特征与智能体i自身 特征作为节点组成协作 关系图, 提取图特征作为协作交互信息Tt, 其中包含了智能体之间的拓扑结构 特征, 能够体 现智能体之间的局部协作状态; (2‑4)交互信息传递: 将两类交互信息传递给交互对象 , 每个智能体获得 4.根据权利要求1所述的融合局部目标特征与协作特征的多智能体信息交互方法, 其 特征在于, 所述 步骤3的过程如下: (3‑1)第一层交互信息融合: 根据重要性权重αN‑1和βN‑1对同类交互信息进行加权, 目标 交互信息融合为 协作交互信息融合为 (3‑2)第二层交互信息融合: 根据重要性权重ωE和ωT对不同类别交互信息进行加权,权 利 要 求 书 1/2 页 2 CN 115294474 A 2融合为全局观测 通过分层融合, 智能体在多目标导航不同阶段灵 活选择侧重目标选择或进行协作; (3‑3)动作选择: 将融合交互信息得到的全局观测 输入到动作生成器 中, 动作生成 器由多层感知机构成, 将全局观测映射 为要执行的动作进行输出。 5.根据权利要求1所述的融合局部目标特征与协作特征的多智能体信息交互方法, 其 特征在于, 所述步骤4中 收集交互轨迹样 本, 包含每个时刻的环境观测、 动作选择、 环境反馈 的奖励。 6.根据权利要求1所述的融合局部目标特征与协作特征的多智能体信息交互方法, 其 特征在于, 所述 步骤5的过程如下: (5‑1)使用损失函数Lc对动作评价器进行 更新, 具体为: 其中, φ为动作评价器的参数, 为信息交互通道的参数, Et表示时刻t的期望值, rt为环 境反馈的奖励, γ为超参数, 为t时刻以信息交互后得到的全局观测 作为输入 得到的动作评价 值; (5‑2)使用损失函数La对动作生成器进行 更新, 具体为: 其中, θ为动作评价器参数, 为信息交互通道的参数, c为超参数; S表示信息熵奖励; πθ 表示动作生成器的策略输出; 表示智能体在时刻t的全局观测; 其中, 表示一次迭代更新中旧动作生成器与新动作生成器的比 值, πθ(at|gcut)表示新动作生成器πθ在t时刻观测为gcu、 输出动作为a的概率, 表示旧动作生成器 在t时刻观测为gcu、 输出动作为a的概率, At表示优 势函数, 由奖励值与动作评价器输出 的动作价值计算得到, ∈表示预设的用于控制策略更 新幅度的常数。权 利 要 求 书 2/2 页 3 CN 115294474 A 3
专利 一种融合局部目标特征与协作特征的多智能体信息交互方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-24 00:40:46
上传分享
举报
下载
原文档
(783.9 KB)
分享
友情链接
IT外包管理制度.pdf
T-HNJK 002—2019 保健用品生产质量管理规范.pdf
YD-T 4058-2022 电信网和互联网安全防护基线配置要求和检测要求 大数据组件.pdf
GB-T 10811-2022 釉下-中彩日用瓷器.pdf
GB 4943.1-2022 音视频、信息技术和通信技术设备 第1部分:安全要求.pdf
T-SEESA 013—2022 零碳数据中心创建与评价技术规范.pdf
GB-T 28625-2012 彩色复印机测试版.pdf
GB-T 26060-2010 钛及钛合金铸锭.pdf
T-SIOT 023—2021 工业物联网安全网闸技术要求.pdf
DB14-T 2136-2020 《特种设备风险分级管控实施指南》 山西省.pdf
GB-T 42137-2022 离散型智能制造能力建设指南.pdf
GB 18483-2001 饮食业油烟排放标准.pdf
GB-T 34953.1-2017 信息技术 安全技术 匿名实体鉴别 第1部分:总则.pdf
GB-T 10089-2018 圆柱蜗杆、蜗轮精度.pdf
GB-T 26429-2022 设备工程监理规范.pdf
T-GDPMAA 0005—2020 精准护理体系.pdf
GA-T 766-2020 人精液PSA检测 金标试剂条法.pdf
GB 29995-2013 兰炭单位产品能源消耗限额.pdf
SN-T 2045-2022 进出口燃料油产品技术规范.pdf
GB-T 22264.4-2022 安装式数字显示电测量仪表 第4部分:频率表的特殊要求.pdf
交流群
-->
1
/
11
评价文档
赞助2元 点击下载(783.9 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。