公司网站建设多少钱需要湖北住房和城乡建设部网站

张小明 2026/3/12 5:17:28
公司网站建设多少钱需要,湖北住房和城乡建设部网站,昆明学习网站建设,鹰潭律师网站建设摘要#xff1a; AlphaGo 战胜人类标志着单智能体强化学习#xff08;Single-Agent RL#xff09;的巅峰#xff0c;而 OpenAI Five 在 Dota 2 中的胜利则开启了多智能体强化学习#xff08;Multi-Agent RL, MARL#xff09;的时代。从“一个人玩游戏”到“一群人打群架”…摘要AlphaGo 战胜人类标志着单智能体强化学习Single-Agent RL的巅峰而 OpenAI Five 在 Dota 2 中的胜利则开启了多智能体强化学习Multi-Agent RL, MARL的时代。从“一个人玩游戏”到“一群人打群架”难度不仅仅是数量的叠加。本文将从数学模型MDP 到 Markov Games的演变入手剖析 MARL 面临的非平稳性Non-Stationarity、维度灾难以及信誉分配等核心挑战。目录引言为什么我们需要 MARL理论基石的演变从 MDP 到 Markov Games单智能体马尔可夫决策过程 (MDP)多智能体马尔可夫博弈 (Markov Games)数学符号的本质区别核心挑战一环境的非平稳性 (Non-Stationarity)什么是“移动的靶子”为什么 Experience Replay 在 MARL 中会失效核心挑战二维度的诅咒与组合爆炸核心挑战三信息结构与信誉分配部分可观测性 (POMDP)Lazy Agent 问题总结与展望1. 引言为什么我们需要 MARL在传统的强化学习RL中无论是玩 Atari 游戏还是控制机械臂我们通常假设只有一个大脑在与环境交互。然而现实世界往往不是孤独的自动驾驶你的车不仅要看路还要博弈旁边那辆试图加塞的出租车。多机器人协作一群仓储机器人需要配合搬运货物互不碰撞。RTS 游戏星际争霸中数百个单位需要协同作战。当智能体Agent数量N 1 N 1N1时世界变了。环境不再是单纯的物理反馈还包含了其他智能体的策略博弈。2. 理论基石的演变从 MDP 到 Markov Games理解 MARL 的第一步是看懂数学定义的迁移。2.1 单智能体马尔可夫决策过程 (MDP)单智能体 RL 的世界由一个五元组组成⟨ S , A , P , R , γ ⟩ \langle \mathcal{S}, \mathcal{A}, P, R, \gamma \rangle⟨S,A,P,R,γ⟩。状态转移P ( s ′ ∣ s , a ) P(s | s, a)P(s′∣s,a)。状态的变化只取决于当前状态s ss和智能体的动作a aa。奖励函数R ( s , a ) R(s, a)R(s,a)。目标寻找一个策略π ( a ∣ s ) \pi(a|s)π(a∣s)最大化累计回报。2.2 多智能体马尔可夫博弈 (Markov Games)也称为随机博弈 (Stochastic Games)。元组变成了⟨ N , S , { A i } i ∈ N , P , { R i } i ∈ N , γ ⟩ \langle \mathcal{N}, \mathcal{S}, \{\mathcal{A}^i\}_{i \in \mathcal{N}}, P, \{R^i\}_{i \in \mathcal{N}}, \gamma \rangle⟨N,S,{Ai}i∈N​,P,{Ri}i∈N​,γ⟩。这里发生了三个关键变化智能体集合N { 1 , … , N } \mathcal{N} \{1, \dots, N\}N{1,…,N}我们现在有N NN个玩家。联合动作 (Joint Action)环境的状态转移不再取决于一个动作而是取决于所有智能体的联合动作u ⟨ a 1 , … , a N ⟩ \mathbf{u} \langle a^1, \dots, a^N \rangleu⟨a1,…,aN⟩。P ( s ′ ∣ s , u ) P ( s ′ ∣ s , a 1 , a 2 , … , a N ) P(s | s, \mathbf{u}) P(s | s, a^1, a^2, \dots, a^N)P(s′∣s,u)P(s′∣s,a1,a2,…,aN)奖励差异每个智能体可能有自己独立的奖励函数R i ( s , u ) R^i(s, \mathbf{u})Ri(s,u)。完全合作 (Cooperative)所有人的奖励一样R 1 R 2 ⋯ R N R^1 R^2 \dots R^NR1R2⋯RN。完全竞争 (Zero-Sum)你赢即我输R 1 − R 2 R^1 -R^2R1−R2。混合 (Mixed)既有合作又有竞争如足球比赛中队内合作队外竞争。3. 核心挑战一环境的非平稳性 (Non-Stationarity)这是面试中最常被问到的 MARL 难点也是导致单智能体算法如 DQN, PPO直接套用到 MARL 效果极差的根本原因。3.1 什么是“移动的靶子”在单智能体 RL 中环境的状态转移概率P ( s ′ ∣ s , a ) P(s|s,a)P(s′∣s,a)是客观存在的物理规律是平稳的 (Stationary)。但在 MARL 中对于智能体i ii来说它的环境包含了两部分物理环境 其他智能体。当我们分析智能体i ii的状态转移时实际上隐含了其他智能体的策略π − i \pi^{-i}π−iP ( s ′ ∣ s , a i ) ∑ u − i P ( s ′ ∣ s , a i , u − i ) ⋅ π − i ( u − i ∣ s ) P(s | s, a^i) \sum_{\mathbf{u}^{-i}} P(s | s, a^i, \mathbf{u}^{-i}) \cdot \pi^{-i}(\mathbf{u}^{-i} | s)P(s′∣s,ai)u−i∑​P(s′∣s,ai,u−i)⋅π−i(u−i∣s)问题来了在训练过程中其他智能体π − i \pi^{-i}π−i也在不断学习、更新参数。昨天Agent A 往左走Agent B 会避让它环境反馈好。今天Agent B 升级了策略决定硬刚Agent A 往左走撞车了环境反馈变了。对于 Agent A 来说同样的s ss和a i a^iai得到的反馈分布却随时间在变。这就是非平稳性。3.2 为什么 Experience Replay 会失效DQN 极其依赖经验回放池 (Experience Replay Buffer)。其假设是历史数据( s , a , r , s ′ ) (s, a, r, s)(s,a,r,s′)在当前依然有效依然服从环境的分布。但在 MARL 中Buffer 里的旧数据是基于旧的对手策略生成的。当前的对手策略已经变了。如果拿旧数据来训练现在的 Agent相当于教它“如何打败昨天的对手”而不是今天的对手。解决方案思路这就是为什么会有MADDPG或MAPPOCentralized Training Decentralized Execution, CTDE架构。通过在训练时引入全局信息把“不平稳”的对手动作显式地输入到 Critic 中让环境重新变得“平稳”。4. 核心挑战二维度的诅咒与组合爆炸在单智能体中动作空间是∣ A ∣ |\mathcal{A}|∣A∣。在多智能体中联合动作空间是指数级增长的∣ A ∣ N |\mathcal{A}|^N∣A∣N。假设有 10 个智能体每个智能体只有 4 个动作。联合动作空间大小为4 10 ≈ 1 , 000 , 000 4^{10} \approx 1,000,000410≈1,000,000。这意味着 Q-table 根本存不下甚至普通的神经网络 Q-Network 要探索完所有动作组合也变得不可能。后果智能体很难学到精细的配合往往陷入局部最优。例如两个机器人需要同时按按钮才能开门随机探索到“同时按下”的概率极低导致它们可能永远学不会开门。5. 核心挑战三信息结构与信誉分配5.1 局部观测 (Partial Observability)在 MARL 中通常假设智能体只能看到局部视野Local Observationo i o^ioi而不是全局状态S SS。这使得问题变成了Dec-POMDP(Decentralized Partially Observable MDP)。智能体必须学会沟通Communication或推断对手意图。5.2 信誉分配难题 (Credit Assignment)当团队获得胜利Reward 1时是谁的功劳是前锋射门进球的功劳还是后卫成功抢断的功劳或者是那个一直在场上梦游的 Agent 只是“躺赢”这就是Multi-Agent Credit Assignment问题。如果无法准确分配奖励就会出现Lazy Agent偷懒智能体它发现自己什么都不做也能拿团队奖励从而导致策略退化。经典算法 COMA (Counterfactual Multi-Agent Policy Gradients)就是通过计算“如果我换个动作团队得分会变多少”来解决这个问题的。6. 总结与展望从单智能体到多智能体绝不仅仅是1 → N 1 \to N1→N的数量增加而是从优化问题 (Optimization)变成了博弈问题 (Game Theory)。维度单智能体 RL (SARL)多智能体 RL (MARL)环境特性平稳 (Stationary)非平稳 (Non-Stationary)优化目标最大化自身回报纳什均衡 / 帕累托最优 / 团队最大化状态转移P ( s ′ ∣ s , a ) P(s|s, a)P(s′∣s,a)P ( s ′ ∣ s , u ) P(s|s, \mathbf{u})P(s′∣s,u)(依赖所有人)主要痛点探索与利用信誉分配、非平稳性、维度爆炸掌握 MARL 的基础概念后下一步你可以深入研究CTDE 架构如 QMIX, MAPPO这是目前解决上述挑战最主流的框架。*希望这篇文章能帮你建立起 MARL 的世界观如有疑问欢迎评论区讨论 *
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

保定建行网站首页登录手机网站怎么导入微信朋友圈

Font Awesome 方向图标(Arrows Directional Icons)详解 Font Awesome 的 Arrows 类别提供了丰富的方向性图标,包括各种箭头、指向符号、旋转箭头等,非常适合导航菜单、分页、排序、滑动控件、地图指示等场景。这些图标几乎全部属…

张小明 2026/3/5 2:46:06 网站建设

想要弄一个网站怎么弄网页游戏源码交易平台

高可用性集群与安装服务器搭建指南 1. 高可用性集群故障排查 在搭建高可用性集群时,可能会遇到集群服务无法正常运行的情况。以下是一些排查和解决问题的方法: - 检查日志文件 :集群会在 /var/log/cluster 目录下写入许多日志,其中可能包含服务无法正常工作的重要线…

张小明 2026/3/5 2:46:09 网站建设

中山智能设备网站建设wordpress注册时添密码

闭包闭包的基本概念闭包(closure)是JavaScript语言的一个难点,也是JavaScript的一个特色,很多高级的应用都要依靠闭包来实现。作用域在js中,函数会形成函数作用域,在函数内部可以直接访问全局变量var str …

张小明 2026/3/5 2:46:09 网站建设

前端做的比较好的网站高明网站设计多少钱

主机厂基于Simulink MBD新能源电动汽车主驱电驱控制器算法模型及开发资料,量产模型,量产软件,量产代码,软件架构设计,输入输出定子,单元测试,MIL测试资料。 (全套资料) S…

张小明 2026/3/5 2:46:10 网站建设

百度做商务网站多少钱sem外包

网络服务配置与监控全解析 在网络管理和运维工作中,掌握各种工具和技术来确保网络的稳定运行、高效配置以及安全监控是至关重要的。下面将详细介绍一些常用的网络工具和服务的配置方法。 1. 使用 tcpdump 监控网络流量 tcpdump 是一款强大的网络数据包分析工具,它能够读取…

张小明 2026/3/5 2:46:10 网站建设

wap网站后台模板成都住建局官网登录入口查询

TypedArray 详解一、什么是 TypedArrayTypedArray 是 JavaScript 中处理二进制数据的对象,它提供了类似数组的视图来访问原始二进制缓冲区中的数据。核心特点:类型化:每个元素都有固定的数据类型(如 Int8、Uint32、Float64 等&…

张小明 2026/3/5 2:46:11 网站建设