Chapter2 Discussion #10

PaParaZz1 · 2023-01-13T07:32:55Z

本 issue 将会追踪和记录各种有关课程第二讲的问题和思考，欢迎有兴趣的同学在这个 issue 中评论，课程组会定期整理信息。

最新的第二讲QA 合集文档（2023.05.24更新）

EasonQYS · 2023-01-17T16:08:30Z

这个应用案例Windows下能运行吗？
希望能推荐一些先运行起来的，先看代码后应用感觉比较难理解。
前三个代码运行好像都没有输出，怎么看有什么效果呢？

PaParaZz1 · 2023-01-18T12:40:32Z

这个应用案例Windows下能运行吗？希望能推荐一些先运行起来的，先看代码后应用感觉比较难理解。前三个代码运行好像都没有输出，怎么看有什么效果呢？

应该是可以的，如果运行出现问题，可以贴一下报错截图or训练日志截图我们看下

cgchrfchscyrh · 2023-04-03T16:20:52Z

您好，请问如果是单智能体的多维离散动作空间，相对于路口控制场景的多智能体，代码方面应该如何修改呢？

PaParaZz1 · 2023-04-08T09:16:35Z

您好，请问如果是单智能体的多维离散动作空间，相对于路口控制场景的多智能体，代码方面应该如何修改呢？

课程第二讲中使用的multi_discrete方式，就是当做单智能体控制方式，即输入全局的 state，用多维离散 head（代码例子）来输出多个动作。如果是当做多智能体协作的方式来建模，应该参考课程第六讲，使用集中式训练分布式执行（CTDE）的范式来做。

fanbbbb · 2023-04-20T12:30:03Z

请问连续动作空间下的action mask该如何实现呢

PaParaZz1 · 2023-05-17T07:05:49Z

请问连续动作空间下的action mask该如何实现呢

这个具体是指什么样的 mask 呢，可以给一个更具体的例子么

7tosmoke · 2023-12-19T13:43:49Z

单智能体的多维离散动作空间PPO损失函数的熵该怎么确定呢，虽然按照multihead输出了，但是熵还是维度的指数级吧，请教一下这个熵是怎么设置的

huangxiaobing12 · 2024-05-29T07:09:09Z

想问一下作业里的代码实践第一题重参数化，为什么不使用重参数化求梯度时第一项梯度为0呢

PaParaZz1 added the discussion Topic discussion label Jan 13, 2023

PaParaZz1 pinned this issue Jan 13, 2023

PaParaZz1 unpinned this issue Feb 16, 2023

Provide feedback