Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Chapter3 Discussion #43

Open
PaParaZz1 opened this issue Feb 16, 2023 · 3 comments
Open

Chapter3 Discussion #43

PaParaZz1 opened this issue Feb 16, 2023 · 3 comments
Labels
discussion Topic discussion

Comments

@PaParaZz1
Copy link
Member

PaParaZz1 commented Feb 16, 2023

本 issue 将会追踪和记录各种有关课程第三讲的问题和思考,欢迎有兴趣的同学在这个 issue 中评论,课程组会定期整理信息。

最新的 第三讲 QA 合集文档(2023.02.20更新)

@PaParaZz1 PaParaZz1 added the discussion Topic discussion label Feb 16, 2023
@PaParaZz1 PaParaZz1 pinned this issue Feb 16, 2023
@jianzuo
Copy link

jianzuo commented Mar 16, 2023

您好,
我有个关于观测空间设计问题想请教下。
在我的问题中observation 有两个量(a, b), float a 对应一个衰退水平(考虑为连续的),b对应age(考虑为离散的).
然后我的action其实很简单,就离散0, 1 各自对应相应动作。
请问这种问题应该就是直接把a, b作为神经网络输入进行策略学习?
由于我的问题物理意义比较明确,我知道我的策略形式。我尝试了DQN, PPO弄了很久都没能得到
较好的收敛策略。感觉我的动作空间很简单,按道理应该很好学习给出策略。请问您对
这个问题设计有相关建议吗?
谢谢!

@PaParaZz1
Copy link
Member Author

您好, 我有个关于观测空间设计问题想请教下。 在我的问题中observation 有两个量(a, b), float a 对应一个衰退水平(考虑为连续的),b对应age(考虑为离散的). 然后我的action其实很简单,就离散0, 1 各自对应相应动作。 请问这种问题应该就是直接把a, b作为神经网络输入进行策略学习? 由于我的问题物理意义比较明确,我知道我的策略形式。我尝试了DQN, PPO弄了很久都没能得到 较好的收敛策略。感觉我的动作空间很简单,按道理应该很好学习给出策略。请问您对 这个问题设计有相关建议吗? 谢谢!

  • 连续变量的取值分布是什么,可以检查是否做了归一化
  • 离散变量如果是年龄(整数数值,那其实也需要归一化
  • 如果观察变量不需要考虑特别细粒度的情形,那可以按照分布划分成多个级别,在哪个级别就变成对应的one-hot,从而简化
  • 这样简单的观察变量,神经网络不要太复杂,过于复杂会难以优化
  • 其他影响收敛的因素也很多,可以贴一些训练曲线相关的信息方便后续讨论

@PaParaZz1 PaParaZz1 unpinned this issue Mar 21, 2023
@xfl11
Copy link

xfl11 commented Jun 14, 2023

191955286-7c309e9d-6e35-491f-93b3-b14cd1fe033f (1)
请问一下在羊了个羊的encoder过程中,经过MLP表征学习的全局信息(a1,a2)和经过transformer表征学习的牌面信息(b1, b2, b3),是简单的连接起来(a1,a2, b1, b2, b3),就送进actor-critic模型了吗?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
discussion Topic discussion
Projects
None yet
Development

No branches or pull requests

3 participants