We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
本 issue 将会追踪和记录各种有关课程第三讲的问题和思考,欢迎有兴趣的同学在这个 issue 中评论,课程组会定期整理信息。
最新的 第三讲 QA 合集文档(2023.02.20更新)
The text was updated successfully, but these errors were encountered:
您好, 我有个关于观测空间设计问题想请教下。 在我的问题中observation 有两个量(a, b), float a 对应一个衰退水平(考虑为连续的),b对应age(考虑为离散的). 然后我的action其实很简单,就离散0, 1 各自对应相应动作。 请问这种问题应该就是直接把a, b作为神经网络输入进行策略学习? 由于我的问题物理意义比较明确,我知道我的策略形式。我尝试了DQN, PPO弄了很久都没能得到 较好的收敛策略。感觉我的动作空间很简单,按道理应该很好学习给出策略。请问您对 这个问题设计有相关建议吗? 谢谢!
Sorry, something went wrong.
请问一下在羊了个羊的encoder过程中,经过MLP表征学习的全局信息(a1,a2)和经过transformer表征学习的牌面信息(b1, b2, b3),是简单的连接起来(a1,a2, b1, b2, b3),就送进actor-critic模型了吗?
No branches or pull requests
本 issue 将会追踪和记录各种有关课程第三讲的问题和思考,欢迎有兴趣的同学在这个 issue 中评论,课程组会定期整理信息。
最新的 第三讲 QA 合集文档(2023.02.20更新)
The text was updated successfully, but these errors were encountered: