Chapter 1 补充材料的一个小问题 #97

hkr04 · 2024-07-21T14:53:04Z

这里 $Q_\pi(s_t^n, a_t^n)$ 期望形式中的上标应该是 $l-t$ 而不是 $l$，因为 $Q_\pi(s_t^n, a_t^n)$ 是从时间步 $t$ 的角度进行累积的，外面已经乘上了对于时间步 $0$ 而言的折扣因子，不应该重复做折扣。

puyuan1996 · 2024-10-25T06:28:17Z

感谢你的指出！你是对的，Q^{\pi}(s_{n,t}, a_{n,t}) 定义中的上标确实应该是 l - t，而不是 l。因为 Q^{\pi}(s_{n,t}, a_{n,t}) 表示的是从时间步 t 开始的累积回报，在第t步 reward的折扣应该是1。我们将会尽快修正相关内容，再次感谢你的细心反馈！

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Chapter 1 补充材料的一个小问题 #97

Chapter 1 补充材料的一个小问题 #97

hkr04 commented Jul 21, 2024 •

edited

Loading

puyuan1996 commented Oct 25, 2024

Chapter 1 补充材料的一个小问题 #97

Chapter 1 补充材料的一个小问题 #97

Comments

hkr04 commented Jul 21, 2024 • edited Loading

puyuan1996 commented Oct 25, 2024

hkr04 commented Jul 21, 2024 •

edited

Loading