Practical_RL/week06_policy_based at master · yandexdataschool/Practical_RL · GitHub

Name		Name	Last commit message	Last commit date
parent directory ..
README.md		README.md
a2c-optional.ipynb		a2c-optional.ipynb
atari_wrappers.py		atari_wrappers.py
env_batch.py		env_batch.py
reinforce_pytorch.ipynb		reinforce_pytorch.ipynb
reinforce_tensorflow.ipynb		reinforce_tensorflow.ipynb
runners.py		runners.py

README.md

Materials

Slides
Video lecture by D. Silver - video
Our lecture, seminar(pytorch)
Alternative lecture by J. Schulman part 1 - video
Alternative lecture by J. Schulman part 2 - video
Andrej Karpathy's post on policy gradients

More materials

Actually proving the policy gradient for discounted rewards - article
On variance of policy gradient and optimal baselines: article, another article
Learn Advatangeg Actor Critic with a comic
Generalizing log-derivative trick - url
Combining policy gradient and q-learning - arxiv
Variational perspective on reinforcement learning (from DeepBayes) - pdf
Adversarial review of policy gradient - blog

Run seminar notebook in Colab:

Run optional homework notebook in Colab: