PPO

一种策略梯度算法 learning PPO P8 https://www.bilibili.com/video/BV18H4y167SD?p=9&spm_id_from=pageDriver&vd_source=cf16088b7296d0c8d01e3b00cbd71a9e 首先：强化学习的基本要素：环境、智能体、当前环境或智能体的状态、动作等

核心思想：是对一般的策略梯度算法的改进，因为on policy每一批数据（一个回合）迭代一次，训练起来太慢。off policy找一个网络参数的替身，达到同一批数据能够多次训练网络。组成：一个Actor、critic网络。actor输出最优策略，critic输出value判断网络好坏。

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
README.md		README.md

Provide feedback