Craw-Learn

Aufgabe

Implementiere einen Reinforcement Learning Algorithmus und löse damit eine kontinuierliche ML-Agents Domäne.

Ausführung

Wir haben die Proximal Policy Optimization (PPO) implementiert und damit den Crawler gelöst. Dafür haben wir verschiedene Tools genutzt:

UnityToGymWrapper
Pytorch
Optuna
Tensorboard

Starte einen Trainingslauf

Um den Lauf zu starten, installiere alle Anforderungen, die in requirements.txt enthalten sind.

Wir haben zwei leicht variierte PPOs, eine Version mit Mininbatch und eine ohne Minibatch (Default Version).

python main.py <unity-worker-id> <ppo-var>
unity-worker-id: eine beliebige Ganzzahl (default: 0)
ppo-var = 0: ohne Minibatch, >= 1: mit Mininbatch (default: 0)

gutes Parametersetting für Version mit Minibatch

lr = 3e-4
tau = 0.95
clip = 0.2
hidden_units = 512
minibatch_size = 32
update_episodes = 15
ppo_epochs = 8
beta = 0.05
gamma = 0.99
std = 1.0

gutes Parametersetting für Version ohne Minibatch

lr = 3e-4
tau = 0.95
clip = 0.2
hidden_units = 512
update_episodes = 15
ppo_epochs = 5
beta = 0.05
gamma = 0.99
std = 0.35

Name		Name	Last commit message	Last commit date
Latest commit History 115 Commits
crawler_build		crawler_build
script		script
src		src
.gitignore		.gitignore
README.md		README.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Craw-Learn

Aufgabe

Ausführung

Starte einen Trainingslauf

gutes Parametersetting für Version mit Minibatch

gutes Parametersetting für Version ohne Minibatch

About

Releases

Packages

Contributors 4

Languages

Ajexsen/Craw-Learn

Folders and files

Latest commit

History

Repository files navigation

Craw-Learn

Aufgabe

Ausführung

Starte einen Trainingslauf

gutes Parametersetting für Version mit Minibatch

gutes Parametersetting für Version ohne Minibatch

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 4

Languages

Packages