Skip to content

Commit

Permalink
Finalisation de certains paragraphes
Browse files Browse the repository at this point in the history
  • Loading branch information
malo-adler authored Nov 7, 2024
1 parent f8171d8 commit 8d6df1d
Showing 1 changed file with 2 additions and 15 deletions.
17 changes: 2 additions & 15 deletions II-Developpements/1_Anatomie_LLM.qmd
Original file line number Diff line number Diff line change
Expand Up @@ -236,7 +236,7 @@ RLHF = Reinforcement Learning from Human Feedback | RLAIF = Reinforcement Learni

###### PPO

PPO = Proximal Policy Optimization
Le premier algorithme de Reinforcement Learning utilisé dans le cadre des LLM était la PPO (Proximal Policy Optimization). Cet algorithme classique consiste à entraîner un modèle de récompense fondé sur les retours humains, puis à entraîner le LLM à optimiser cette récompense. La politique du modèle est donc mise à jour itérativement pour maximiser cette récompense. Le principal inconvénient de la PPO, que la DPO pallie, est le besoin d'entraîner un modèle de récompense, en plus du LLM lui-même.

- [Explication théorique](https://huggingface.co/blog/deep-rl-ppo)
- [Implémentation HuggingFace](https://huggingface.co/docs/trl/main/en/ppo_trainer)
Expand All @@ -245,24 +245,11 @@ https://medium.com/@oleglatypov/a-comprehensive-guide-to-proximal-policy-optimiz

###### DPO, KTO

DPO = Direct Preference Optimization | KTO = Kahneman-Tversky Optimization
L'algorithme de DPO (Direct Preference Optimization) permet de mettre à jour les poids du LLM en fonctions des retours humains directement, sans passer par un modèle de récompense : la politique que le LLM apprend maximise directement la satisfaction humaine. Une variation de cet algorithme est celui de KTO (Kahneman-Tversky Optimization), dont le fonctionnement général reste similaire.

- [Explication théorique](https://huggingface.co/blog/pref-tuning)
- [Guide pratique / Implémentation HugginFace](https://huggingface.co/blog/dpo-trl)

Liens des papiers originaux :
- [DPO](https://arxiv.org/abs/2305.18290)
- [KTO](https://arxiv.org/abs/2402.01306)


##### Divers

###### Prompt-tuning

- [Lien du papier](https://arxiv.org/abs/2104.08691)

###### ReFT et LoReFT

ReFT = Representation Fine-Tuning | LoReFT = Low-Rank Linear Subspace ReFT

- [Lien du papier](https://arxiv.org/abs/2404.03592)

0 comments on commit 8d6df1d

Please sign in to comment.