Skip to content

Commit

Permalink
Update 1_Revue_Technique_LLM.qmd
Browse files Browse the repository at this point in the history
  • Loading branch information
malo-adler authored Oct 22, 2024
1 parent 1deeeb7 commit e01e182
Showing 1 changed file with 1 addition and 1 deletion.
2 changes: 1 addition & 1 deletion II-Developpements/1_Revue_Technique_LLM.qmd
Original file line number Diff line number Diff line change
Expand Up @@ -59,7 +59,7 @@ Plusieurs blocs (6 dans l’implémentation originale) forment ensuite l’encod

Les LLMs basés sur des architectures Transformers appartiennent à l’une des 3 catégories suivantes :

- **Modèle « encoder-only »** : Ils sont basés uniquement sur la partie décodeur des Transformers. Leur pré-entraînement est souvent basé sur la reconstruction de phrases : à chaque étape, le modèle a accès à une phrase entière, sauf certains mots qui ont été masqués, et apprend à retrouver ces mots masqués. Ces modèles sont adaptés pour des tâches de classification, de reconnaissance d’entités nommées (NER), de réponses aux questions, etc. Ils ont aujourd’hui perdu en popularité, mais leurs représentants les plus connus (BERT, RoBERTa, DistilBERT, CamemBERT, etc.) sont encore très utilisés, et restent un choix intéressant selon la tâche, grâce à leur compréhension fine du langage et à leur petite taille.
- **Modèle « encoder-only »** : Ils sont basés uniquement sur la partie encodeur des Transformers. Leur pré-entraînement est souvent basé sur la reconstruction de phrases : à chaque étape, le modèle a accès à une phrase entière, sauf certains mots qui ont été masqués, et apprend à retrouver ces mots masqués. Ces modèles sont adaptés pour des tâches de classification, de reconnaissance d’entités nommées (NER), de réponses aux questions, etc. Ils ont aujourd’hui perdu en popularité, mais leurs représentants les plus connus (BERT, RoBERTa, DistilBERT, CamemBERT, etc.) sont encore très utilisés, et restent un choix intéressant selon la tâche, grâce à leur compréhension fine du langage et à leur petite taille.

- **Modèle « decoder-only »** : Ils sont basés uniquement sur la partie décodeur des Transformers. Ces modèles sont aujourd’hui la norme, et l’immense majorité des LLMs actuels utilisent cette architecture. Leur pré-entraînement est basé sur la prédiction du prochain token : à chaque étape, le modèle a accès au début d’une phrase, et apprend à prédire le token suivant. Pour cette raison, ces modèles sont également qualifiés d’« autorégressifs ». Les modèles GPT (2, 3, 4), Llama (2, 3), Mistral, Gemini, etc. sont tous des decoder-only.

Expand Down

0 comments on commit e01e182

Please sign in to comment.