diff --git a/.nojekyll b/.nojekyll index 174a50d..314e0fc 100644 --- a/.nojekyll +++ b/.nojekyll @@ -1 +1 @@ -4f6107a8 \ No newline at end of file +933bdd61 \ No newline at end of file diff --git a/I-Accompagnement/1_Besoins.html b/I-Accompagnement/1_Besoins.html index 1930878..bc3fac0 100644 --- a/I-Accompagnement/1_Besoins.html +++ b/I-Accompagnement/1_Besoins.html @@ -292,14 +292,15 @@
Utilisation des SLM pour la recherche thématique simple en français (en cours, Zhanna)
Malgré la disponibilité et l’attractivité des « grands » modèles langages comme GPT et Mixtral, l’utilisation des petits modèles classiques est parfois plus avantageuse, surtout quand les ressources techniques ou l’accès aux données sont restreints.
+C’est vrai dans le cas d’utilisation d’un SLM basé sur un modèle devenu classique, BERT qui donne la naissance à milliers de modèles spécialisés comme CamemBERT un modèle en français ou encore sBERT ou sentenceTransformers permettant un entraînement spécialisé pour une recherche sémantique.
**ici plus d’information sur les avantages des SLM (données, environement, spécialisation, travail en local, technique)
Nous considérons un exemple d’utilisation de CamemBERT-base et un exemple de sBERT :
camembert-bio-base avec ses 111M de paramètres, pour une recherche thématique dans des textes scientifiques biomédicaux. Nous utiliserons les transformers de HuggingFace
from transformers import AutoTokenizer, AutoModelForMaskedLM
= AutoTokenizer.from_pretrained("almanach/camembert-bio-base")
biotokenizer = AutoModelForMaskedLM.from_pretrained("almanach/camembert-bio-base") biomodel
import requests
diff --git a/search.json b/search.json
index 2f6baa5..5c72c71 100644
--- a/search.json
+++ b/search.json
@@ -227,7 +227,7 @@
"href": "I-Accompagnement/1_Besoins.html",
"title": "Guide du LLM",
"section": "",
- "text": "Vision high level de l'intérêt des LLMs\nLes cas d’usages des LLMs sont variés et avant de se lancer et innover grâce aux LLMs, il est nécessaire de bien identifier le besoin qui amène l’utilisation d’un LLM. Pour quoi faire ? Pour quels usages ? Est-ce pour de la génération de texte ? Pour de la classification ? L’objectif de ce chapitre est d’accompagner la réflexion autour de l’identification du besoin et de la collecte des données, avec les différents types de cas d’usages impliquant des LLMs.\nLes cas d’usages :\n\ncas d’usages autour de la génération de contenu\ncas d’usage autour de la classification et de la recherche de contenu\ncas d’usage autour des interactions conversationnelles\n\n\n\n\n\nUtilisation des SLM pour la recherche thématique simple en français (en cours, Zhanna) Malgré la disponibilité et l’attractivité des « grands » modèles langages comme GPT et Mixtral, l’utilisation des petits modèles classiques est parfois plus avantageuse, surtout quand les ressources techniques ou l’accès aux données sont restreints. C’est vrai dans le cas d’utilisation d’un SLM basé sur un modèle devenu classique, BERT qui donne la naissance à milliers de modèles spécialisés comme (CamemBERT)[ https://arxiv.org/abs/1911.03894] un modèle en français ou encore (sBERT ou sentenceTransformers)[ https://sbert.net/] permettant un entraînement spécialisé pour une recherche sémantique. Nous considérons un exemple d’utilisation de CamemBERT-base et un exemple de sBERT :\n(camembert-bio-base)[https://huggingface.co/almanach/camembert-bio-base] avec ses 111M de paramètres, pour une recherche thématique dans des textes scientifiques biomédicaux. Nous utiliserons les transformers de (HuggingFace)[ https://github.com/huggingface/transformers]\n\nfrom transformers import AutoTokenizer, AutoModelForMaskedLM\nbiotokenizer = AutoTokenizer.from_pretrained(\"almanach/camembert-bio-base\")\nbiomodel = AutoModelForMaskedLM.from_pretrained(\"almanach/camembert-bio-base\")\n\n(all-MiniLM-L6-v2)[ https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2]\n\nimport requests\n\napi_url = f\"https://api-inference.huggingface.co/pipeline/feature-extraction/{model_id}\"\nheaders = {\"Authorization\": f\"Bearer {hf_token}\"}\n\nClassifier des accords d’entreprise\n\n\n\nLes accords d’entreprise sont publiés sur LégiFrance. Ces accords peuvent concerner plusieurs thématiques (télétravail, compte épargne temps, droit à la deconnexion). Ces thématiques sont déclarés par les entreprises et sont éventuellement corrigées par la Direction Générale du Travail. Le besoin est alors de détecter automatiquement les thématiques à la lecture de l’accord. Un jeu de données est disponible à l’adresse suivante : accords_publics_xx_to_2022_themes_et_texte.parquet",
+ "text": "Vision high level de l'intérêt des LLMs\nLes cas d’usages des LLMs sont variés et avant de se lancer et innover grâce aux LLMs, il est nécessaire de bien identifier le besoin qui amène l’utilisation d’un LLM. Pour quoi faire ? Pour quels usages ? Est-ce pour de la génération de texte ? Pour de la classification ? L’objectif de ce chapitre est d’accompagner la réflexion autour de l’identification du besoin et de la collecte des données, avec les différents types de cas d’usages impliquant des LLMs.\nLes cas d’usages :\n\ncas d’usages autour de la génération de contenu\ncas d’usage autour de la classification et de la recherche de contenu\ncas d’usage autour des interactions conversationnelles\n\n\n\n\n\nUtilisation des SLM pour la recherche thématique simple en français (en cours, Zhanna) Malgré la disponibilité et l’attractivité des « grands » modèles langages comme GPT et Mixtral, l’utilisation des petits modèles classiques est parfois plus avantageuse, surtout quand les ressources techniques ou l’accès aux données sont restreints.\nC’est vrai dans le cas d’utilisation d’un SLM basé sur un modèle devenu classique, BERT qui donne la naissance à milliers de modèles spécialisés comme CamemBERT un modèle en français ou encore sBERT ou sentenceTransformers permettant un entraînement spécialisé pour une recherche sémantique. **ici plus d’information sur les avantages des SLM (données, environement, spécialisation, travail en local, technique) Nous considérons un exemple d’utilisation de CamemBERT-base et un exemple de sBERT :\ncamembert-bio-base avec ses 111M de paramètres, pour une recherche thématique dans des textes scientifiques biomédicaux. Nous utiliserons les transformers de HuggingFace\n\nfrom transformers import AutoTokenizer, AutoModelForMaskedLM\nbiotokenizer = AutoTokenizer.from_pretrained(\"almanach/camembert-bio-base\")\nbiomodel = AutoModelForMaskedLM.from_pretrained(\"almanach/camembert-bio-base\")\n\nall-MiniLM-L6-v2\n\nimport requests\n\napi_url = f\"https://api-inference.huggingface.co/pipeline/feature-extraction/{model_id}\"\nheaders = {\"Authorization\": f\"Bearer {hf_token}\"}\n\nClassifier des accords d’entreprise\n\n\n\nLes accords d’entreprise sont publiés sur LégiFrance. Ces accords peuvent concerner plusieurs thématiques (télétravail, compte épargne temps, droit à la deconnexion). Ces thématiques sont déclarés par les entreprises et sont éventuellement corrigées par la Direction Générale du Travail. Le besoin est alors de détecter automatiquement les thématiques à la lecture de l’accord. Un jeu de données est disponible à l’adresse suivante : accords_publics_xx_to_2022_themes_et_texte.parquet",
"crumbs": [
"I-Accompagnement",
"Besoins"
@@ -238,7 +238,7 @@
"href": "I-Accompagnement/1_Besoins.html#partie-i.-accompagnement-au-changement",
"title": "Guide du LLM",
"section": "",
- "text": "Vision high level de l'intérêt des LLMs\nLes cas d’usages des LLMs sont variés et avant de se lancer et innover grâce aux LLMs, il est nécessaire de bien identifier le besoin qui amène l’utilisation d’un LLM. Pour quoi faire ? Pour quels usages ? Est-ce pour de la génération de texte ? Pour de la classification ? L’objectif de ce chapitre est d’accompagner la réflexion autour de l’identification du besoin et de la collecte des données, avec les différents types de cas d’usages impliquant des LLMs.\nLes cas d’usages :\n\ncas d’usages autour de la génération de contenu\ncas d’usage autour de la classification et de la recherche de contenu\ncas d’usage autour des interactions conversationnelles\n\n\n\n\n\nUtilisation des SLM pour la recherche thématique simple en français (en cours, Zhanna) Malgré la disponibilité et l’attractivité des « grands » modèles langages comme GPT et Mixtral, l’utilisation des petits modèles classiques est parfois plus avantageuse, surtout quand les ressources techniques ou l’accès aux données sont restreints. C’est vrai dans le cas d’utilisation d’un SLM basé sur un modèle devenu classique, BERT qui donne la naissance à milliers de modèles spécialisés comme (CamemBERT)[ https://arxiv.org/abs/1911.03894] un modèle en français ou encore (sBERT ou sentenceTransformers)[ https://sbert.net/] permettant un entraînement spécialisé pour une recherche sémantique. Nous considérons un exemple d’utilisation de CamemBERT-base et un exemple de sBERT :\n(camembert-bio-base)[https://huggingface.co/almanach/camembert-bio-base] avec ses 111M de paramètres, pour une recherche thématique dans des textes scientifiques biomédicaux. Nous utiliserons les transformers de (HuggingFace)[ https://github.com/huggingface/transformers]\n\nfrom transformers import AutoTokenizer, AutoModelForMaskedLM\nbiotokenizer = AutoTokenizer.from_pretrained(\"almanach/camembert-bio-base\")\nbiomodel = AutoModelForMaskedLM.from_pretrained(\"almanach/camembert-bio-base\")\n\n(all-MiniLM-L6-v2)[ https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2]\n\nimport requests\n\napi_url = f\"https://api-inference.huggingface.co/pipeline/feature-extraction/{model_id}\"\nheaders = {\"Authorization\": f\"Bearer {hf_token}\"}\n\nClassifier des accords d’entreprise\n\n\n\nLes accords d’entreprise sont publiés sur LégiFrance. Ces accords peuvent concerner plusieurs thématiques (télétravail, compte épargne temps, droit à la deconnexion). Ces thématiques sont déclarés par les entreprises et sont éventuellement corrigées par la Direction Générale du Travail. Le besoin est alors de détecter automatiquement les thématiques à la lecture de l’accord. Un jeu de données est disponible à l’adresse suivante : accords_publics_xx_to_2022_themes_et_texte.parquet",
+ "text": "Vision high level de l'intérêt des LLMs\nLes cas d’usages des LLMs sont variés et avant de se lancer et innover grâce aux LLMs, il est nécessaire de bien identifier le besoin qui amène l’utilisation d’un LLM. Pour quoi faire ? Pour quels usages ? Est-ce pour de la génération de texte ? Pour de la classification ? L’objectif de ce chapitre est d’accompagner la réflexion autour de l’identification du besoin et de la collecte des données, avec les différents types de cas d’usages impliquant des LLMs.\nLes cas d’usages :\n\ncas d’usages autour de la génération de contenu\ncas d’usage autour de la classification et de la recherche de contenu\ncas d’usage autour des interactions conversationnelles\n\n\n\n\n\nUtilisation des SLM pour la recherche thématique simple en français (en cours, Zhanna) Malgré la disponibilité et l’attractivité des « grands » modèles langages comme GPT et Mixtral, l’utilisation des petits modèles classiques est parfois plus avantageuse, surtout quand les ressources techniques ou l’accès aux données sont restreints.\nC’est vrai dans le cas d’utilisation d’un SLM basé sur un modèle devenu classique, BERT qui donne la naissance à milliers de modèles spécialisés comme CamemBERT un modèle en français ou encore sBERT ou sentenceTransformers permettant un entraînement spécialisé pour une recherche sémantique. **ici plus d’information sur les avantages des SLM (données, environement, spécialisation, travail en local, technique) Nous considérons un exemple d’utilisation de CamemBERT-base et un exemple de sBERT :\ncamembert-bio-base avec ses 111M de paramètres, pour une recherche thématique dans des textes scientifiques biomédicaux. Nous utiliserons les transformers de HuggingFace\n\nfrom transformers import AutoTokenizer, AutoModelForMaskedLM\nbiotokenizer = AutoTokenizer.from_pretrained(\"almanach/camembert-bio-base\")\nbiomodel = AutoModelForMaskedLM.from_pretrained(\"almanach/camembert-bio-base\")\n\nall-MiniLM-L6-v2\n\nimport requests\n\napi_url = f\"https://api-inference.huggingface.co/pipeline/feature-extraction/{model_id}\"\nheaders = {\"Authorization\": f\"Bearer {hf_token}\"}\n\nClassifier des accords d’entreprise\n\n\n\nLes accords d’entreprise sont publiés sur LégiFrance. Ces accords peuvent concerner plusieurs thématiques (télétravail, compte épargne temps, droit à la deconnexion). Ces thématiques sont déclarés par les entreprises et sont éventuellement corrigées par la Direction Générale du Travail. Le besoin est alors de détecter automatiquement les thématiques à la lecture de l’accord. Un jeu de données est disponible à l’adresse suivante : accords_publics_xx_to_2022_themes_et_texte.parquet",
"crumbs": [
"I-Accompagnement",
"Besoins"
diff --git a/sitemap.xml b/sitemap.xml
index 8fa1d2a..e4af836 100644
--- a/sitemap.xml
+++ b/sitemap.xml
@@ -2,54 +2,54 @@
https://etalab.github.io/programme10pourcent-kallm/III-Deploiements/4_Infras_administrations.html
- 2024-07-02T14:06:32.304Z
+ 2024-07-02T14:51:08.943Z
https://etalab.github.io/programme10pourcent-kallm/III-Deploiements/2_Socle_avance.html
- 2024-07-02T14:06:32.300Z
+ 2024-07-02T14:51:08.943Z
https://etalab.github.io/programme10pourcent-kallm/II-Developpements/3_Evaluations.html
- 2024-07-02T14:06:32.300Z
+ 2024-07-02T14:51:08.939Z
https://etalab.github.io/programme10pourcent-kallm/II-Developpements/2_RAG.html
- 2024-07-02T14:06:32.300Z
+ 2024-07-02T14:51:08.939Z
https://etalab.github.io/programme10pourcent-kallm/I-Accompagnement/4_Impacts.html
- 2024-07-02T14:06:32.300Z
+ 2024-07-02T14:51:08.939Z
https://etalab.github.io/programme10pourcent-kallm/I-Accompagnement/3_Acculturation.html
- 2024-07-02T14:06:32.300Z
+ 2024-07-02T14:51:08.939Z
https://etalab.github.io/programme10pourcent-kallm/Guide.html
- 2024-07-02T14:06:32.300Z
+ 2024-07-02T14:51:08.939Z
https://etalab.github.io/programme10pourcent-kallm/index.html
- 2024-07-02T14:06:32.308Z
+ 2024-07-02T14:51:08.947Z
https://etalab.github.io/programme10pourcent-kallm/I-Accompagnement/1_Besoins.html
- 2024-07-02T14:06:32.300Z
+ 2024-07-02T14:51:08.939Z
https://etalab.github.io/programme10pourcent-kallm/I-Accompagnement/2_Deja_Fait_Admin.html
- 2024-07-02T14:06:32.300Z
+ 2024-07-02T14:51:08.939Z
https://etalab.github.io/programme10pourcent-kallm/II-Developpements/1_Revue_Technique_LLM.html
- 2024-07-02T14:06:32.300Z
+ 2024-07-02T14:51:08.939Z
https://etalab.github.io/programme10pourcent-kallm/III-Deploiements/3_Socle_Production.html
- 2024-07-02T14:06:32.304Z
+ 2024-07-02T14:51:08.943Z
https://etalab.github.io/programme10pourcent-kallm/III-Deploiements/1_Socle_minimal.html
- 2024-07-02T14:06:32.300Z
+ 2024-07-02T14:51:08.943Z