Skip to content

Commit

Permalink
Built site for gh-pages
Browse files Browse the repository at this point in the history
  • Loading branch information
Quarto GHA Workflow Runner committed Jul 2, 2024
1 parent 88467d4 commit b618bce
Show file tree
Hide file tree
Showing 4 changed files with 20 additions and 19 deletions.
2 changes: 1 addition & 1 deletion .nojekyll
Original file line number Diff line number Diff line change
@@ -1 +1 @@
4f6107a8
933bdd61
7 changes: 4 additions & 3 deletions I-Accompagnement/1_Besoins.html
Original file line number Diff line number Diff line change
Expand Up @@ -292,14 +292,15 @@ <h3 class="anchored" data-anchor-id="besoins-johnny-hélène">1. Besoins (Johnny
<section id="description-cas-dusage" class="level3">
<h3 class="anchored" data-anchor-id="description-cas-dusage">Description cas d’usage</h3>
<ol type="1">
<li>Utilisation des SLM pour la recherche thématique simple en français (en cours, Zhanna) Malgré la disponibilité et l’attractivité des « grands » modèles langages comme GPT et Mixtral, l’utilisation des petits modèles classiques est parfois plus avantageuse, surtout quand les ressources techniques ou l’accès aux données sont restreints. C’est vrai dans le cas d’utilisation d’un SLM basé sur un modèle devenu classique, BERT qui donne la naissance à milliers de modèles spécialisés comme (CamemBERT)[ https://arxiv.org/abs/1911.03894] un modèle en français ou encore (sBERT ou sentenceTransformers)[ https://sbert.net/] permettant un entraînement spécialisé pour une recherche sémantique. Nous considérons un exemple d’utilisation de CamemBERT-base et un exemple de sBERT :</li>
<li>(camembert-bio-base)[https://huggingface.co/almanach/camembert-bio-base] avec ses 111M de paramètres, pour une recherche thématique dans des textes scientifiques biomédicaux. Nous utiliserons les transformers de (HuggingFace)[ https://github.com/huggingface/transformers]</li>
<li><p>Utilisation des SLM pour la recherche thématique simple en français (en cours, Zhanna)<br> Malgré la disponibilité et l’attractivité des « grands » modèles langages comme GPT et Mixtral, l’utilisation des petits modèles classiques est parfois plus avantageuse, surtout quand les ressources techniques ou l’accès aux données sont restreints.<br>
C’est vrai dans le cas d’utilisation d’un SLM basé sur un modèle devenu classique, BERT qui donne la naissance à milliers de modèles spécialisés comme <a href="https://arxiv.org/abs/1911.03894">CamemBERT</a> un modèle en français ou encore <a href="https://sbert.net/">sBERT ou sentenceTransformers</a> permettant un entraînement spécialisé pour une recherche sémantique. <br> **ici plus d’information sur les avantages des SLM (données, environement, spécialisation, travail en local, technique) <br> Nous considérons un exemple d’utilisation de CamemBERT-base et un exemple de sBERT :</p></li>
<li><p><a href="https://huggingface.co/almanach/camembert-bio-base">camembert-bio-base</a> avec ses 111M de paramètres, pour une recherche thématique dans des textes scientifiques biomédicaux. Nous utiliserons les transformers de <a href="https://github.com/huggingface/transformers">HuggingFace</a></p></li>
</ol>
<div class="sourceCode" id="cb2"><pre class="sourceCode python code-with-copy"><code class="sourceCode python"><span id="cb2-1"><a href="#cb2-1" aria-hidden="true" tabindex="-1"></a><span class="im">from</span> transformers <span class="im">import</span> AutoTokenizer, AutoModelForMaskedLM</span>
<span id="cb2-2"><a href="#cb2-2" aria-hidden="true" tabindex="-1"></a>biotokenizer <span class="op">=</span> AutoTokenizer.from_pretrained(<span class="st">"almanach/camembert-bio-base"</span>)</span>
<span id="cb2-3"><a href="#cb2-3" aria-hidden="true" tabindex="-1"></a>biomodel <span class="op">=</span> AutoModelForMaskedLM.from_pretrained(<span class="st">"almanach/camembert-bio-base"</span>)</span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
<ol start="2" type="1">
<li>(all-MiniLM-L6-v2)[ https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2]</li>
<li><a href="https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2">all-MiniLM-L6-v2</a></li>
</ol>
<div class="sourceCode" id="cb3"><pre class="sourceCode python code-with-copy"><code class="sourceCode python"><span id="cb3-1"><a href="#cb3-1" aria-hidden="true" tabindex="-1"></a><span class="im">import</span> requests</span>
<span id="cb3-2"><a href="#cb3-2" aria-hidden="true" tabindex="-1"></a></span>
Expand Down
4 changes: 2 additions & 2 deletions search.json
Original file line number Diff line number Diff line change
Expand Up @@ -227,7 +227,7 @@
"href": "I-Accompagnement/1_Besoins.html",
"title": "Guide du LLM",
"section": "",
"text": "Vision high level de l'intérêt des LLMs\nLes cas d’usages des LLMs sont variés et avant de se lancer et innover grâce aux LLMs, il est nécessaire de bien identifier le besoin qui amène l’utilisation d’un LLM. Pour quoi faire ? Pour quels usages ? Est-ce pour de la génération de texte ? Pour de la classification ? L’objectif de ce chapitre est d’accompagner la réflexion autour de l’identification du besoin et de la collecte des données, avec les différents types de cas d’usages impliquant des LLMs.\nLes cas d’usages :\n\ncas d’usages autour de la génération de contenu\ncas d’usage autour de la classification et de la recherche de contenu\ncas d’usage autour des interactions conversationnelles\n\n\n\n\n\nUtilisation des SLM pour la recherche thématique simple en français (en cours, Zhanna) Malgré la disponibilité et l’attractivité des « grands » modèles langages comme GPT et Mixtral, l’utilisation des petits modèles classiques est parfois plus avantageuse, surtout quand les ressources techniques ou l’accès aux données sont restreints. C’est vrai dans le cas d’utilisation d’un SLM basé sur un modèle devenu classique, BERT qui donne la naissance à milliers de modèles spécialisés comme (CamemBERT)[ https://arxiv.org/abs/1911.03894] un modèle en français ou encore (sBERT ou sentenceTransformers)[ https://sbert.net/] permettant un entraînement spécialisé pour une recherche sémantique. Nous considérons un exemple d’utilisation de CamemBERT-base et un exemple de sBERT :\n(camembert-bio-base)[https://huggingface.co/almanach/camembert-bio-base] avec ses 111M de paramètres, pour une recherche thématique dans des textes scientifiques biomédicaux. Nous utiliserons les transformers de (HuggingFace)[ https://github.com/huggingface/transformers]\n\nfrom transformers import AutoTokenizer, AutoModelForMaskedLM\nbiotokenizer = AutoTokenizer.from_pretrained(\"almanach/camembert-bio-base\")\nbiomodel = AutoModelForMaskedLM.from_pretrained(\"almanach/camembert-bio-base\")\n\n(all-MiniLM-L6-v2)[ https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2]\n\nimport requests\n\napi_url = f\"https://api-inference.huggingface.co/pipeline/feature-extraction/{model_id}\"\nheaders = {\"Authorization\": f\"Bearer {hf_token}\"}\n\nClassifier des accords d’entreprise\n\n\n\nLes accords d’entreprise sont publiés sur LégiFrance. Ces accords peuvent concerner plusieurs thématiques (télétravail, compte épargne temps, droit à la deconnexion). Ces thématiques sont déclarés par les entreprises et sont éventuellement corrigées par la Direction Générale du Travail. Le besoin est alors de détecter automatiquement les thématiques à la lecture de l’accord. Un jeu de données est disponible à l’adresse suivante : accords_publics_xx_to_2022_themes_et_texte.parquet",
"text": "Vision high level de l'intérêt des LLMs\nLes cas d’usages des LLMs sont variés et avant de se lancer et innover grâce aux LLMs, il est nécessaire de bien identifier le besoin qui amène l’utilisation d’un LLM. Pour quoi faire ? Pour quels usages ? Est-ce pour de la génération de texte ? Pour de la classification ? L’objectif de ce chapitre est d’accompagner la réflexion autour de l’identification du besoin et de la collecte des données, avec les différents types de cas d’usages impliquant des LLMs.\nLes cas d’usages :\n\ncas d’usages autour de la génération de contenu\ncas d’usage autour de la classification et de la recherche de contenu\ncas d’usage autour des interactions conversationnelles\n\n\n\n\n\nUtilisation des SLM pour la recherche thématique simple en français (en cours, Zhanna) Malgré la disponibilité et l’attractivité des « grands » modèles langages comme GPT et Mixtral, l’utilisation des petits modèles classiques est parfois plus avantageuse, surtout quand les ressources techniques ou l’accès aux données sont restreints.\nC’est vrai dans le cas d’utilisation d’un SLM basé sur un modèle devenu classique, BERT qui donne la naissance à milliers de modèles spécialisés comme CamemBERT un modèle en français ou encore sBERT ou sentenceTransformers permettant un entraînement spécialisé pour une recherche sémantique. **ici plus d’information sur les avantages des SLM (données, environement, spécialisation, travail en local, technique) Nous considérons un exemple d’utilisation de CamemBERT-base et un exemple de sBERT :\ncamembert-bio-base avec ses 111M de paramètres, pour une recherche thématique dans des textes scientifiques biomédicaux. Nous utiliserons les transformers de HuggingFace\n\nfrom transformers import AutoTokenizer, AutoModelForMaskedLM\nbiotokenizer = AutoTokenizer.from_pretrained(\"almanach/camembert-bio-base\")\nbiomodel = AutoModelForMaskedLM.from_pretrained(\"almanach/camembert-bio-base\")\n\nall-MiniLM-L6-v2\n\nimport requests\n\napi_url = f\"https://api-inference.huggingface.co/pipeline/feature-extraction/{model_id}\"\nheaders = {\"Authorization\": f\"Bearer {hf_token}\"}\n\nClassifier des accords d’entreprise\n\n\n\nLes accords d’entreprise sont publiés sur LégiFrance. Ces accords peuvent concerner plusieurs thématiques (télétravail, compte épargne temps, droit à la deconnexion). Ces thématiques sont déclarés par les entreprises et sont éventuellement corrigées par la Direction Générale du Travail. Le besoin est alors de détecter automatiquement les thématiques à la lecture de l’accord. Un jeu de données est disponible à l’adresse suivante : accords_publics_xx_to_2022_themes_et_texte.parquet",
"crumbs": [
"I-Accompagnement",
"Besoins"
Expand All @@ -238,7 +238,7 @@
"href": "I-Accompagnement/1_Besoins.html#partie-i.-accompagnement-au-changement",
"title": "Guide du LLM",
"section": "",
"text": "Vision high level de l'intérêt des LLMs\nLes cas d’usages des LLMs sont variés et avant de se lancer et innover grâce aux LLMs, il est nécessaire de bien identifier le besoin qui amène l’utilisation d’un LLM. Pour quoi faire ? Pour quels usages ? Est-ce pour de la génération de texte ? Pour de la classification ? L’objectif de ce chapitre est d’accompagner la réflexion autour de l’identification du besoin et de la collecte des données, avec les différents types de cas d’usages impliquant des LLMs.\nLes cas d’usages :\n\ncas d’usages autour de la génération de contenu\ncas d’usage autour de la classification et de la recherche de contenu\ncas d’usage autour des interactions conversationnelles\n\n\n\n\n\nUtilisation des SLM pour la recherche thématique simple en français (en cours, Zhanna) Malgré la disponibilité et l’attractivité des « grands » modèles langages comme GPT et Mixtral, l’utilisation des petits modèles classiques est parfois plus avantageuse, surtout quand les ressources techniques ou l’accès aux données sont restreints. C’est vrai dans le cas d’utilisation d’un SLM basé sur un modèle devenu classique, BERT qui donne la naissance à milliers de modèles spécialisés comme (CamemBERT)[ https://arxiv.org/abs/1911.03894] un modèle en français ou encore (sBERT ou sentenceTransformers)[ https://sbert.net/] permettant un entraînement spécialisé pour une recherche sémantique. Nous considérons un exemple d’utilisation de CamemBERT-base et un exemple de sBERT :\n(camembert-bio-base)[https://huggingface.co/almanach/camembert-bio-base] avec ses 111M de paramètres, pour une recherche thématique dans des textes scientifiques biomédicaux. Nous utiliserons les transformers de (HuggingFace)[ https://github.com/huggingface/transformers]\n\nfrom transformers import AutoTokenizer, AutoModelForMaskedLM\nbiotokenizer = AutoTokenizer.from_pretrained(\"almanach/camembert-bio-base\")\nbiomodel = AutoModelForMaskedLM.from_pretrained(\"almanach/camembert-bio-base\")\n\n(all-MiniLM-L6-v2)[ https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2]\n\nimport requests\n\napi_url = f\"https://api-inference.huggingface.co/pipeline/feature-extraction/{model_id}\"\nheaders = {\"Authorization\": f\"Bearer {hf_token}\"}\n\nClassifier des accords d’entreprise\n\n\n\nLes accords d’entreprise sont publiés sur LégiFrance. Ces accords peuvent concerner plusieurs thématiques (télétravail, compte épargne temps, droit à la deconnexion). Ces thématiques sont déclarés par les entreprises et sont éventuellement corrigées par la Direction Générale du Travail. Le besoin est alors de détecter automatiquement les thématiques à la lecture de l’accord. Un jeu de données est disponible à l’adresse suivante : accords_publics_xx_to_2022_themes_et_texte.parquet",
"text": "Vision high level de l'intérêt des LLMs\nLes cas d’usages des LLMs sont variés et avant de se lancer et innover grâce aux LLMs, il est nécessaire de bien identifier le besoin qui amène l’utilisation d’un LLM. Pour quoi faire ? Pour quels usages ? Est-ce pour de la génération de texte ? Pour de la classification ? L’objectif de ce chapitre est d’accompagner la réflexion autour de l’identification du besoin et de la collecte des données, avec les différents types de cas d’usages impliquant des LLMs.\nLes cas d’usages :\n\ncas d’usages autour de la génération de contenu\ncas d’usage autour de la classification et de la recherche de contenu\ncas d’usage autour des interactions conversationnelles\n\n\n\n\n\nUtilisation des SLM pour la recherche thématique simple en français (en cours, Zhanna) Malgré la disponibilité et l’attractivité des « grands » modèles langages comme GPT et Mixtral, l’utilisation des petits modèles classiques est parfois plus avantageuse, surtout quand les ressources techniques ou l’accès aux données sont restreints.\nC’est vrai dans le cas d’utilisation d’un SLM basé sur un modèle devenu classique, BERT qui donne la naissance à milliers de modèles spécialisés comme CamemBERT un modèle en français ou encore sBERT ou sentenceTransformers permettant un entraînement spécialisé pour une recherche sémantique. **ici plus d’information sur les avantages des SLM (données, environement, spécialisation, travail en local, technique) Nous considérons un exemple d’utilisation de CamemBERT-base et un exemple de sBERT :\ncamembert-bio-base avec ses 111M de paramètres, pour une recherche thématique dans des textes scientifiques biomédicaux. Nous utiliserons les transformers de HuggingFace\n\nfrom transformers import AutoTokenizer, AutoModelForMaskedLM\nbiotokenizer = AutoTokenizer.from_pretrained(\"almanach/camembert-bio-base\")\nbiomodel = AutoModelForMaskedLM.from_pretrained(\"almanach/camembert-bio-base\")\n\nall-MiniLM-L6-v2\n\nimport requests\n\napi_url = f\"https://api-inference.huggingface.co/pipeline/feature-extraction/{model_id}\"\nheaders = {\"Authorization\": f\"Bearer {hf_token}\"}\n\nClassifier des accords d’entreprise\n\n\n\nLes accords d’entreprise sont publiés sur LégiFrance. Ces accords peuvent concerner plusieurs thématiques (télétravail, compte épargne temps, droit à la deconnexion). Ces thématiques sont déclarés par les entreprises et sont éventuellement corrigées par la Direction Générale du Travail. Le besoin est alors de détecter automatiquement les thématiques à la lecture de l’accord. Un jeu de données est disponible à l’adresse suivante : accords_publics_xx_to_2022_themes_et_texte.parquet",
"crumbs": [
"I-Accompagnement",
"Besoins"
Expand Down
26 changes: 13 additions & 13 deletions sitemap.xml
Original file line number Diff line number Diff line change
Expand Up @@ -2,54 +2,54 @@
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://etalab.github.io/programme10pourcent-kallm/III-Deploiements/4_Infras_administrations.html</loc>
<lastmod>2024-07-02T14:06:32.304Z</lastmod>
<lastmod>2024-07-02T14:51:08.943Z</lastmod>
</url>
<url>
<loc>https://etalab.github.io/programme10pourcent-kallm/III-Deploiements/2_Socle_avance.html</loc>
<lastmod>2024-07-02T14:06:32.300Z</lastmod>
<lastmod>2024-07-02T14:51:08.943Z</lastmod>
</url>
<url>
<loc>https://etalab.github.io/programme10pourcent-kallm/II-Developpements/3_Evaluations.html</loc>
<lastmod>2024-07-02T14:06:32.300Z</lastmod>
<lastmod>2024-07-02T14:51:08.939Z</lastmod>
</url>
<url>
<loc>https://etalab.github.io/programme10pourcent-kallm/II-Developpements/2_RAG.html</loc>
<lastmod>2024-07-02T14:06:32.300Z</lastmod>
<lastmod>2024-07-02T14:51:08.939Z</lastmod>
</url>
<url>
<loc>https://etalab.github.io/programme10pourcent-kallm/I-Accompagnement/4_Impacts.html</loc>
<lastmod>2024-07-02T14:06:32.300Z</lastmod>
<lastmod>2024-07-02T14:51:08.939Z</lastmod>
</url>
<url>
<loc>https://etalab.github.io/programme10pourcent-kallm/I-Accompagnement/3_Acculturation.html</loc>
<lastmod>2024-07-02T14:06:32.300Z</lastmod>
<lastmod>2024-07-02T14:51:08.939Z</lastmod>
</url>
<url>
<loc>https://etalab.github.io/programme10pourcent-kallm/Guide.html</loc>
<lastmod>2024-07-02T14:06:32.300Z</lastmod>
<lastmod>2024-07-02T14:51:08.939Z</lastmod>
</url>
<url>
<loc>https://etalab.github.io/programme10pourcent-kallm/index.html</loc>
<lastmod>2024-07-02T14:06:32.308Z</lastmod>
<lastmod>2024-07-02T14:51:08.947Z</lastmod>
</url>
<url>
<loc>https://etalab.github.io/programme10pourcent-kallm/I-Accompagnement/1_Besoins.html</loc>
<lastmod>2024-07-02T14:06:32.300Z</lastmod>
<lastmod>2024-07-02T14:51:08.939Z</lastmod>
</url>
<url>
<loc>https://etalab.github.io/programme10pourcent-kallm/I-Accompagnement/2_Deja_Fait_Admin.html</loc>
<lastmod>2024-07-02T14:06:32.300Z</lastmod>
<lastmod>2024-07-02T14:51:08.939Z</lastmod>
</url>
<url>
<loc>https://etalab.github.io/programme10pourcent-kallm/II-Developpements/1_Revue_Technique_LLM.html</loc>
<lastmod>2024-07-02T14:06:32.300Z</lastmod>
<lastmod>2024-07-02T14:51:08.939Z</lastmod>
</url>
<url>
<loc>https://etalab.github.io/programme10pourcent-kallm/III-Deploiements/3_Socle_Production.html</loc>
<lastmod>2024-07-02T14:06:32.304Z</lastmod>
<lastmod>2024-07-02T14:51:08.943Z</lastmod>
</url>
<url>
<loc>https://etalab.github.io/programme10pourcent-kallm/III-Deploiements/1_Socle_minimal.html</loc>
<lastmod>2024-07-02T14:06:32.300Z</lastmod>
<lastmod>2024-07-02T14:51:08.943Z</lastmod>
</url>
</urlset>

0 comments on commit b618bce

Please sign in to comment.