From 42947eed6db9ee744c1de9956e9ed3372d562a1c Mon Sep 17 00:00:00 2001 From: johnplt Date: Fri, 8 Nov 2024 11:28:46 +0000 Subject: [PATCH 1/9] Update --- I-Accompagnement/{3_Acculturation.qmd => 2_Acculturation.qmd} | 0 I-Accompagnement/{4_Impacts.qmd => 3_Impacts.qmd} | 0 2 files changed, 0 insertions(+), 0 deletions(-) rename I-Accompagnement/{3_Acculturation.qmd => 2_Acculturation.qmd} (100%) rename I-Accompagnement/{4_Impacts.qmd => 3_Impacts.qmd} (100%) diff --git a/I-Accompagnement/3_Acculturation.qmd b/I-Accompagnement/2_Acculturation.qmd similarity index 100% rename from I-Accompagnement/3_Acculturation.qmd rename to I-Accompagnement/2_Acculturation.qmd diff --git a/I-Accompagnement/4_Impacts.qmd b/I-Accompagnement/3_Impacts.qmd similarity index 100% rename from I-Accompagnement/4_Impacts.qmd rename to I-Accompagnement/3_Impacts.qmd From 2efe5c26c07533ed0b6d0dd8eceab0e4f4968f55 Mon Sep 17 00:00:00 2001 From: johnplt Date: Fri, 8 Nov 2024 11:28:57 +0000 Subject: [PATCH 2/9] Update --- I-Accompagnement/0_Intro.qmd | 0 I-Accompagnement/1_cas_usage.qmd | 40 +++++++++++++++++--------- I-Accompagnement/2_Deja_Fait_Admin.qmd | 32 --------------------- 3 files changed, 26 insertions(+), 46 deletions(-) create mode 100644 I-Accompagnement/0_Intro.qmd delete mode 100644 I-Accompagnement/2_Deja_Fait_Admin.qmd diff --git a/I-Accompagnement/0_Intro.qmd b/I-Accompagnement/0_Intro.qmd new file mode 100644 index 0000000..e69de29 diff --git a/I-Accompagnement/1_cas_usage.qmd b/I-Accompagnement/1_cas_usage.qmd index dffaccf..cb28f05 100644 --- a/I-Accompagnement/1_cas_usage.qmd +++ b/I-Accompagnement/1_cas_usage.qmd @@ -31,6 +31,7 @@ Par exemple, des LLMs peuvent être utilisés pour identifier les thématiques d | Institution | Nom du Projet | Contact | Expérimentation/Production/Recherche| | -------- | ------- |------- |------- | |Banque de France | Enquête sur les Tendances régionales | Farid.OUKACI@banque-france.fr
Olivier.LANTRAN@banque-france.fr | Expérimentation | +|LabIA DNUM | [LLamandement](https://gitlab.adullact.net/dgfip/projets-ia/llamandement) : LLM finetuné permettant d'accélerer le traitement d'amendements et projets de loi (notamment via la synthétisation des textes).| Farid.OUKACI@banque-france.fr
Olivier.LANTRAN@banque-france.fr | Expérimentation | - **Faire une analyse de sentiment d’un corpus traitant d’une thématique**. @@ -63,6 +64,31 @@ Par exemple, à partir de documents réglementaires extraire 15 informations-cl | -------- | ------- |------- |------- | |Banque de France | Veridic | Guillaume.LOMBARDO@banque-france.fr | Passage en production prévu fin 2025 | +- **Classifier des accords d'entreprise** +Les accords d'entreprise sont publiés sur [LégiFrance](https://www.legifrance.gouv.fr/liste/acco). +Ces accords peuvent concerner plusieurs thématiques (télétravail, compte épargne temps, droit à la deconnexion).Ces thématiques sont déclarés par les entreprises et sont éventuellement corrigées par la Direction Générale du Travail.Le besoin est alors de détecter automatiquement les thématiques à la lecture de l'accord. Un jeu de données est disponible à l'adresse suivante : [accords_publics_xx_to_2022_themes_et_texte.parquet](https://minio.lab.sspcloud.fr/cthiounn2/Accords/accords_publics_xx_to_2022_themes_et_texte.parquet) + +| Institution | Nom du Projet | Contact | Expérimentation/Production/Recherche| +| -------- | ------- |------- |------- | +| | | | | + +- **IA générative** + +| Institution | Nom du Projet | Contact | Expérimentation/Production/Recherche| +| -------- | ------- |------- |------- | +| | | | | + +Projet mené par le LabIA de la DINUM + - [Albert github](https://github.com/etalab-ia/albert) : Outils de déploiements des modèles Albert + - [Modèles Albert](Ajouter adresse Hugging Face) + - [Albert France Services](https://www.france-services.gouv.fr/taxonomy/term/174#:~:text=%C2%AB%20Albert%20France%20services%20%C2%BB%20facilite%20les,des%20cas%20d%27usage%20donn%C3%A9s.) : Projet à destination de + [France Service](https://www.france-services.gouv.fr/) et visant à appuyer ses conseillers dans la réalisation de leurs missions. Ce projet se base principalement + [Albert github](https://github.com/etalab-ia/albert) + [Albert hugging face]() + + +> Pour plus de projets IA (au sens large) dans l'administration se référer au lien : https://grist.numerique.gouv.fr/o/beta-gouv-ia/9wTgwEbwqmwW/Ressources/p/1 + ## (Intégrer les cas d'usage ci-dessous au sein des catégories pré-citées ou en ajouter en faisant ressortir leur spécificité) ## Description cas d'usage @@ -90,17 +116,3 @@ import requests api_url = f"https://api-inference.huggingface.co/pipeline/feature-extraction/{model_id}" headers = {"Authorization": f"Bearer {hf_token}"} ``` - -## (à intéger dans les exemples de cas d'usage du fichier cas_usage.qmd et dans la partie IV-Exemples) - - 2. Classifier des accords d'entreprise - - -### Classifier des accords d'entreprise - - Les accords d'entreprise sont publiés sur [LégiFrance](https://www.legifrance.gouv.fr/liste/acco). - Ces accords peuvent concerner plusieurs thématiques (télétravail, compte épargne temps, droit à la deconnexion). - Ces thématiques sont déclarés par les entreprises et sont éventuellement corrigées par la Direction Générale du Travail. - Le besoin est alors de détecter automatiquement les thématiques - à la lecture de l'accord. - Un jeu de données est disponible à l'adresse suivante : [accords_publics_xx_to_2022_themes_et_texte.parquet](https://minio.lab.sspcloud.fr/cthiounn2/Accords/accords_publics_xx_to_2022_themes_et_texte.parquet) diff --git a/I-Accompagnement/2_Deja_Fait_Admin.qmd b/I-Accompagnement/2_Deja_Fait_Admin.qmd deleted file mode 100644 index 486ae20..0000000 --- a/I-Accompagnement/2_Deja_Fait_Admin.qmd +++ /dev/null @@ -1,32 +0,0 @@ ---- -title: "PARTIE I. Accompagnement au changement" -author: "équipe KALLM" -date: "2024-06-07" -format: html ---- - -## (à intéger dans la partie IV-Exemples) - -1) [Albert - Dinum] : Projet mené par le LabIA de la DINUM - - - [Albert github](https://github.com/etalab-ia/albert) : Outils de déploiements des modèles Albert - - [Modèles Albert](Ajouter adresse Hugging Face) - - [Albert France Services](https://www.france-services.gouv.fr/taxonomy/term/174#:~:text=%C2%AB%20Albert%20France%20services%20%C2%BB%20facilite%20les,des%20cas%20d%27usage%20donn%C3%A9s.) : Projet à destination de - [France Service](https://www.france-services.gouv.fr/) et visant à appuyer ses conseillers dans la réalisation de leurs missions. Ce projet se base principalement - -2) [LLamandement](https://gitlab.adullact.net/dgfip/projets-ia/llamandement) - LLM finetuné permettant d'accélerer le traitement d'amendements et projets de loi (notamment via la synthétisation des textes). - - -> Pour plus de projets IA (au sens large) dans l'administration se référer au lien : https://grist.numerique.gouv.fr/o/beta-gouv-ia/9wTgwEbwqmwW/Ressources/p/1 - -### B. Modèles - -[Albert github](https://github.com/etalab-ia/albert) -[Albert hugging face]() - -### C. Datasets - -### D. Infrastructure - des modeles - des datasets/open data ? - From 00a8400111ea6646daffa875dcec0b497a37da25 Mon Sep 17 00:00:00 2001 From: HelCJ <168741456+HelCJ@users.noreply.github.com> Date: Thu, 14 Nov 2024 18:43:18 +0100 Subject: [PATCH 3/9] Update 0_Intro.qmd Introduction aux LLM --- I-Accompagnement/0_Intro.qmd | 14 ++++++++++++++ 1 file changed, 14 insertions(+) diff --git a/I-Accompagnement/0_Intro.qmd b/I-Accompagnement/0_Intro.qmd index e69de29..3e00341 100644 --- a/I-Accompagnement/0_Intro.qmd +++ b/I-Accompagnement/0_Intro.qmd @@ -0,0 +1,14 @@ +## Introduction aux Large Language Models (LLM) + +Les Large Language Models sont des algorithmes d’intelligence artificielle destinés à exploiter des documents non-structurés (corpus de textes), afin d’en extraire des informations utiles ou de créer une nouvelle forme d’information à partir de cette base documentaires (ex : réponses à des questions, résumé, etc…). + +Les documents forment les observations statistiques considérées (à rapprocher des « individus ») et leur ensemble forme un corpus (à rapprocher d’une « population »). +Les mots ou les chaînes de caractère forment les variables. + +L’idée est de transformer un document en un vecteur et le corpus en une matrice, avec les documents en ligne et les mots ou chaînes de caractère en colonnes. + +Les matrices en résultant sont potentiellement d’une très grande dimension (nombre de mots utilisés dans le corpus en colonnes), et en même temps creuses (les mots/chaînes de caractères employés dans le corpus peuvent être utilisés uniquement dans quelques documents du corpus). + +Aussi, après l’importation d’un corpus de textes, la première étape consiste en une phase de pré-traitement visant à réduire la dimension de cette matrice : enlever le bruit(ponctuation, mots usuels n’apportant pas d’information, etc…), lemmatiser ou raciniser (ex : garder exclusivement « jard » pour « jardin », « jardiner », « jardinage », …), faire une analyse en composantes principales… + +L’utilisation d’outils de machine learning sur la matrice de dimension plus réduite ainsi obtenue permet notamment de comparer les documents, d’analyser la similarité ou la distance entre eux, d’identifier des thèmes abordés et de catégoriser les documents en fonction de thématiques, afin de filtrer ou de produire des statistiques. From 4b28af40c01d907011f9977f8105950b511b29ab Mon Sep 17 00:00:00 2001 From: HelCJ <168741456+HelCJ@users.noreply.github.com> Date: Thu, 14 Nov 2024 18:47:23 +0100 Subject: [PATCH 4/9] Update 0_Intro.qmd --- I-Accompagnement/0_Intro.qmd | 6 +++--- 1 file changed, 3 insertions(+), 3 deletions(-) diff --git a/I-Accompagnement/0_Intro.qmd b/I-Accompagnement/0_Intro.qmd index 3e00341..6d76ca2 100644 --- a/I-Accompagnement/0_Intro.qmd +++ b/I-Accompagnement/0_Intro.qmd @@ -3,12 +3,12 @@ Les Large Language Models sont des algorithmes d’intelligence artificielle destinés à exploiter des documents non-structurés (corpus de textes), afin d’en extraire des informations utiles ou de créer une nouvelle forme d’information à partir de cette base documentaires (ex : réponses à des questions, résumé, etc…). Les documents forment les observations statistiques considérées (à rapprocher des « individus ») et leur ensemble forme un corpus (à rapprocher d’une « population »). -Les mots ou les chaînes de caractère forment les variables. +Les mots ou les chaînes de caractères forment les variables. L’idée est de transformer un document en un vecteur et le corpus en une matrice, avec les documents en ligne et les mots ou chaînes de caractère en colonnes. -Les matrices en résultant sont potentiellement d’une très grande dimension (nombre de mots utilisés dans le corpus en colonnes), et en même temps creuses (les mots/chaînes de caractères employés dans le corpus peuvent être utilisés uniquement dans quelques documents du corpus). +Les matrices en résultant sont potentiellement d’une très grande dimension (nombre de mots/chaînes de caractères utilisés dans le corpus en colonnes), et en même temps creuses (les mots/chaînes de caractères employés dans le corpus peuvent être utilisés uniquement dans quelques documents du corpus). -Aussi, après l’importation d’un corpus de textes, la première étape consiste en une phase de pré-traitement visant à réduire la dimension de cette matrice : enlever le bruit(ponctuation, mots usuels n’apportant pas d’information, etc…), lemmatiser ou raciniser (ex : garder exclusivement « jard » pour « jardin », « jardiner », « jardinage », …), faire une analyse en composantes principales… +Aussi, après l’importation d’un corpus de textes, la première étape consiste en une phase de pré-traitement visant à réduire la dimension de cette matrice : enlever le bruit(ponctuation, mots usuels n’apportant pas d’information, etc…), lemmatiser ou raciniser (ex : garder exclusivement « finan » pour « financer », « financier », « financement », …), faire une analyse en composantes principales… L’utilisation d’outils de machine learning sur la matrice de dimension plus réduite ainsi obtenue permet notamment de comparer les documents, d’analyser la similarité ou la distance entre eux, d’identifier des thèmes abordés et de catégoriser les documents en fonction de thématiques, afin de filtrer ou de produire des statistiques. From 9632cce91d85d5bebd19c171b1a9edace3d7acb3 Mon Sep 17 00:00:00 2001 From: zhannasan <57229105+zhannasan@users.noreply.github.com> Date: Fri, 15 Nov 2024 08:42:18 +0100 Subject: [PATCH 5/9] fix cas d'usage --- I-Accompagnement/1_cas_usage.qmd | 30 +----------------------------- 1 file changed, 1 insertion(+), 29 deletions(-) diff --git a/I-Accompagnement/1_cas_usage.qmd b/I-Accompagnement/1_cas_usage.qmd index cb28f05..aa87865 100644 --- a/I-Accompagnement/1_cas_usage.qmd +++ b/I-Accompagnement/1_cas_usage.qmd @@ -87,32 +87,4 @@ Projet mené par le LabIA de la DINUM [Albert hugging face]() -> Pour plus de projets IA (au sens large) dans l'administration se référer au lien : https://grist.numerique.gouv.fr/o/beta-gouv-ia/9wTgwEbwqmwW/Ressources/p/1 - -## (Intégrer les cas d'usage ci-dessous au sein des catégories pré-citées ou en ajouter en faisant ressortir leur spécificité) - -## Description cas d'usage - - 1. Utilisation des SLM pour la recherche thématique simple en français (en cours, Zhanna)
-Malgré la disponibilité et l’attractivité des « grands » modèles langages comme GPT et Mixtral, l’utilisation des petits modèles classiques est parfois plus avantageuse, surtout quand les ressources techniques ou l’accès aux données sont restreints.\ -C’est vrai dans le cas d’utilisation d’un SLM basé sur un modèle devenu classique, BERT qui donne la naissance à milliers de modèles spécialisés comme [CamemBERT](https://arxiv.org/abs/1911.03894) un modèle en français ou encore [sBERT ou sentenceTransformers](https://sbert.net/) permettant un entraînement spécialisé pour une recherche sémantique. -
-**ici plus d'information sur les avantages des SLM (données, environement, spécialisation, travail en local, technique) -
-Nous considérons un exemple d’utilisation de CamemBERT-base et un exemple de sBERT : - -1. [camembert-bio-base](https://huggingface.co/almanach/camembert-bio-base) avec ses 111M de paramètres, pour une recherche thématique dans des textes scientifiques biomédicaux. -Nous utiliserons les transformers de [HuggingFace](https://github.com/huggingface/transformers) -```python -from transformers import AutoTokenizer, AutoModelForMaskedLM -biotokenizer = AutoTokenizer.from_pretrained("almanach/camembert-bio-base") -biomodel = AutoModelForMaskedLM.from_pretrained("almanach/camembert-bio-base") -``` - -2. [all-MiniLM-L6-v2](https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2) -```python -import requests - -api_url = f"https://api-inference.huggingface.co/pipeline/feature-extraction/{model_id}" -headers = {"Authorization": f"Bearer {hf_token}"} -``` +> Pour plus de projets IA (au sens large) dans l'administration se référer au lien : https://grist.numerique.gouv.fr/o/beta-gouv-ia/9wTgwEbwqmwW/Ressources/p/1 \ No newline at end of file From 4d77a2a753801f0f8d52e6ad5a0276779307e6b0 Mon Sep 17 00:00:00 2001 From: zhannasan <57229105+zhannasan@users.noreply.github.com> Date: Fri, 15 Nov 2024 09:20:17 +0100 Subject: [PATCH 6/9] add to intro --- I-Accompagnement/0_Intro.qmd | 34 +++++++++++++++++++++++++++------- 1 file changed, 27 insertions(+), 7 deletions(-) diff --git a/I-Accompagnement/0_Intro.qmd b/I-Accompagnement/0_Intro.qmd index 6d76ca2..428e52e 100644 --- a/I-Accompagnement/0_Intro.qmd +++ b/I-Accompagnement/0_Intro.qmd @@ -1,14 +1,34 @@ ## Introduction aux Large Language Models (LLM) -Les Large Language Models sont des algorithmes d’intelligence artificielle destinés à exploiter des documents non-structurés (corpus de textes), afin d’en extraire des informations utiles ou de créer une nouvelle forme d’information à partir de cette base documentaires (ex : réponses à des questions, résumé, etc…). +Les **Large Language Models** sont des algorithmes d’intelligence artificielle conçus pour exploiter des documents non structurés (corpus de textes). Ils permettent d'en extraire des informations utiles ou de générer de nouvelles informations à partir de cette base documentaires (par exemple : répondre à des questions, résumer un texte, traduire, etc.). -Les documents forment les observations statistiques considérées (à rapprocher des « individus ») et leur ensemble forme un corpus (à rapprocher d’une « population »). -Les mots ou les chaînes de caractères forment les variables. -L’idée est de transformer un document en un vecteur et le corpus en une matrice, avec les documents en ligne et les mots ou chaînes de caractère en colonnes. +### Représentation des documents -Les matrices en résultant sont potentiellement d’une très grande dimension (nombre de mots/chaînes de caractères utilisés dans le corpus en colonnes), et en même temps creuses (les mots/chaînes de caractères employés dans le corpus peuvent être utilisés uniquement dans quelques documents du corpus). +Dans ce contexte, les **documents** forment les observations statistiques considérées (équivalent aux « individus » en statistique) et leur ensemble forme un *corpus* (équivalent à une « population »). +Les **mots** ou les **chaînes de caractères** extraîts des documents jouent le rôle des variables. -Aussi, après l’importation d’un corpus de textes, la première étape consiste en une phase de pré-traitement visant à réduire la dimension de cette matrice : enlever le bruit(ponctuation, mots usuels n’apportant pas d’information, etc…), lemmatiser ou raciniser (ex : garder exclusivement « finan » pour « financer », « financier », « financement », …), faire une analyse en composantes principales… +Pour analyser un corpus, chaque document est représenté sous forme d'un **vecteur** et le corpus entier sous forme d'une **matrice**, où les **lignes** correspondent aux et les **colonnes** représentent les mots ou les chaînes de caractères. -L’utilisation d’outils de machine learning sur la matrice de dimension plus réduite ainsi obtenue permet notamment de comparer les documents, d’analyser la similarité ou la distance entre eux, d’identifier des thèmes abordés et de catégoriser les documents en fonction de thématiques, afin de filtrer ou de produire des statistiques. + +### Caractéristiques des matrices + +Les matrices en résultantes sont potentiellement d’une très **grande dimension** (nombre de mots/chaînes de caractères utilisés dans le corpus en colonnes), et en même temps **creuses** (les mots/chaînes de caractères employés dans le corpus peuvent être utilisés uniquement dans quelques documents du corpus). + +### Étapes de prétraitement + +Après l’importation d’un corpus de textes, la première étape consiste en une phase de prétraitement visant à réduire la dimension de cette matrice et à en améliorer la pertinence. Cela inclut : +- **nettoyer les données** : supprimer la ponctuation, mots usuels n’apportant pas d’information, etc.) +- **lemmatiser** ou **raciniser** : simplifier des mots en gardant que leur racine commune (par example : garder exclusivement « finan » pour les mots « financer », « financier », « financement », …), +- **réduire la dimensionnalité** en utilisant des techniques comme l'**analyse en composantes principales** [(ACP)](https://fr.wikipedia.org/wiki/Analyse_en_composantes_principales) ou **Term Frequency-Inverse Document Frequency** +[(TF-IDF)](https://fr.wikipedia.org/wiki/TF-IDF) + + +### Analyse et applications +L’utilisation d’outils de machine learning sur la matrice de dimension plus réduite ainsi obtenue permet +- de **comparer les documents** pour analyser la similarité ou la distance entre eux +- d’**identifier des thèmes** abordés dans le corpus +- de **classer** et **catégoriser les documents** en fonction de thématiques +- de **filtrer les contenus** ou de **produire des statistiques** pour comprendre la répartition des sujets dans l'ensemble des textes. + +Ainsi, les Large Language Models nous permettent de traiter, d'interpréter et de valoriser les données textuelles de manière automatisée et à grande échelle. \ No newline at end of file From 6ba75c450e4f54729708f1029aacadff7504b7d0 Mon Sep 17 00:00:00 2001 From: johnplt Date: Fri, 15 Nov 2024 09:58:29 +0100 Subject: [PATCH 7/9] Update 1_cas_usage.qmd --- I-Accompagnement/1_cas_usage.qmd | 18 +++++------------- 1 file changed, 5 insertions(+), 13 deletions(-) diff --git a/I-Accompagnement/1_cas_usage.qmd b/I-Accompagnement/1_cas_usage.qmd index aa87865..7c8d042 100644 --- a/I-Accompagnement/1_cas_usage.qmd +++ b/I-Accompagnement/1_cas_usage.qmd @@ -14,17 +14,17 @@ Au sein des administrations, les cas d'usage de LLM ci-dessous sont en cours d'e Des LLM peuvent être utilisés pour : - **Labelliser / classifier les textes d’un corpus traitant d’un sujet, selon certaines catégories**. -Par exemple, des LLMS peuvent être utilisés pour labelliser des articles de presse traitant de décisions de politique monétaire, selon les catégories « décision attendue », « décision surprenante », « ne sait pas ». Ils peuvent également classer des documents de recherche clinique selon différentes thématiques et disciplines, tout en permettant une recherche sémantique avancée. +Des LLMS peuvent être utilisés pour labelliser des articles de presse traitant de décisions de politique monétaire, selon les catégories « décision attendue », « décision surprenante », « ne sait pas ». Ils peuvent également classer des documents de recherche clinique selon différentes thématiques et disciplines, tout en permettant une recherche sémantique avancée. Ils peuvent aussi permettre de classer des accords d'entreprise, publiés sur [LégiFrance](https://www.legifrance.gouv.fr/liste/acco). Ces accords peuvent concerner plusieurs thématiques (télétravail, compte épargne temps, droit à la deconnexion).Ces thématiques sont déclarés par les entreprises et sont éventuellement corrigées par la Direction Générale du Travail.Le besoin est alors de détecter automatiquement les thématiques à la lecture de l'accord. Un jeu de données est disponible à l'adresse suivante : [accords_publics_xx_to_2022_themes_et_texte.parquet](https://minio.lab.sspcloud.fr/cthiounn2/Accords/accords_publics_xx_to_2022_themes_et_texte.parquet) + | Institution | Nom du Projet | Contact | Expérimentation/Production/Recherche| | -------- | ------- |------- |------- | |Ministère en charge de la santé| SIRANo | dgos-sirano@sante.gouv.fr | Expérimentation | |Banque de France |Étude de l’impact des surprises monétaires sur les taux de change|jean-charles.bricongne@banque-france.fr| Recherche| |Banque de France |Anticipation d’inflation |jean-charles.bricongne@banque-france.fr
olivier.debandt@banque-france.fr
Thomas.RENAULT.external@banque-france.fr |Recherche | +|Ministère du travail et de l'emploi | Acccords d'entreprise |Conrad | | -Par exemple, des LLMS peuvent être utilisés pour labellisés des articles de presse traitant de décisions de politique monétaire, selon les catégories « décision attendue », « décision surprenante », « ne sait pas ». - - **Identifier les thématiques traitées dans un corpus**. Par exemple, des LLMs peuvent être utilisés pour identifier les thématiques développées dans le champ Commentaire d’une enquête. @@ -64,15 +64,7 @@ Par exemple, à partir de documents réglementaires extraire 15 informations-cl | -------- | ------- |------- |------- | |Banque de France | Veridic | Guillaume.LOMBARDO@banque-france.fr | Passage en production prévu fin 2025 | -- **Classifier des accords d'entreprise** -Les accords d'entreprise sont publiés sur [LégiFrance](https://www.legifrance.gouv.fr/liste/acco). -Ces accords peuvent concerner plusieurs thématiques (télétravail, compte épargne temps, droit à la deconnexion).Ces thématiques sont déclarés par les entreprises et sont éventuellement corrigées par la Direction Générale du Travail.Le besoin est alors de détecter automatiquement les thématiques à la lecture de l'accord. Un jeu de données est disponible à l'adresse suivante : [accords_publics_xx_to_2022_themes_et_texte.parquet](https://minio.lab.sspcloud.fr/cthiounn2/Accords/accords_publics_xx_to_2022_themes_et_texte.parquet) - -| Institution | Nom du Projet | Contact | Expérimentation/Production/Recherche| -| -------- | ------- |------- |------- | -| | | | | - -- **IA générative** +- **Agent conversationnel** | Institution | Nom du Projet | Contact | Expérimentation/Production/Recherche| | -------- | ------- |------- |------- | @@ -87,4 +79,4 @@ Projet mené par le LabIA de la DINUM [Albert hugging face]() -> Pour plus de projets IA (au sens large) dans l'administration se référer au lien : https://grist.numerique.gouv.fr/o/beta-gouv-ia/9wTgwEbwqmwW/Ressources/p/1 \ No newline at end of file +> Pour plus de projets IA (au sens large) dans l'administration se référer au lien : https://grist.numerique.gouv.fr/o/beta-gouv-ia/9wTgwEbwqmwW/Ressources/p/1 From f9160445ab844544bc3104b78f9c862261bade04 Mon Sep 17 00:00:00 2001 From: johnplt Date: Fri, 15 Nov 2024 10:06:33 +0100 Subject: [PATCH 8/9] Update 0_Intro.qmd --- I-Accompagnement/0_Intro.qmd | 10 +++++----- 1 file changed, 5 insertions(+), 5 deletions(-) diff --git a/I-Accompagnement/0_Intro.qmd b/I-Accompagnement/0_Intro.qmd index 428e52e..12437aa 100644 --- a/I-Accompagnement/0_Intro.qmd +++ b/I-Accompagnement/0_Intro.qmd @@ -3,10 +3,9 @@ Les **Large Language Models** sont des algorithmes d’intelligence artificielle conçus pour exploiter des documents non structurés (corpus de textes). Ils permettent d'en extraire des informations utiles ou de générer de nouvelles informations à partir de cette base documentaires (par exemple : répondre à des questions, résumer un texte, traduire, etc.). -### Représentation des documents +### Représentation du corpus de documents sous forme de matrice -Dans ce contexte, les **documents** forment les observations statistiques considérées (équivalent aux « individus » en statistique) et leur ensemble forme un *corpus* (équivalent à une « population »). -Les **mots** ou les **chaînes de caractères** extraîts des documents jouent le rôle des variables. +Dans ce contexte, les **documents** forment les observations statistiques considérées (équivalent aux « individus » en statistique) et leur ensemble forme un *corpus* (équivalent à une « population »). Dans certains cas, les documents sont découpés en paragraphes qui forment les observations statistiques. Les **mots** ou les **chaînes de caractères** extraîts des documents jouent le rôle des variables. Pour analyser un corpus, chaque document est représenté sous forme d'un **vecteur** et le corpus entier sous forme d'une **matrice**, où les **lignes** correspondent aux et les **colonnes** représentent les mots ou les chaînes de caractères. @@ -15,12 +14,13 @@ Pour analyser un corpus, chaque document est représenté sous forme d'un **vect Les matrices en résultantes sont potentiellement d’une très **grande dimension** (nombre de mots/chaînes de caractères utilisés dans le corpus en colonnes), et en même temps **creuses** (les mots/chaînes de caractères employés dans le corpus peuvent être utilisés uniquement dans quelques documents du corpus). + ### Étapes de prétraitement Après l’importation d’un corpus de textes, la première étape consiste en une phase de prétraitement visant à réduire la dimension de cette matrice et à en améliorer la pertinence. Cela inclut : - **nettoyer les données** : supprimer la ponctuation, mots usuels n’apportant pas d’information, etc.) - **lemmatiser** ou **raciniser** : simplifier des mots en gardant que leur racine commune (par example : garder exclusivement « finan » pour les mots « financer », « financier », « financement », …), -- **réduire la dimensionnalité** en utilisant des techniques comme l'**analyse en composantes principales** [(ACP)](https://fr.wikipedia.org/wiki/Analyse_en_composantes_principales) ou **Term Frequency-Inverse Document Frequency** +- utiliser des techniques comme l'**analyse en composantes principales** [(ACP)](https://fr.wikipedia.org/wiki/Analyse_en_composantes_principales) ou **Term Frequency-Inverse Document Frequency** [(TF-IDF)](https://fr.wikipedia.org/wiki/TF-IDF) @@ -31,4 +31,4 @@ L’utilisation d’outils de machine learning sur la matrice de dimension plus - de **classer** et **catégoriser les documents** en fonction de thématiques - de **filtrer les contenus** ou de **produire des statistiques** pour comprendre la répartition des sujets dans l'ensemble des textes. -Ainsi, les Large Language Models nous permettent de traiter, d'interpréter et de valoriser les données textuelles de manière automatisée et à grande échelle. \ No newline at end of file +Ainsi, les Large Language Models nous permettent de traiter, d'interpréter et de valoriser les données textuelles de manière automatisée et à grande échelle. From a4120607e4e10c6d2694cadf5111bd3b3acce499 Mon Sep 17 00:00:00 2001 From: johnplt Date: Fri, 15 Nov 2024 10:08:30 +0100 Subject: [PATCH 9/9] Update 1_cas_usage.qmd --- I-Accompagnement/1_cas_usage.qmd | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/I-Accompagnement/1_cas_usage.qmd b/I-Accompagnement/1_cas_usage.qmd index 7c8d042..46e3a61 100644 --- a/I-Accompagnement/1_cas_usage.qmd +++ b/I-Accompagnement/1_cas_usage.qmd @@ -22,7 +22,7 @@ Des LLMS peuvent être utilisés pour labelliser des articles de presse traitant |Ministère en charge de la santé| SIRANo | dgos-sirano@sante.gouv.fr | Expérimentation | |Banque de France |Étude de l’impact des surprises monétaires sur les taux de change|jean-charles.bricongne@banque-france.fr| Recherche| |Banque de France |Anticipation d’inflation |jean-charles.bricongne@banque-france.fr
olivier.debandt@banque-france.fr
Thomas.RENAULT.external@banque-france.fr |Recherche | -|Ministère du travail et de l'emploi | Acccords d'entreprise |Conrad | | +|Dares - Ministère du Travail | Acccords d'entreprise |THIOUNN, Conrad (DARES) | | - **Identifier les thématiques traitées dans un corpus**.