Skip to content

Commit

Permalink
Merge pull request #5 from etalab/besoins-cas-slm
Browse files Browse the repository at this point in the history
feat: wip-use case santé
  • Loading branch information
malo-adler authored Jul 2, 2024
2 parents d965dae + d0d91a5 commit 9f5fa92
Showing 1 changed file with 21 additions and 1 deletion.
22 changes: 21 additions & 1 deletion I-Accompagnement/1_Besoins.qmd
Original file line number Diff line number Diff line change
Expand Up @@ -18,7 +18,27 @@ L'objectif de ce chapitre est d'accompagner la réflexion autour de l'identifica

### Description cas d'usage

1. SLM recherche thématique simple en français
1. Utilisation des SLM pour la recherche thématique simple en français (en cours, Zhanna)
Malgré la disponibilité et l’attractivité des « grands » modèles langages comme GPT et Mixtral, l’utilisation des petits modèles classiques est parfois plus avantageuse, surtout quand les ressources techniques ou l’accès aux données sont restreints.
C’est vrai dans le cas d’utilisation d’un SLM basé sur un modèle devenu classique, BERT qui donne la naissance à milliers de modèles spécialisés comme (CamemBERT)[ https://arxiv.org/abs/1911.03894] un modèle en français ou encore (sBERT ou sentenceTransformers)[ https://sbert.net/] permettant un entraînement spécialisé pour une recherche sémantique.
Nous considérons un exemple d’utilisation de CamemBERT-base et un exemple de sBERT :
1. (camembert-bio-base)[https://huggingface.co/almanach/camembert-bio-base] avec ses 111M de paramètres, pour une recherche thématique dans des textes scientifiques biomédicaux.
Nous utiliserons les transformers de (HuggingFace)[ https://github.com/huggingface/transformers]
```python
from transformers import AutoTokenizer, AutoModelForMaskedLM
biotokenizer = AutoTokenizer.from_pretrained("almanach/camembert-bio-base")
biomodel = AutoModelForMaskedLM.from_pretrained("almanach/camembert-bio-base")
```

2. (all-MiniLM-L6-v2)[ https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2]
```python
import requests

api_url = f"https://api-inference.huggingface.co/pipeline/feature-extraction/{model_id}"
headers = {"Authorization": f"Bearer {hf_token}"}
```


2. Classifier des accords d'entreprise


Expand Down

0 comments on commit 9f5fa92

Please sign in to comment.