Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Interprétation des questions posées dans le moteur de recherche #556

Open
vincentporte opened this issue Feb 14, 2024 · 1 comment
Open
Assignees
Labels
dependencies Pull requests that update a dependency file just_an_idea python Pull requests that update Python code

Comments

@vincentporte
Copy link
Contributor

Les mots clés soumis par les utilisateurs dans le moteur de recherche de la communauté dépassent souvent le seul cadre des QR des forums publics. L'objectif est d'identifier la soumission de termes connus pour suggérer des renvois vers d'autres produits du GIP.
Par exemple : croix rouge marseille, mulhouse, MSA Sud Champagne, eureka montfort sur meu ou Association initiative éco

Les types d'entités nommées à identifier sont :

  • les organisations : Croix Rouge, MSA, Les jardins de Noemie
  • les villes, codes postaux, départements
  • les accronymes de l'insertion : PMSMP, CDDI, ASP, PASS IAE (abbréviations et nom complet)
  • les métiers : jardinier, agent d'accuel

Les sources de données sont :

  • api data insertion
  • les emplois
  • le glossaire de la commu

Un outillage candidat est spacy pour la reconnaissance d'entités nommées.
Out of the box, le modele fr_core_news_sm rend :

>>> doc=nlp('marseille')
>>> [(ent.text, ent.label_) for ent in doc.ents]
[('marseille', 'LOC')]
>>> doc=nlp('croix rouge marseille')
>>> [(ent.text, ent.label_) for ent in doc.ents]
[('croix rouge marseille', 'ORG')]

Après reentrainement, l'objectif est d'obtenir

>>> doc=nlp('marseille')
>>> [(ent.text, ent.label_) for ent in doc.ents]
[('marseille', 'LOC')]
>>> doc=nlp('croix rouge marseille')
>>> [(ent.text, ent.label_) for ent in doc.ents]
[('croix rouge', 'ORG', 'marseille', LOC')]
@vincentporte vincentporte added dependencies Pull requests that update a dependency file python Pull requests that update Python code labels Feb 14, 2024
@vincentporte
Copy link
Contributor Author

vincentporte commented Feb 14, 2024

  • collecter les listes de mots clés, par types
  • génerer des données d'entrainement REALISTES en combinant les mots clés
  • spécialiser le modèle fr_core_news_sm (ou fr_core_news_lg dans un second temps, selon les résultats obtenus)

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
dependencies Pull requests that update a dependency file just_an_idea python Pull requests that update Python code
Projects
None yet
Development

No branches or pull requests

2 participants