Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

NewDatagouvDatasetsJob : gérer les JDDs publiés en privé initialement #4240

Open
AntoineAugusti opened this issue Oct 2, 2024 · 4 comments
Labels
bug Un truc pas normal qui pose problème import de données

Comments

@AntoineAugusti
Copy link
Member

Ce job est en charge d'identifier les JDDs publiés récemment sur data.gouv.fr susceptibles d'avoir leur place sur notre plateforme. Ce job n'identifie pas les JDDs pertinents dans le cas où un JDD est créé en privé puis passé en public.

Plus de détails

created_at_internal dans l'API donne une date technique de création. Dans ce cas le producteur a créé le JDD vendredi matin en privé, lundi on regarde ce qui a été publié vendredi, samedi, dimanche mais le JDD n'était pas remonté car en privé.

Il passe en public courant de journée le lundi mais ne remonte pas dans le job du mardi chez nous car sa date de création est le vendredi.

Fix

Adapter le code ? Pas certain que l'on puisse. En échangeant avec data.gouv.fr peut-être avoir une date de publication d'un JDD (qui correspond à la création si JDD public dès le début ou lors du passage de privé à public)

cc @ptitfred qui a travaillé sur ce job il y a peu, pour ta curiosité

@AntoineAugusti AntoineAugusti added bug Un truc pas normal qui pose problème import de données labels Oct 2, 2024
@ptitfred ptitfred assigned ptitfred and unassigned ptitfred Oct 2, 2024
@AntoineAugusti
Copy link
Member Author

@maudetes Pourras-tu nous ping quand il y aura un champ dans l'API pour connaitre la date de publication et pouvoir trier selon cette date ?

@maudetes
Copy link

Oui bien sûr ! Pour l'instant on n'a pas priorisé ce sujet pour info

@AntoineAugusti
Copy link
Member Author

cc @etalab/transport-bizdev, pour votre bonne information il est possible que l'on loupe certains JDDs dans les tâches de veille des nouvelles publications à cause de ceci.

@AurelienC
Copy link

On pourrait aussi envisager que le job traite les JDD modifiés la veille ?
Cela représente généralement peu de jeux de données, hormis quelques pics de modifications parfois.

Nb de JDD par last_update
image

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
bug Un truc pas normal qui pose problème import de données
Projects
None yet
Development

No branches or pull requests

4 participants