Skip to content

ThomasMerci/mini-project

Repository files navigation

Executer le projet

Téléchargez le projet. Sur votre terminal dans le dossier racine, executez ces deux commandes :

docker-compose build

docker-compose up -d

Une fois les services en statut 'running', allez sur votre navigateur. Pour accéder au formulaire employée copiez cette route :

http://localhost:5000/

Rapport sur le modèle Spark ML

Introduction

Le but de ce rapport est de présenter les différentes étapes qui ont été effectuées pour construire un modèle de Machine Learning avec Spark. Le modèle a été développé pour résoudre un problème lié à l'attrition des employées.

Visualisation et analyse

La première étape consistait à explorer les données pour comprendre l'inégalité entre les classes. Nous avons utilisé différentes techniques de visualisation pour étudier la distribution des données et identifier les variables les plus importantes.

Nettoyage des données

Après l'analyse des données, nous avons procédé à une étape de nettoyage. Cette étape comprenait : Enlever les valeurs aberrantes Convertir les données dans leur bon type Enlever les colonnes avec des corrélations trop fortes, trop faibles ou null Modélisation Nous avons ensuite procédé à la modélisation. Nous avons utilisé la vectorisation des données qui ont été utilisées comme features et la colonne cible. Nous avons testé différents algorithmes en faisant du fine tuning sur les hyperparamètres pour avoir le modèle le plus pertinent.

Evaluation du modèle

Enfin, nous avons regardé les métriques d'évaluation pour garder le modèle le plus efficace.

Conclusion

En conclusion, nous avons présenté les différentes étapes qui ont été effectuées pour construire un modèle de Machine Learning avec Spark. Nous avons utilisé des techniques de visualisation et d'analyse pour comprendre le problème et nettoyé les données pour préparer le modèle. Nous avons ensuite utilisé la vectorisation des données pour la modélisation et testé différents algorithmes en faisant du fine tuning sur les hyperparamètres. Enfin, nous avons regardé les métriques d'évaluation pour garder le modèle le plus efficace.

projet réalisé par :

Valentin GUERARD, Ngoc Thao LY, Gabriello ZAFIFOMENDRAHA, Thomas MERCIER, Gaëtan ALLAH ASRA BADJINAN

About

projet flask et spark MLlib

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published