Bienvenue sur le cours d'introduction de L'École des données. Dans ce cours nous allons apprendre les rudiments de la manipulation et de la visualisation de données.
Dans ce module, vous allez apprendre à appréhender la recherche de données. Nous commencerons par une introduction aux fondamentaux - les termes clés tels que des données qualitatives, quantitatives, lisibles par machine, discrètes et continues, auxquels nous sommes confrontés régulièrement durant les processus de manipulation de données.
Les choses commencent souvent par une problématique. La plupart des gens ne manipulent pas des données pour leur simple plaisir. Elles sont utilisées à dessein ou pour rendre visible des phénomènes.
Vous commencerez la plupart du temps à partir d'une problématique de type : «Combien de fois le soleil brille dans ma ville natale?» ou «Comment mon gouvernement dépense-t-il son argent? Et d'où proviennent les fonds? ». Une question est un bon point de départ pour explorer des données - cela permettra de préciser votre recherche et vous aidera à détecter des tendances intéressantes. Comprendre qui seront les personnes intéressées par votre problématique vous aidera également à définir le public auquel vous vous adressez, et vous aidera à modéliser votre projet.
Quelle que soit la problématique par laquelle vous ayez commencé, vous devez toujours rester attentif aux observations inattendues, aux résultats inhabituels, ou tout ce qui vous surprendra. Souvent, les phénomènes les plus intéressants ne sont pas ceux que vous recherchez.
Dans ce cours, nous allons commencer avec une question et explorer un ensemble de données dans le but d'y répondre. Nous allons aussi tenter de déterminer si un point d’intérêt caché ne se trouve pas dans cet ensemble.
La question sur laquelle nous allons porter notre attention au travers de ce cours est la suivante: En quoi l'attention portée à l'hygiène de vie influe-t-elle sur notre longévité ?
Tâche: Pensez à une question à laquelle vous aimeriez répondre en utilisant des données.
Qu'est-ce que les données ? Les données sont omniprésentes autour de nous. Mais que sont-elles exactement ? Prenez l'exemple de ces balles de golf dans l'image ci-dessous.
Voir aussi: http://schoolofdata.org/handbook/courses/what-is-data/#sthash.220zgxDF.dpuf Balles de golf Balles de golf sur un marché (CC) by Kaptain Kobold sur Flickr.
Que pouvons nous en dire ? Ce sont des balles de golf. L'une des premières choses que l'on sait est donc qu'elles sont utilisées pour jouer... au golf. Par ailleurs, le golf est un sport, ce qui nous permet de placer la balle de golf dans une taxonomie.
Même les objets d'apparence banale, recèlent en réalité une quantité de données importantes qui leurs sont attachées. Vous aussi, vous avez un nom de famille, une date de naissance, un poids, une taille, une nationalité, etc. Toutes ces choses sont des données.
Dans l'exemple ci-dessus, nous pouvons déjà constater qu'il y a différents types de données. Il y a principalement des données qualitatives et des données quantitatives.
Les données qualitatives se réfèrent à la qualité: La description d'une couleur, de textures et l'aspect d'un objet, la description d'une expérience sont toutes des données qualitatives.
Les données quantitatives sont des données qui se réfèrent aux chiffres. Ex: Le nombre de balles de golf, la taille, le prix, le résultat d'un test, etc.
Cependant, vous allez rencontrer d'autres types de données:
Les données catégorielles permettent de classer les objets que vous traitez par catégories. Dans notre exemple, l'aspect "usagé" serait une catégorie au sein de la typologie suivante : "nouveau", "usagé", "cassé", etc.
Les données discrètes sont des données dénombrables. Ex: le nombre de balles de golf. Il ne peut y avoir qu'un nombre entier de balles de golf (il ne peut y avoir 0.3 balles de golf). Le résultat d'un test ou une pointure de chaussure constituent d'autres exemples.
Les données continues sont des données numériques non entières. Ex: le diamètre des balles de golf (ex: 10.53mm, 10.56mm, 10.536mm), ou la taille précise de votre pied (en opposition à la pointure, qui elle est discrète). Toutes les valeurs sont admises.
Tâche: Prenez l'exemple des balles de golf: pouvez-vous identifier des données pour les différentes catégories ?
De la Donnée à l'Information à la Connaissance.
Les données, quand elles sont collectées et structurées deviennent soudain très utiles. Structurons les dans le tableau ci-dessous:
Couleur Blanche Catégorie Sport – Golf Condition Usagée Diamètre 43mm Prix (par balle) 0,36€ Mais ces données n'ont pas de sens exploitées individuellement. Pour faire émerger l'information, nous devons l'interpréter.
Prenons la taille: Un diamètre de 43mm ne signifie rien. Il devient intéressant quand il est comparé à une autre donnée. Dans certains sports, il y a une réglementation pour les équipements. La taille minimale d'une balle de golf en compétition est de 42,67mm. Nous pouvons donc utiliser cette balle en compétition. C'est une information. En revanche, ce n'est toujours pas de la connaissance. La connaissance est créée lorsque l'information est apprise, appliquée et comprise.
Données non structurées contre Données structurées Les données interprétables "Il y a 5 balles de golf usagées avec un diamètre de 43mm à 0,5€ chacune" est une phrase facilement compréhensible par l'Homme, mais compliquée à comprendre par un ordinateur. La phrase ci-dessus est considérée comme de la donnée non structurée. Elle n'a pas de structure sous-jacente. La tournure de la phrase pourrait être changée et il n'est pas évident de déterminer quel mot correspond à quelle donnée. De la même manière, les PDFs et les images peuvent contenir des informations interprétables par l'oeil humain, mais ne pas être compréhensibles par un ordinateur.
Les données interprétables par l'ordinateur Les ordinateurs sont fondamentalement très différents des Hommes. Il peut être extrêmement difficile pour une machine d'extraire des données provenant de certaines sources. Certaines tâches facilement réalisables par les Hommes sont encore difficilement exécutables par les machines. Par exemple, l'interprétation d'un texte encapsulé dans une image est toujours un défi pour l'ordinateur. Si l'on veut que l'ordinateur analyse la donnée, il faut qu'il soit capable de la lire et de la traiter. Ce qui signifie qu'elle doit être structurée dans un format lisible par la machine.
L'un des formats les plus couramment utilisé pour l'échange de données est le format CSV. Le CSV sépare les données par des virgules. De la donnée transcrite en CSV pourrait ressembler à cela:
“quantité”, “couleur”, “condition”, “objet”, “catégorie”, “diamètre(mm)”, “prix unitaire (€)” 5,”blanc”,”usagé”,”balle”,”golf”,43,0.36€ C'est un format simplifié pour l'ordinateur et lisible par des tableurs. Vous noterez que les mots sont entourés de guillemets, ce qui les distingues en tant que texte (chaîne de caractères dans le langage informatique) - alors que les nombres n'ont pas de guillemets. À noter qu'il existe beaucoup d'autres formats structurés et lisibles par une machine.
Tâche: Pensez au dernier livre que vous avez lu. Quelles données lui sont associées et comment les structurer ?
Résumé En résumé, dans ce tutoriel nous avons exploré quelques concepts essentiels qui apparaissent constamment dans les discussions autour de la donnée. Toutes discourent sur la nature des données et sur ce qui les structure. Ainsi dans le prochain tutoriel nous étudierons les sources des données et la manière de les trouver.
Lectures complémentaires Quand vous obtenez un nouveau jeu de données, devez-vous vous y consacrer immédiatemment / devez-vous avoir une hypothèse au préalable ? Caelainn Barr, une journaliste, explique son approche des nouvelles sources de données. http://datajournalismhandbook.org/1.0/en/understanding_data_4.html Tour d'horizon des formats de données les plus utilisés. Quiz Répondez au quiz suivant pour valider votre compréhension des catégories communes de données:
Voir aussi: http://schoolofdata.org/handbook/courses/what-is-data/#sthash.220zgxDF.dpuf