Créé par le Centre de données humanitaires de OCHA / @humdata
Appuyez sur la flèche droite de votre clavier ou glissez vers la droite pour naviguer.
Traduction par Affaires mondiales Canada.
Les choix que nous faisons lorsque nous visualisons des données influencent la façon dont les gens voient, comprennent et réagissent à ces données.
Cette séance comprend une série de diapositives qui vous permettront de renforcer vos connaissances, cinq courtes vidéos qui vous montreront comment créer un graphique et un bref questionnaire qui mettra vos connaissances à l’épreuve. La durée prévue pour l’achèvement de tous les segments est de 25 minutes.
Dans cette séance de familiarisation à la visualisation des données, vous apprendrez, à l’aide d’exemples tirés du contexte de la pandémie de COVID-19:
01 : Pourquoi visualisons-nous les données?
04 : Choisir la bonne visualisation
05 : Créer votre propre visualisation
La barre de progression au bas de votre écran vous indique où vous êtes rendu dans la séance. Si vous souhaitez passer d’une page à l’autre, vous pouvez le faire en utilisant le menu de navigation en bas à gauche de votre écran.
Chaque page présente un conseil, un concept ou une pratique exemplaire sur la visualisation de données pendant la pandémie de COVID-19. Faites défiler les pages à l’aide de votre clavier ou en cliquant sur les flèches droite et gauche en bas à droite de votre écran.
Sur certaines pages, vous pouvez faire défiler le contenu vers le bas pour en savoir plus sur un sujet particulier. Pour ce faire, utilisez la flèche vers le bas de votre clavier ou cliquez sur la flèche vers le bas qui se trouve à la droite, au bas de votre écran.
Cliquez sur la flèche qui pointe vers le bas pour en savoir plus sur la navigation dans la séance.
Les flèches de navigation en bas à droite de votre écran sont là pour vous guider tout au long de la séance. Dans l’exemple ci-dessous, la flèche gauche décolorée indique les pages visualisées, tandis que la flèche du bas et la flèche droite indiquent les pages que vous n’avez pas encore consultées.
Maintenant que vous avez compris comment naviguer, cliquez sur la flèche droite pour démarrer la séance.
Nous visualisons les données pour les explorer. Grâce à la visualisation exploratoire des données, nous sommes en mesure de découvrir différentes relations et d’obtenir les informations les plus significatives à mettre en évidence ou à analyser davantage.
Nous visualisons également des données pour expliquer ce que nous y percevons. La visualisation explicative peut être utilisée pour informer, persuader et mobiliser un public. C’est le type de visualisation sur lequel nous allons nous concentrer ici.
Image inspirée par Maarten Lambrechts
La visualisation de données explicative nécessite un public défini et un objectif clair. Avant de commencer à créer votre visualisation, posez-vous les questions suivantes :
Avant de creuser dans un ensemble de données sur la COVID-19, il est important de passer un peu de temps à comprendre ce qui peut et ne peut pas être dit sur les données en question. Trop souvent, nous nous lançons dans l’analyse avant de prendre le temps de comprendre quels aspects du monde nos données représentent.
La première étape consiste à comprendre les définitions des données qui composent votre ensemble de données. Pour ce faire, vous voudrez examiner les éléments suivants :
Cliquez sur la flèche qui pointe vers le bas pour en savoir plus sur les métadonnées et les dictionnaires de données.
Les métadonnées sont des données relatives à des données. Examiner les métadonnées avant de télécharger un nouvel ensemble de données peut vous faire gagner du temps et vous permettre de savoir si les données que vous allez télécharger contiennent vraiment ce dont vous avez besoin. Le Humanitarian Data Exchange exige que toutes les données partagées sur la plateforme comprennent quelques champs de métadonnées essentiels.
Les métadonnées fournissent des informations de base sur un ensemble de données telles que :
Cliquez sur la flèche qui pointe vers le bas pour en savoir plus sur les dictionnaires de données.
Certaines organisations publient des dictionnaires de données avec leurs données. Souvent, les en-têtes d’un ensemble de données sont condensés pour économiser de l’espace et les rendre lisibles par une machine. Par exemple, un champ avec un en-tête nommé « cas » peut signifier des cas cumulés, des cas quotidiens ou des cas actifs.
Un dictionnaire de données fournit des définitions pour les variables d’un ensemble de données afin d’aider à comprendre ce que chaque variable représente. L’exemple ci-dessous donne un exemple de définition donnée pour les patients positifs et soupçonnés ainsi que le type de données (numérique).
Source: Healthcare.gov Data Portal
Voici quelques données que l’on retrouve couramment dans les ensembles de données sur la COVID-19 :
L’exactitude de ces chiffres dépend habituellement d’un certain nombre de facteurs.
Pour vous assurer que les données dont vous disposez soient aussi actuelles et précises que possible, privilégiez les sources réputées et les données dont les méthodes de collecte sont bien documentées.
Cliquez sur la flèche qui pointe vers le bas pour en savoir plus sur les sources de données fiables.
HDX héberge une gamme variée d’ensembles de données sur la COVID-19 pour les travailleurs humanitaires.
Celles-ci comprennent (ressources en anglais) :
Il peut sembler difficile de choisir la bonne visualisation. Il existe beaucoup d’options dont vous pouvez tirer parti. La meilleure façon de réduire le nombre de variables est d’identifier la relation entre les variables que vous voulez mettre en évidence.
Dans cette section, nous allons explorer les types de relations et discuter des options de graphiques offertes pour chacune d’elle :
Si vous disposez de données chronologiques (séries chronologiques), l’évolution dans le temps est une relation typique à visualiser. Assurez-vous de tracer la ligne chronologique sur l’axe des X. Les graphiques suivants permettent d’illustrer les tendances dans le temps.
Source: Andy Kriebel et The Financial Times Cliquez sur la flèche qui pointe vers le bas pour en savoir plus.
Un graphique linéaire souligne les tendances en montrant une série de points reliés par des lignes droites. L’ajout de marqueurs visuels pour les événements importants, par exemple lorsque les ordres de rester à la maison sont entrés en vigueur, est un moyen facile d’ajouter du contexte. Les séries chronologiques multiples doivent toujours utiliser des graphiques linéaires.
Source: Our World in Data Cliquez sur la flèche qui pointe vers le bas pour obtenir d’autres exemples.
Les graphiques à barres qui représentent des données chronologiques servent à mettre en évidence des valeurs individuelles à des moments distincts. Ils sont plus efficaces lorsque les points de données sont à intervalles égaux comme les jours, les mois ou les années, par exemple le nombre de cas confirmés signalés quotidiennement. Assurez-vous toujours que votre axe des Y commence à zéro.
Source: Worldometer Cliquez sur la flèche qui pointe vers le bas pour obtenir d’autres exemples.
Les graphiques en aires empilées sont utiles pour comparer plusieurs séries de données évoluant dans le temps. Les valeurs de chaque série sont affichées les unes au-dessus des autres, ce qui permet de visualiser l’évolution de la valeur totale, par exemple le nombre de cas confirmés de COVID-19 dans le monde, et la façon dont les valeurs évoluent dans les groupes de constituants, par exemple la région.
Source: Our World in Data
Les visualisations utilisent souvent la taille, la longueur et la position pour aider l’observateur à explorer les différences et les similitudes entre les catégories et les séries de données.
Source: Andy Kriebel et The Financial Times Cliquez sur la flèche qui pointe vers le bas pour en savoir plus.
Les diagrammes à barres et à colonnes en ordre sont excellents pour montrer la position et comparer selon différentes catégories. Lorsque vos étiquettes sont longues, il convient d’utiliser des barres horizontales. Il est toujours préférable de trier vos données, car cela en facilitera la lecture.
Cliquez sur la flèche qui pointe vers le bas pour obtenir d’autres exemples.
Souvent appelés diagrammes à bulles, ces diagrammes sont généralement utilisés pour comparer et montrer les relations entre des cercles catégorisés en utilisant à la fois le positionnement, les couleurs et les proportions.
Centre de données humanitaires, UNOCHA
Les visualisations de distribution sont souvent utilisées pour explorer les données, car elles montrent les valeurs dans l’ensemble de données et leur fréquence. La forme (ou l’asymétrie) d’une distribution peut être un moyen efficace de mettre en évidence le manque d’uniformité ou d’égalité des données.
Source: Andy Kriebel et The Financial Times Cliquez sur la flèche qui pointe vers le bas pour en savoir plus.
Les histogrammes sont utiles pour comprendre la diffusion des données. Ils montrent où les valeurs sont concentrées, quels sont les extrêmes et s’il y a des écarts. Ils ressemblent aux diagrammes à barres verticales, mais ils comportent une différence majeure : l’axe horizontal (X) contient des données numériques et non catégoriques.
Source: Springer Cliquez sur la flèche qui pointe vers le bas pour obtenir d’autres exemples.
Les boîtes à moustaches (ou diagrammes en boîte) sont populaires parmi les statisticiens et les chercheurs. Ils sont utiles pour résumer des distributions multiples en montrant la médiane (centre) et l’étendue des données. Bien qu’ils soient utiles pour explorer les données, tout le monde ne comprend pas comment interpréter les boîtes à moustaches. À utiliser avec parcimonie comme outil explicatif.
Source: Centre de données humanitaires, UNOCHA
Ces graphiques sont utiles pour montrer comment différentes sections de données constituent un ensemble. Bien qu’utiles avec un petit nombre de catégories, ils peuvent rapidement devenir difficiles à lire. Si vous souhaitez surtout comparer la taille des sections, un simple diagramme à barres est souvent plus facile à lire.
Source: Andy Kriebel et The Financial Times Cliquez sur la flèche qui pointe vers le bas pour en savoir plus.
Au fil du temps, le graphique en anneau est devenu de plus en plus populaire. Ce graphique est similaire à un diagramme circulaire, mais le centre est un bon endroit où inscrire plus d’informations sur les données (par exemple, le total).
Source: Services de suivi financier d’OCHA Cliquez sur la flèche qui pointe vers le bas pour obtenir d’autres exemples.
Le graphique à barres empilées proportionnelles est une autre façon simple de montrer la relation partie-d'un-tout. Il est particulièrement utile pour comparer les variables entre les groupes ou à différents points dans le temps.
Source: Eleonora Nazander
Utilisez uniquement les cartes lorsque des lieux précis ou l’organisation géographique des données constituent une partie cruciale de votre message. Lorsque les particularités intéressantes de vos données ne sont pas d’ordre géographique, une carte peut finir par reléguer votre message au second plan. Ce n’est pas parce que des données peuvent être cartographiées qu'elles doivent l’être.
Source: Andy Kriebel et The Financial Times Cliquez sur la flèche qui pointe vers le bas pour en savoir plus.
Cette approche courante de cartographie de données permet de présenter des zones géographiques qui sont colorées, ombragées ou structurées par rapport à une variable. Il est souvent préférable d’utiliser des taux plutôt que des totaux pour ce type de carte.
Source: Plan global de réponse humanitaire à la COVID-19 des Nations Unies Cliquez sur la flèche qui pointe vers le bas pour obtenir d’autres exemples.
Cette carte met à l’échelle la taille des symboles proportionnellement à la valeur des données trouvées à cet endroit. En général, plus le symbole est grand, plus la valeur d’un objet à un endroit donné est élevée.
Il existe de nombreux outils pour vous aider à réaliser le graphique le plus approprié pour vos données.
La façon dont nous communiquons au sujet de la pandémie de COVID-19 peut influencer la perception du risque et de la sécurité de notre public.
Nos choix en matière de conception influencent la façon dont le public interprète les données. En effet, par la façon dont nous présentons celles-ci, nous choisissons de mettre l’accent sur certains aspects des données, mais nous pouvons également en cacher d’autres. Même s’il n’existe aucune règle stricte qui dicte la conception de graphiques, voici quelques facteurs à prendre en considération lorsque vous voulez présenter des données liées à la COVID-19.
Le rouge est une couleur qui attire l’attention du lecteur et qui est souvent utilisée pour alerter et mettre en évidence. Une carte pleine de cercles rouges qui se chevauchent peut communiquer l’inquiétude et, par conséquent, distraire des autres messages. Tenez compte de la connotation des couleurs lorsque vous créez des visualisations liées à la COVID-19.
Le fait de tracer une croissance exponentielle sur une échelle linéaire peut masquer des détails importants tels que le taux de croissance. Dans l’exemple ci-dessous, les États-Unis et l’Italie semblent suivre des trajectoires similaires sur l’échelle linéaire, alors qu’il est plus évident sur l’échelle logarithmique que les cas de COVID-19 continuent de croître aux États-Unis tandis que l’Italie connaît un ralentissement.
Source: Kenneth Chang Cliquez sur la flèche qui pointe vers le bas pour en savoir plus.
La forme la plus courante de graphique linéaire utilise une échelle linéaire. Le long de l’axe des Y, les nombres progressent de façon linéaire : 1, 2, 3, ou 10, 20, 30, etc.
Sur une échelle logarithmique, les nombres sur l’axe des Y n’augmentent pas par tranches égales. Chaque intervalle augmente selon un facteur déterminé – souvent 10, mais il peut s’agir d’un facteur de 3 ou de 350 ou de 3 500, etc.
Une échelle logarithmique empêche les grands nombres de fausser tout un graphique et permet de mesurer les taux de changement, en particulier les taux de croissance (par exemple, le nombre de cas ou de décès au fil du temps). Dans le cas de la COVID-19, qui connaît une croissance exponentielle, il sera souvent judicieux d’utiliser une échelle logarithmique, car la ligne de tendance cumulée des cas peut « suivre » les chiffres au lieu de s’écarter du graphique. Pour en savoir plus sur les échelles logarithmiques, consultez The Conversation (en anglais)
En gardant à l’esprit le message que vous voulez faire passer, explorez les différentes façons de représenter les données que vous visualisez. Lorsque vous comparez plusieurs pays ou régions, pensez à la mesure dans laquelle votre visualisation sera appelée à changer si vous choisissez de présenter des chiffres absolus (nombre total de cas confirmés) ou des valeurs relatives (nombre de cas confirmés pour X mille personnes).
Une valeur absolue n’est pour ainsi dire comparée à aucune autre valeur, tandis qu’une valeur relative est créée lorsque deux valeurs absolues sont comparées l’une à l’autre. Les valeurs relatives sont souvent présentées sous forme de pourcentages, de proportions, de taux, etc. et constituent une bonne référence pour permettre aux lecteurs de juger de l’ampleur et de comparer l’ampleur entre différentes catégories.
Le choix d’utiliser l’une ou l’autre méthode dépend du message que vous essayez de transmettre.
Cliquez sur la flèche qui pointe vers le bas pour obtenir des exemples.
La carte choroplèthe est un exemple de visualisation qui fonctionne mieux avec des valeurs relatives, car celles-ci fournissent une référence commune pour comparer l’ampleur de la crise dans un ensemble de pays ou de régions.
Source: Our World in Data Cliquez sur la flèche qui pointe vers le bas pour en savoir plus.
Les graphiques linéaires logarithmiques sur la COVID-19 utilisent souvent des valeurs absolues. Pourquoi? Lorsqu’on utilise une échelle logarithmique, l’accent est mis sur la variation exponentielle dans le temps ou sur la trajectoire, plutôt que sur l’échelle du problème.
Il existe une grande incertitude autour de la COVID-19, et on peut le constater dans les données. Essayez de trouver des moyens de communiquer cette idée d’incertitude dans votre visualisation. Par exemple, en ajoutant simplement la phrase « nous savons qu’il existe X cas », vous aidez à faire comprendre que les données dont vous disposez sont incomplètes.
Source: Lisa Charlotte Rost Press down to learn more
Compte tenu de la rapidité des changements liés à la pandémie de COVID-19, le fait de fournir aux lecteurs des informations sur la date à laquelle les données se rapportent et la fréquence des mises à jour les aide à comprendre la mesure dans laquelle la visualisation est actuelle. Il est toujours bon d’indiquer clairement la ou les sources des données.
Source: Lisa Charlotte Rost
Parfois, les graphiques peuvent nuire à la transmission du message que l’on essaie de faire passer. Demandez-vous s’il est préférable de simplement présenter visuellement les chiffres que vous souhaitez mettre en valeur pour mieux transmettre votre message.
Source: Vox.com
C’est le moment de concevoir votre propre visualisation. Vous avez appris pourquoi nous créons des visualisations, quelques considérations à prendre en compte lors de la visualisation des données sur la COVID-19 et comment utiliser divers graphiques pour mettre en évidence et communiquer différentes relations.
Dans cette dernière section, nous verrons comment créer un graphique linéaire logarithmique. Un guide pas à pas téléchargeable est inclus.
Nous utilisons Excel pour cette démonstration. Si vous souhaitez voir comment créer le même graphe en utilisant R, consultez le guide (en anglais) écrit par Edourard Legoupil du Humanitarian R User Group.
Téléchargez notre guide étape par étape pour créer un graphique linéaire logarithmique (en anglais).
Cliquez sur la flèche qui pointe vers le bas pour parcourir les étapes.
Téléchargez les données : Cliquez sur la vidéo ci-dessous pour savoir comment trouver et télécharger des données à partir de HDX.
Cliquez sur la flèche qui pointe vers le bas pour passer à l’étape suivante.
Préparez et structurez vos données : Cliquez sur la vidéo ci-dessous pour apprendre à organiser, à filtrer et à structurer vos données afin de créer un graphique linéaire visualisant la croissance du nombre de cas de COVID-19 en Afghanistan.
Cliquez sur la flèche qui pointe vers le bas pour passer à l’étape suivante.
Insérer un graphique linéaire : Ensuite, regardez la vidéo ci-dessous pour apprendre comment insérer un graphique linéaire ainsi que comment formater l’axe des dates dans votre graphique.chart.
Cliquez sur la flèche qui pointe vers le bas pour passer à l’étape suivante.
Explorer en utilisant une échelle logarithmique : Regardez la vidéo ci-dessous pour apprendre comment formater votre axe des Y à l’aide d’une échelle logarithmique.
Cliquez sur la flèche qui pointe vers le bas pour passer à l’étape suivante.
Personnaliser le design : Il est maintenant temps de personnaliser la visualisation! Regardez la vidéo ci- dessous pour apprendre comment ajouter du texte, changer les polices et désencombrer votre graphique.