Tout savoir sur Scatter Plot

La Data Viz occupe une place centrale dans le processus de machine learning. Cette étape cruciale de la Data Science intervient suite à la collecte, le nettoyage et la normalisation des données. Parmi les graphiques les plus fréquemment employés aujourd’hui, le Scatter Plot se démarque en offrant la possibilité d’analyser les données et d’observer les interactions entre les différentes variables.

Qu’est-ce qu’un Scatter Plot ?

Un scatter plot est un type de graphique couramment utilisé pour visualiser et analyser la relation entre des variables. Les points de données présents sur ce diagramme représentent les valeurs individuelles de chaque point de données. Ils offrent ainsi une vue d’ensemble des données et facilitent l’identification de modèles. On le retrouve également sous les noms Scattergram, Scatter Graph et Scatter Chart, ou en français nuage de points, graphique de dispersion ou diagramme de dispersion.

À quoi sert le Scatter Plot ?

Le Scatter Plot est principalement utilisé pour représenter la relation entre deux variables et en examiner la nature. Les points de données affichés sur un nuage de point représentent les valeurs individuelles de chaque point de données. Cela facilite l’identification de modèles lorsqu’on examine l’ensemble des données de manière globale.

Révéler la présence de cluster

L’utilisation des Scatter Plots permet d’identifier la présence de clusters de points, et donc de révéler des tendances ou des sous-populations au sein des données. Les regroupements de points sur le graphique indiquent une proximité significative entre les observations au sein de chaque groupe.

Mais l’identification de clusters va au-delà d’une simple détection de patterns linéaires. Il est possible de mettre en évidence des relations complexes entre les variables qui échappent aux méthodes d’analyse traditionnelle. Les clusters identifiés peuvent également servir de base à des prédictions, en classifiant de nouvelles observations en fonction de leur similarité avec les groupes existants.

Cela en fait un outil précieux dans des domaines où la compréhension des subtilités au sein des données est cruciale, comme en médecine, en sociologie et même en marketing.

Évaluer la force et la direction de la corrélation entre les variables

Les Scatter plots peuvent également révéler des relations de corrélation. Ces graphiques positionnent généralement les variables indépendantes sur l’axe horizontal et les variables dépendantes sur l’axe vertical. Connaissant la valeur horizontale, l’utilisateur peut estimer ou anticiper la valeur verticale. La nature des corrélations peut aussi être estimée sur la base d’un niveau de confiance spécifique.

Ainsi, une corrélation positive, correspondant à une augmentation, va se manifester par une inclinaison ascendante des points de données, depuis le coin inférieur gauche vers le coin supérieur droit du graphique. Une corrélation négative, qui indique une diminution, se traduit par une inclinaison descendante des points de données, cette fois du coin supérieur gauche vers le coin inférieur droit. Enfin, les données qui ne présentent de corrélation ni positive ni négative sont considérées comme non corrélées.

Modéliser la relation entre les variables avec la régression linéaire

La modélisation de la relation entre les variables grâce à la régression linéaire est une application clé du Scatter Plot. Au-delà de l’observation visuelle, la régression linéaire ajoute une représentation mathématique de la relation entre les deux variables. Il s’agit de faire correspondre les points de données du Scatter Plot à ce que l’on appelle la « ligne de meilleur ajustement ». Cette ligne représente la tendance générale des données. Elle minimise la somme des carrés des écarts verticaux entre les points et la ligne.

Faciliter la détection d’outliers ou de valeurs aberrantes

L’utilisation du Scatter Plot dans l’analyse de données s’avère particulièrement efficace pour détecter des outliers. Ces valeurs aberrantes peuvent significativement influencer les résultats d’une analyse. On va ainsi pouvoir identifier visuellement des points isolés, éloignés du regroupement principal de points sur le graphique de dispersion. Ces outliers peuvent résulter d’erreurs de mesure ou de saisies de données incorrectes. Une fois identifiés, les outliers peuvent alors être supprimés ou transformés.

Quels sont les outils de Data Vizualisation pour faire du Scatter Plot ?

De nombreux outils de visualisation de données permettent de créer des Scatter Plots de manière efficace.

Les outils basés sur des feuilles de calcul : Microsoft Excel et Google Sheets

Microsoft Excel propose des fonctionnalités intégrées pour créer des Scatter Plots. Il vous suffit d’insérer un graphique Scatter Plot et de sélectionner vos données. Les fonctionnalités de Google Sheets sont assez similaires. Vous pouvez créer des Scatter Plots directement dans la feuille de calcul en sélectionnant vos données et en choisissant l’option de graphique.

Les outils de programmation : Python, R

Matplotlib offre un contrôle détaillé sur la création de graphiques, y compris les Scatter Plots. C’est un choix populaire parmi les Data Scientist et les Data Analysts. Seaborn, la bibliothèque Python basée sur Matplotlib, propose une syntaxe plus simple. Elle est souvent utilisée pour des visualisations statistiques et offre un support natif pour les Scatter Plots.

R est un langage de programmation statistique de la bibliothèque ggplot2 pour la visualisation de données. Il offre une personnalisation approfondie des Scatter Plots.

Les outils de Business Intelligence : Tableau et Power BI

La plateforme de visualisation de données Tableau permet la création de Scatter Plots par simple glisser-déposer. Power BI est la plateforme de Business Intelligence de Microsoft. Elle offre des fonctionnalités de visualisation de données, comprenant la création de Scatter Plots interactifs.

L’outil de Data Viz Interactif : Plotly

La bibliothèque de visualisation interactive Plotly prend en charge plusieurs langages de programmation, comme Python, R et JavaScript. Elle permet de créer des Scatter Plots interactifs.

Comment faire un Scatter Plot ?

Les méthodes de création des nuages de dispersion diffèrent selon la solution de Data Viz que vous avez choisie.

Avec Microsoft Excel :

Dans un premier temps, vous devez collecter et rassembler les données, pour les entrer dans Excel. Une colonne est attribuée à chaque variable, indépendante ou dépendante. Vous pouvez ensuite sélectionner les données à inclure dans le graphique. Dans le ruban d’Excel, rendez-vous dans l’onglet « Insertion » puis sélectionnez « Nuage de points » ou « Diagramme de dispersion ».

Vous pouvez personnaliser facilement votre graphique, en y ajoutant des titres, des étiquettes d’axe, et même en ajustant les couleurs. Pour cela, il suffit de faire un clic droit sur différentes parties du graphique pour accéder aux options de personnalisation. Une fois votre graphique finalisé, il ne vous reste plus qu’à lanalyser pour identifier des tendances, des corrélations, ou des points aberrants.

En Python avec Matplotlib

Imaginons que nous souhaitons créer un graphique visuel représentant la relation entre deux variables en intégrant des couleurs. Nous importons la bibliothèque Matplotlib, une des plus populaires pour la data visualisation en Python.

import matplotlib.pyplot as plt

Nous devons ensuite définir des données d’exemple pour les variables indépendantes (x) et dépendantes (y). Nous créons également une liste ‘colors’ (ici red, green, blue, orange, purple) pour associer les couleurs à chaque point.

x = [1, 2, 3, 4, 5]

y = [2, 3, 5, 7, 11]

colors = [‘red’, ‘green’, ‘blue’, ‘orange’, ‘purple’]

 

Pour créer le Scatter Plot, nous invoquons la fonction ‘scatter ()’ de Matplotlib. Les paramètres x et y spécifient les données des axes x et y, tandis que ‘c=colors’ attribue les couleurs à chaque point. Le paramètre label est ajouté pour la légende du graphique.

plt.scatter(x, y, c=colors, label=’Points’)

Pour une meilleure lisibilité, des titres sont ajoutés au graphique global ainsi qu’aux axes x et y, et une légende va permettre d’identifier les points. Enfin, la fonction show () permet de tracer le Scatter Plot.

plt.title(‘Scatter Plot Exemple avec Couleurs’)

plt.xlabel(‘Variable Indépendante’)

plt.ylabel(‘Variable Dépendante’)

plt.legend()

plt.show()

 

Quels sont les avantages d’un Scatter plot ?

Les Scatter Plots s’avèrent efficaces pour représenter visuellement les relations entre deux variables continues. L’un des avantages majeurs de ce type de graphique est qu’il permet de visualiser les tendances, les corrélations et les motifs au sein des données. De plus, les outliers peuvent être facilement identifiés. Les scatter plots sont largement personnalisables. Dans les analyses de régression, ils fournissent une représentation visuelle des relations entre variable indépendante et variable dépendante. Ils permettent également de détecter des modèles, comme des clusters ou de tendances linéaires ou non linéaires.

Quels sont les inconvénients d’un Scatter plot ?

L’un des défis majeurs rencontrés avec les Scatter Plots est le phénomène d’overplotting. Un grand nombre de points superposés dans une petite région du graphique peut rendre difficiles la distinction des détails et la perception de la densité réelle des données. De plus, lorsque les variables présentent une faible corrélation ou aucune corrélation apparente, les Scatter Plots vont simplement montrer une dispersion aléatoire de points sans révéler de tendance significative.

Quelles sont les alternatives au Scatter Plot ?

Chaque type de graphique a ses avantages et ses limites, et le Scatter Plot n’est pas épargné. Il existe donc des alternatives selon les besoins de l’utilisateur :

  • la Heatmap utilise des couleurs pour représenter l’intensité d’une variable sur une grille bidimensionnelle ;
  •  avec un Hexbin Plot la densité des points est représentée par des hexagones ce qui évite l’overplotting ; 
  • un Kernel Density Estimation Plot, ou KDE Plot fournit une représentation lisse et continue de la densité de probabilité sous-jacente d’une variable continue ;
  • le Pie Chart est une alternative visuelle pour illustrer la composition d’un tout, en montrant comment différentes catégories contribuent à un ensemble.

 

Le scatter plot demeure un outil essentiel et polyvalent dans l’arsenal des techniques de Data Vizualisation. Sa simplicité visuelle et son efficacité en font une option privilégiée pour explorer les relations entre deux variables continues. Ce pilier fondamental de l’exploration des données aide les analystes et les chercheurs à découvrir des informations cruciales et à générer des hypothèses et des prévisions.