Tout savoir sur L'analyse en composantes principales
L’analyse en composantes principales (ACP) fait partie des techniques statistiques multivariées. Elle permet de réduire le nombre de variables appliquées à des individus tout en maintenant l’intégrité de l’information. De la standardisation des variables à la création de l’espace de données restreint, découvrez les cinq étapes du déroulement de l’ACP. Pour interpréter les résultats produits par ce processus, des critères tels que la distance des points par rapport à l’axe sont utilisés.
L’analyse en composantes principales (ACP) : définition
L’analyse en composantes principales est une analyse factorielle rattachée à la famille des statistiques multivariées. Elle présente une méthode de réduction de dimensionnalité qui permet de transformer des variables corrélées en variables décorrélées. Ces nouvelles variables de variance maximale sont baptisées composantes principales ou axes principaux. Ce sont des combinaisons linéaires des variables d’origine.
L’analyse en composantes principales permet de réduire les observations d’un espace à n dimensions et n variables vers un espace à m dimensions où m est inférieur à n. Le but de l’ACP est d’obtenir une représentation plus simple des données sans pour autant perdre de l’information.
Lorsque les observations représentant les 2 ou 3 premiers axes sont suffisamment représentatives de la variabilité du nuage de points, l’analyse en composantes principales peut être représentée sur un graphique à 2 ou 3 dimensions pour faciliter l’analyse des données.
Quel est le rôle de l’analyse en composantes principales ?
L’analyse en composantes principales peut être considérée comme une méthode de projection. Elle combine deux approches : une approche géométrique avec la représentation des variables dans un nouvel espace selon des directions d’inertie maximale et une approche statistique avec la recherche d’axes indépendants décrivant la variance. L’analyse en composantes principales répond à trois principaux objectifs :
- comprendre les corrélations entre un ensemble de variables ;
- créer des instruments pour l’analyse de données non mesurables directement ;
- compresser sans perte de données les informations relatives à un grand nombre de variables dans un espace plus restreint.
Comment fonctionne le processus de l’analyse en composantes principales ?
L’analyse en composantes principales consiste à réduire le nombre de variables d’un volume de données en limitant les pertes d’informations. L’analyse en composantes principales se déroule en cinq étapes.
Étape 1 : Normalisation des variables
Cette étape consiste à transformer les données pour qu’elles soient placées à des échelles comparables et que leurs contributions soient équivalentes pour l’analyse. Elle permet de corriger la sensibilité de l’ACP par rapport à la variance des variables initiales et d’éviter ainsi la production de résultats biaisés.
Étape 2 : Calcul de la matrice de covariance
L’objectif de cette étape est de déterminer s’il existe des corrélations entre les variables du volume de données en entrée. Pour cela, il est nécessaire de calculer la matrice de covariance. Il s’agit d’un tableau qui affiche les corrélations entre les paires de variables. Lorsque le signe d’une covariance est positif, les deux variables sont corrélées. S’il est négatif, ils sont inversement corrélés.
Étape 3 : Identification des composantes principales
L’identification des composantes principales passe par le calcul des vecteurs propres et des valeurs propres. Les vecteurs de la matrice de covariance sont les directions des axes où il y a le plus de variances. Ce sont les composantes principales. Quant aux valeurs propres, elles fournissent la quantité des variances portées dans chaque composante principale. En classant les valeurs propres par ordre décroissant, vous obtenez une hiérarchie de composantes principales.
Étape 4 : Création du vecteur des caractéristiques
Après avoir identifié les composantes principales, vous devez maintenant décider si vous les gardez toutes ou éliminez celles de faibles valeurs propres. Les facteurs choisis constituent le vecteur des caractéristiques, une matrice dont les colonnes sont les vecteurs propres des facteurs conservés. C’est la première étape vers la réduction de dimensionnalité.
Étape 5 : Organisation des données selon les axes des composantes principales
L’objectif de cette étape est de transposer les données des axes d’origine vers ceux représentés par les composantes principales pour créer l’espace de données restreint. Il faut pour cela multiplier la transposition des données d’origine par la transposition du vecteur des caractéristiques.
Quels sont les critères pour interpréter les résultats de l’analyse en composantes principales ?
L’interprétation des résultats de l’ACP passe par une représentation graphique des variables initiales. Elle s’appuie sur des plans factoriels définis à partir des composantes principales. L’analyse des données se base en général sur les deux premiers plans factoriels à condition qu’ils représentent la majeure partie de la variance du nuage de points. Voici trois critères permettant d’interpréter les résultats de l’analyse en composantes principales.
Distance entre un point et l’axe
Dans l’interprétation des résultats de l’ACP, les points les plus intéressants à observer sont ceux qui sont proches d’un axe et loin de l’origine. On dit qu’il est corrélé avec l’axe. Cette corrélation présente la qualité de représentation du point sur l’axe. Lorsque sa valeur tend vers 0, le point n’est pas du tout corrélé avec l’axe. Lorsqu’elle est proche de 1, le point est alors bien représenté sur l’axe.
Distance entre un point et l’origine
L’interprétation des points situés près du centre est incertaine, car ils sont mal représentés sur le plan factoriel. Lorsque deux points situés loin du centre sont proches, il est fort probable qu’ils soient similaires. Cependant, il faut considérer leur placement par rapport à tous les axes pour conclure qu’ils sont vraiment proches.
Rotation des facteurs
Pour simplifier la lecture des poids des variables, il est possible de procéder à une rotation des facteurs. Cela revient à tourner virtuellement les axes des facteurs autour de l’origine. Cette méthode de rotation permet de mieux distribuer la variance expliquée.
Dans quels domaines l’analyse en composantes principales est-elle couramment utilisée ?
L’analyse en composantes principales est utilisée dans les domaines de la biostatistique, du marketing ou encore de la sociologie. Elle peut servir d’outil de compression linéaire avec un taux proche de 20 %. En médecine nucléaire, cette méthode de réduction de dimensionnalité peut procéder à l’analyse de séries dynamiques d’images. Avec sa capacité à améliorer les modèles, l’analyse en composantes principales est également utile dans le domaine de l’apprentissage automatique.
Quels avantages offre l’ACP par rapport à d’autres méthodes d’analyse ?
L’ACP est une technique de réduction de dimensionnalité dotée de nombreux avantages. Elle évite le sur-apprentissage en permettant de travailler dans une dimension réduite. La simplification des données mises à disposition par l’analyse en composantes principales influe de manière positive sur la puissance de calcul et fait gagner du temps. Avec l’analyse en composantes principales, vous pouvez visualiser les corrélations entre variables, mais aussi identifier des observations atypiques.
Quelles sont les alternatives à l’analyse en composantes principales dans certains cas ?
L’analyse en composantes principales fait partie de la famille factorielle. D’autres méthodes factorielles permettent l’analyse d’autres types de tableaux. En voici quatre exemples.
L’analyse factorielle des correspondances (AFC)
Cette technique s’appuie sur un tableau croisant deux variables qualitatives. Dans ce cas, les individus et les variables jouent des rôles symétriques. L’AFC permet d’analyser et de classer l’information contenue dans un tableau de données.
L’analyse des correspondances multiples (ACM)
L’ACM est également consacrée aux variables qualitatives. Elle utilise un tableau de données où des individus sont décrits par un ensemble de variables qualitatives. Bien qu’elle soit une technique à part entière, l’ACM est souvent perçue comme proche de l’analyse en composantes principales dont les variables quantitatives sont remplacées par des variables qualitatives.
L’analyse factorielle de données mixtes (AFDM)
L’AFDM utilise un tableau dans lequel des individus sont décrits par un ensemble de variables quantitatives et qualitatives. Elles sont traitées simultanément dans le processus. L’AFDM permet de déceler la proximité entre les variables et les observations.
L’analyse factorielle multiple (AFM)
Cette méthode permet d’étudier un type de tableau dans lequel un ensemble d’individus est décrit par un ensemble de variables structurées en groupe. Elles sont de type quantitatif, qualitatif ou les deux. En fonction du type de variable, l’AFM est une extension de l’ACP, l’ACM ou l’AFDM.
L’analyse en composantes principales est largement utilisée pour étudier le fonctionnement d’un système en cours de fonctionnement. La réduction de dimensionnalité qu’elle propose permet de simplifier la représentation des données sans perte d’information. L’analyse en composantes principales est utilisée dans de nombreux domaines comme l’apprentissage automatique des modèles d’IA.
Vous avez le projet de travailler dans le domaine de l’intelligence artificielle et du Big Data ? Vous êtes intéressé par la Data Science ? L’IA School propose un programme Grande École déroulé sur cinq ans. À l’issue de ce cursus, vous disposez d’un bagage solide pour intégrer une équipe de Data Scientists. Contactez-nous sans attendre pour obtenir des informations complémentaires sur nos programmes de formation.