Tout savoir sur ReCALL

Le recall en intelligence artificielle ou rappel, est une métrique importante en IA, dans les domaines où l’exhaustivité des occurrences positives est cruciale. Le recall est particulièrement important dans des secteurs tels que la santé (notamment pour le diagnostic médical), la sécurité, et la finance (pour la détection de fraude). Vous trouverez ci-après la définition du rappel, sa formule de calcul ainsi que ses principales différences avec la précision, l’autre indicateur de performance d’IA. Comprendre le rappel vous permet d’optimiser vos modèles d’apprentissage automatique et de mieux répondre aux besoins des domaines concernés.

 

Qu’est-ce que le recall en intelligence artificielle ?

Le recall est une mesure de performance couramment utilisée pour les modèles de classification. Encore appelé sensibilité, taux de réussite ou taux de vrais positifs, le rappel permet d’évaluer la capacité d’un modèle à identifier correctement toutes les occurrences positives d’un jeu de données.

À l’heure où les algorithmes classiques visent à augmenter la précision des prédictions, le rappel se concentre sur l’amélioration de la sensibilité du modèle de Machine Learning. Son objectif est de maximiser la détection correcte des cas positifs.

 

Quels sont les principes de base du recall ?

Le rappel s’articule autour de trois points clés.

  • L’indicateur est sensible à tout élément positif. Il est capable de détecter des occurrences positives, même les plus rares et les plus semblables aux éléments négatifs. Pour atteindre cet objectif, l’apprentissage des modèles doit être réalisé sur un jeu de données contenant suffisamment d’instances positives.
  • Le rappel doit limiter le nombre de faux négatifs. Ils peuvent provoquer de graves conséquences dans les domaines comme le diagnostic médical.
  • Paradoxalement, le rappel doit assurer un équilibre avec la précision. Cette métrique mesure la capacité des modèles à limiter les fausses instances positives. En cas de déséquilibre, le rappel risque d’intégrer un grand nombre de fausses occurrences positives. Cela peut devenir problématique pour certaines applications.

Quelle est la formule pour calculer le recall ?

Le recall est calculé à l’aide d’une formule spécifique :

ReCALL = TP/TP + FN

Ici, TP ou True Positives désigne le nombre de cas où le modèle d’IA a correctement prédit les instances de la classe positive. Quant à FN ou False Negatives, il s’agit du nombre de cas où le modèle a prédit la classe négative pour une instance qui est en réalité positive. La valeur de TP + FN représente alors le nombre total d’instances réellement positives dans le jeu de données.

Plus la valeur du rappel est élevée, plus le modèle d’IA est capable d’identifier les instances positives. Par conséquent, un rappel faible met en exergue un modèle qui manque d’un grand nombre d’occurrences réellement positives.

 

Dans quels domaines utilise-t-on principalement le recall ?

Le recall est particulièrement apprécié dans les domaines où la détection d’occurrences positives est primordiale même s’il entraîne quelques faux positifs dans les résultats. Autrement dit, cette mesure de performance est indispensable dans les applications où les conséquences d’un faux négatif pourraient être désastreuses.

Détection de maladies dans l’imagerie médicale

L’IA apporte une grande contribution dans le dépistage du cancer du sein ou de l’embolie pulmonaire. Avec le recall, l’imagerie médicale se modernise. Il permet d’optimiser le diagnostic assisté par l’IA en détectant de façon précoce la majorité des anomalies telles que les tumeurs, kystes ou autres types de lésions.

Les médecins peuvent ainsi intervenir plus rapidement. Par ailleurs, en réduisant les faux négatifs, le rappel réduit le nombre de cas où la maladie n’est pas détectée. Il participe alors à l’amélioration du taux de survie des patients.

Détection d’intrusion dans la sécurité et la surveillance

Un système de détection d’intrusion doté d’un rappel élevé offre une meilleure protection à ses clients. Il peut en effet repérer la plupart des activités malveillantes, même les plus discrètes, et permet aux équipes techniques d’intervenir plus rapidement.

Un tel système réduit ainsi les risques d’accès non autorisés, de perte d’informations ou de dommages matériels. Par ailleurs, en maximisant cet indicateur pendant l’entraînement des modèles de Machine Learning, vous permettez au système de détection de rester efficace face aux nouvelles méthodes d’attaque.

Détection de fraudes dans la finance et l’assurance

La finance et l’assurance sont les domaines où l’identification des activités frauduleuses est primordiale. Avec un rappel élevé, l’entreprise est capable de repérer rapidement les fraudes les mieux dissimulées. Au moindre mouvement suspect, les services de la cybersécurité interviennent rapidement pour contenir la fraude et réduire les pertes financières. En proposant une meilleure protection à ses clients, l’entreprise améliore son image.

Amélioration des systèmes de recherche d’informations

Le rappel est un indicateur clé dans l’amélioration des moteurs de recherche ou des systèmes de recommandation. Avec un rappel élevé, le système propose à ses utilisateurs des résultats pertinents en réponse à leur requête. Il leur procure ainsi une expérience de recherche optimisée. Par ailleurs, plus le rappel est élevé, plus les modèles de Machine Learning sont capables de récupérer des données justes et variées.

 

En quoi le recall diffère-t-il de la précision ?

Le rappel et la précision sont deux mesures de performance fréquemment utilisées pour les modèles de classification ou de recherche d’informations. Elles diffèrent en de nombreux points. Mais dans un premier temps, découvrez ce qu’est la précision.

Qualité des prédictions positives avec la précision

La précision indique dans quelle mesure les prédictions positives d’un modèle sont exactes. Elle présente le rapport entre le nombre de vrais positifs et la somme des vrais et faux positifs. La formule utilisée pour le calcul de cet indicateur est la suivante :

Précision = TP/TP + FP

Ici, les FP ou faux positifs sont des cas où le modèle a prédit la classe positive pour une instance qui est en réalité négative. Une précision élevée signifie que la majorité des prédictions positives faites par le modèle sont correctes. Il fait donc peu d’erreurs en répertoriant des occurrences négatives dans la classe positive. La précision est surtout utilisée dans les domaines où une fausse alerte à cause d’un faux positif peut entraîner d’importantes conséquences pour les utilisateurs.

Principales différences entre précision et rappel

Le rappel et la précision sont de puissantes mesures de performance pour les modèles de classification. Voici trois différences à prendre en compte en fonction de vos besoins.

Rapport avec les erreurs de classe

Le rappel est un indicateur qui se concentre sur la limitation des faux négatifs. Il a besoin à tout prix d’éviter de manquer des instances positives. La précision quant à elle se focalise sur la minimisation du score de faux positifs. Elle doit éviter de prédire la classe positive pour une instance qui est finalement négative.

Objectifs de chaque mesure de performance

Le rappel a pour objectif de prédire un maximum de vraies occurrences positives même s’il doit entraîner quelques fausses instances positives. L’objectif de la précision est tout autre. Elle consiste à assurer la qualité de ses prédictions positives, quitte à laisser de côté quelques instances de faux négatifs.

Applications spécifiques des deux indicateurs

Le rappel est à privilégier lorsque le manque d’occurrences positives peut entraîner des conséquences fâcheuses. Vous cherchez un système de filtrage pour les mails du service ? Préférez dans ce cas l’indicateur de précision pour mesurer la performance de votre modèle de Machine Learning. Il privilégie la réduction des fausses instances positives et propose des classements pertinents de vos mails.

 

Pourquoi pourrait-on privilégier le recall par rapport à d’autres métriques ?

Le rappel est à préférer lorsque l’identification exhaustive d’instances positives est vitale dans le contexte où vous vous trouvez. Voici la liste des cinq principales raisons de privilégier cet indicateur de performance.

  • Besoin de limiter les conséquences graves liées aux faux négatifs. C’est le cas du diagnostic médical ou de la sécurité des lieux.
  • Besoin de détection complète des occurrences positives. Vous trouverez dans cette catégorie des applications de détection de fraude ou des systèmes de recommandation où il est nécessaire de présenter un panel complet de produits aux utilisateurs.
  • Besoin de recherche et d’exploration de données. Dans ces deux cas, l’utilisateur a besoin de la complétude des données ou documents à examiner pour prendre des décisions ou rendre des conclusions justes.

 

Quelles techniques peut-on utiliser pour améliorer le recall d’un modèle ?

Plusieurs techniques sont disponibles pour améliorer le rappel d’un modèle de Machine Learning. Il permet de réduire encore plus les faux négatifs.

  • L’augmentation des données peut améliorer le rappel des modèles d’apprentissage automatique. Privilégiez l’enrichissement des données des classes minoritaires pour rééquilibrer le jeu de données. Vous pouvez également pratiquer des transformations aléatoires des données existantes pour en créer artificiellement des nouvelles.
  • L’ajustement des modèles présente le deuxième axe de travail. Vous pouvez choisir une fonction de perte qui pénalise plus les faux négatifs. Appliquez également des méthodes d’apprentissage semi-supervisées pour inciter le modèle à détecter les occurrences positives rares.

 

Le recall en intelligence artificielle est une mesure importante, surtout dans les domaines où chaque faux négatif peut provoquer de lourdes conséquences. Par conséquent, comprendre le rappel permet de l’optimiser et d’améliorer l’identification des occurrences positives dans les applications critiques.

Vous avez le projet de travailler dans le domaine de l’Intelligence artificielle. IA School propose un programme Grande École d’une durée de cinq ans. Vous disposez, à l’issue de la formation, des compétences nécessaires pour prétendre à des postes dans le domaine de l’IA et de la Big Data. Contactez-nous sans attendre pour en savoir plus sur nos cursus.