Tout savoir sur Kaggle
Grâce à leur transformation numérique, les entreprises et les organisations possèdent des volumes de données très importants. Mais, aucun logiciel de traitement de données n’est assez performant pour extraire toute la valeur ajoutée de cette data. C’est ce potentiel de données non exploitées qu’a souhaité valoriser Anthony Goldbloom, le fondateur de Kaggle.
Selon ce jeune australien, la data science et ses modèles de prédiction vont révolutionner la recherche et permettre de répondre à des enjeux scientifiques et économiques. Porté par sa vision, il crée une plateforme web en accès libre où des utilisateurs du monde entier peuvent apprendre, tester et découvrir la puissance de l’intelligence artificielle (IA) dans l’analyse des données.
Qu’est-ce que Kaggle ?
Kaggle, c’est le mariage d’une intuition et d’un outil.
La naissance et le développement d’une idée, la prédiction à base d’intelligence artificielle
Au siècle des Lumières, les hommes de science exerçaient leur intelligence sans limite de spécialité. Ils intervenaient sur différents sujets : santé, mathématiques, art, techniques de construction, etc. Les savants échangent et confrontent leurs travaux dans un esprit d’ouverture. Cette émulation conduit à des découvertes majeures qui ont des répercussions dans plusieurs domaines d’application. Mais, cette culture du savoir transversal disparaît plus tard au profit de la spécialisation.
Anthony Goldbloom pressent d’une part que l’intelligence artificielle peut jouer un rôle moteur dans le traitement et l’analyse de données. Et d’autre part, il a l’intuition d’une nécessaire émulation et ouverture scientifique. Il développe l’idée de Kaggle lors d’un stage au magazine The Economist. Il devait alors rédiger un article sur le secteur émergent de la big data. Avec Kaggle, il nous propose ainsi de décloisonner la communauté scientifique grâce à la science des données.
Kaggle, la plateforme référence de la communauté de la data science
Créée en 2010, Kaggle compte aujourd’hui 16 millions d’utilisateurs. Son succès repose sur la simplicité et la puissance de son interface grâce à l’intégration d’un GPU (graphics processing unit). Concrètement, le site internet d’Anthony Goldbloom propose à des utilisateurs du monde entier d’apprendre le machine learning, de participer à des compétitions de recherche ou de consulter des jeux de données.
Les participants s’appuient sur l’apprentissage automatique pour créer un modèle de prédiction sur des sujets variés : économie, sport, santé ou science. Le machine learning leur permet en effet l’extraction automatisée de résultats applicables à partir d’un grand ensemble de données. L’outil et ses applications séduisent les entreprises, les laboratoires et les organisations gouvernementales.
À quoi sert la plateforme Kaggle ?
Anthony Goldbloom a voulu créer le portail de référence pour le machine learning appliqué aux données. Soit dans un but d’entraînement, soit dans un but de résolution de problèmes. Son site internet se veut résolument ouvert à tous.
L’analyse des données grâce au machine learning
L’apprentissage automatique suit un double mouvement. D’une part, il crée un modèle à partir d’un ensemble de données. Et d’autre part, le système teste la modélisation dans le but de réaliser une tâche concrète lors de la phase dite d’apprentissage. Par exemple, l’un des sujets d’entraînement proposé par Kaggle a pour objectif de prédire quel passager du Titanic est susceptible d’avoir survécu.
Pour y parvenir, un premier modèle pourrait préciser le profil type du survivant de la catastrophe à partir du bilan du naufrage et des données personnelles des passagers : une femme avec telle ou telle caractéristique. La phase d’apprentissage, c’est la soumission du modèle obtenu aux données de la liste des passagers et membres d’équipage. Si l’algorithme est le bon, il y aura un très faible écart d’erreur entre les prédictions et la réalité.
Kaggle : des résultats concrets aux problèmes posés
La brillante idée d’Anthony Goldbloom, c’est d’exposer les problèmes soumis à des chercheurs volontaires qui n’ont aucune idée préconçue sur la solution. Grâce à Kaggle, tout problème posé lors d’une compétition a toujours bénéficié d’une avancée significative dans sa résolution. La meilleure soumission de modélisation prédictive permet systématiquement de dépasser le niveau de connaissances de référence. C’est la raison du succès de Kaggle. Conscient de ce potentiel, Google rachète l’entreprise d’Anthony Goldbloom en 2017.
Que peut-on faire sur Kaggle ?
La page d’accueil de Kaggle présente clairement les différentes utilisations de la plateforme. Les débutants en programmation informatique se voient proposer des cours de mise à niveau. Ainsi, tout le monde peut participer à une compétition sur un sujet qui l’intéresse. Voici les trois grandes opportunités offertes par Kaggle.
Partager des connaissances sur l’apprentissage automatique et sur la science des données
Le site de Kaggle propose des cours gratuits sur la data science, sur le machine learning, l’intelligence artificielle, l’analyse et le traitement des données, le code Python, etc. Suite à leur inscription gratuite, les membres peuvent également partager leur notebook. Ce précieux carnet de notes de leurs recherches permet aux autres participants d’apprendre et de gagner du temps dans leur projet de résolution de problème. À ce jour, 400 000 notebooks sont partagés sur le site.
Participer à des compétitions pour résoudre des problèmes grâce au machine learning
C’est l’activité phare de Kaggle : participer à une compétition pour résoudre un problème réel proposé par une entreprise ou une organisation. Les participants sont classés en fonction de la précision de leurs prédictions. Certains concours sont récompensés par un prix (jusqu’à 1 million de dollars pour Netflix), par un recrutement ou par une citation dans des travaux de recherche.
Accéder à des ensembles de données sur des sujets multiples
Le site Kaggle propose des ensembles de données dans des domaines extrêmement variés. Le site en compte désormais 50 000. Ce partage permet aux participants de s’exercer ou de trouver de la data pour leur projet. Les données sont en accès libre pour tous les membres. La plateforme favorise la collaboration entre membres. Chacun peut par exemple échanger ses résultats pour obtenir les commentaires d’une autre personne.
Quels sont les différents types de compétition Kaggle ?
Anthony Goldbloom a lancé la première compétition de son site : il a offert 1000 dollars à la personne qui pourrait déterminer le plus précisément possible le vote des pays participants à l’Eurovision en 2010. Les compétitions proposées sur le site visent désormais différents types d’objectifs :
- L’apprentissage : ces compétitions sont destinées à l’entraînement des débutants et ne bénéficient ni de prix ni de récompense.
- Le recrutement : les entreprises ou les laboratoires offrent un poste au gagnant du concours. C’est le cas de Facebook ou de Yelp, la société californienne des avis e-commerce.
- La recherche : il s’agit surtout de problèmes scientifiques partagés par des universités. Les gagnants peuvent obtenir une intervention lors d’un colloque ou une citation dans une revue spécialisée.
- Le concours sponsorisé : les entreprises déposent un problème réel à résoudre. Elles partagent leurs données et récompensent financièrement le vainqueur. Mastercard récompensait ainsi d’un prix de 100 000 dollars la meilleure soumission de modélisation prédictive pour son problème.
Comment fonctionnent les compétitions Kaggle ?
Une compétition Kaggle se déroule selon plusieurs étapes :
- Une organisation contacte Kaggle pour déposer une problématique à résoudre. Une compétition est alors ouverte aux membres volontaires.
- L’animateur de la compétition partage les données nécessaires. Si celles-ci sont trop sensibles, la compétition devient un concours privé.
- Les participants peuvent participer en équipe. La création de celle-ci s’effectue à partir du site Kaggle.
- Les participants chargent les données à partir de fichiers CSV. Le fichier train.csv sert à entraîner le modèle obtenu et le fichier test.csv est utilisé pour effectuer les prédictions.
- Le traitement (nettoyage, transformation) des données puis leur analyse permettent de créer la modélisation et son expérimentation.
- La soumission des prédictions des participants est enfin évaluée par Kaggle. Un classement détermine les meilleurs résultats de la compétition : les écarts les plus faibles entre les prédictions et la réalité.
Qui utilise Kaggle ?
Les grandes entreprises, les universités et les laboratoires fournissent les questions à résoudre. American Express a ainsi déposé une demande de modélisation prédictive pour ses clients : comment déterminer une personne susceptible de commettre un défaut de paiement ?
Il existe différents profils d’utilisateurs Kaggle :
- l’apprenant pour se former à la data science ;
- le développeur pour l’utilisation de données liées à un projet ;
- le chercheur pour faire avancer ses recherches scientifiques.
Dans quel domaine utilise-t-on cette plateforme ?
Kaggle permet d’obtenir des modèles prédictifs dans la santé pour prévenir le développement d’une maladie. Les prédictions intéressent l’économie pour modéliser le comportement des clients. Enfin, dans le sport pour déterminer les systèmes de jeu les plus efficaces.
Mais, il existe aussi des applications dans le domaine des images et des sons. La modélisation permet ainsi de déterminer le contenu d’une photo dans un catalogue produits (CDiscount). Elle aide aussi à reconnaître un type d’animal selon les cris enregistrés lors d’une observation.
Grâce au machine learning, Kaggle représente une opportunité pour la recherche appliquée. Les compétitions révolutionnent la data science et permettent des avancées majeures.