25 novembre 2019
CamemBERT, une intelligence artificielle qui maîtrise la langue française dans ses moindres détails
Quand on parle de camembert, l’image d’un fromage bien coulant vient tout de suite en tête. Une fierté nationale qui est l’un des emblèmes de la France tout de même ! Et bien désormais, le monde de la science et des nouvelles technologies à son propre camembert !
On peut dire que les informaticiens français ne manquent pas d’humour ! Une équipe de l’Inra (l’Institut National de recherche dédié aux sciences du numérique) a présenté sa dernière création en Intelligence Artificielle sous le “savoureux” nom de CamemBERT. Ce nouveau modèle informatique est capable de manier parfaitement la langue française, et a été mis en ligne gratuitement par ses fondateurs en novembre.
La genèse de cette Intelligence Artificielle au nom alléchant.
Les algorithmes dits de “modèle contextuels de langue” sont très importants aujourd’hui, car c’est sur eux que se basent de nombreuses applications dont on se sert tous les jours. Application de traduction de texte d’une langue à une autre, application de simplification de texte, application de réponses construites à des questions posées, etc… Ces intelligences artificielles sont entrainées pour être capables de maîtriser l’orthographe, la grammaire et la syntaxe d’une langue. Jusqu’à maintenant, ces modèles linguistiques étaient majoritairement en langue anglaise. On comprend mieux les nombreux contresens dans certains textes, les traductions mots à mots, où les non sens qui fleurissent sur internet et que l’on croise quotidiennement ! Il existe donc un réel besoin de contenus pour les autres langues.
Ainsi, c’est un peu la course à celui qui fera le meilleur programme ces dernières années : L’enjeu est le langage, le contenu, et c’est une notion clé pour aujourd’hui et pour demain. L’Institut Allen, Facebook, OpenAI, Google ont proposé leurs versions d’un modèle linguistique d’IA le plus performant et le plus complet possible. C’est ce dernier qui remporte la palme du programme le plus courant et répandu : il s’appelle BERT (pour Bi-directional Encoders for Transformers) et a été créé en 2018 dans les labos de Google. Le nouveau programme français s’appuie donc sur cette application, en lui apportant la french touch ultime avec son nom de premier cru.
Comment s’y est pris l’équipe de L’Inra pour former CamemBERT ?
Il s’agit avant tout d’un apprentissage automatique, et d’un apprentissage profond – le fameux “deep learning”. Ils ont entrainé l’IA et lui ont fait “ingurgiter” des milliers de textes en français, textes issus du web. Ensuite, l’exercice était le suivant : les chercheurs ont créé des textes à trous, que l’IA a dû remplir avec le bon mot. Ainsi, elle a appris à différencier les noms communs des noms propres, les verbes, les adverbes, les adjectifs. Un cours particulier en accéléré ! l’IA CamemBERT maîtrise aussi la grammaire et la syntaxe française, et elle est dotée d’un vocabulaire conséquent. Quand on connaît la difficulté de l’apprentissage de la langue de Molière, cela fait rêver n’est ce pas ? Les chercheurs l’affirment : le taux de réussite de cette Intelligence Artificielle est de plus de 99%.
Une belle prouesse réalisée par ces chercheurs spécialistes de l’IA, et une véritable avancée pour la compréhension des contenus français sur la scène internationale à étudier dans les écoles d’intelligence artificielle. Cocorico !
#ia #intelligenceartificielle #camembert