25 novembre 2019

CamemBERT, une intelligence artificielle qui maîtrise la langue française dans ses moindres détails

Quand on parle de camembert, l’image d’un fromage bien coulant vient tout de suite en tête. Une fierté nationale qui est l’un des emblèmes de la France tout de même ! Et bien désormais, le monde de la science et des nouvelles technologies à son propre camembert !

On peut dire que les informaticiens français ne manquent pas d’humour ! Une équipe de l’Inra (l’Institut National de recherche dédié aux sciences du numérique) a présenté sa dernière création en Intelligence Artificielle sous le “savoureux” nom de CamemBERT. Ce nouveau modèle informatique est capable de manier parfaitement la langue française, et a été mis en ligne gratuitement par ses fondateurs en novembre.

 

La genèse de cette Intelligence Artificielle au nom alléchant.

Les algorithmes dits de “modèle contextuels de langue” sont très importants aujourd’hui, car c’est sur eux que se basent de nombreuses applications dont on se sert tous les jours. Application de traduction de texte d’une langue à une autre, application de simplification de texte, application de réponses construites à des questions posées, etc… Ces intelligences artificielles sont entrainées pour être capables de maîtriser l’orthographe, la grammaire et la syntaxe d’une langue. Jusqu’à maintenant, ces modèles linguistiques étaient majoritairement en langue anglaise. On comprend mieux les nombreux contresens dans certains textes, les traductions mots à mots, où les non sens qui fleurissent sur internet et que l’on croise quotidiennement ! Il existe donc un réel besoin de contenus pour les autres langues.

Ainsi, c’est un peu la course à celui qui fera le meilleur programme ces dernières années : L’enjeu est le langage, le contenu, et c’est une notion clé pour aujourd’hui et pour demain. L’Institut Allen, Facebook, OpenAI, Google ont proposé leurs versions d’un modèle linguistique d’IA le plus performant et le plus complet possible. C’est ce dernier qui remporte la palme du programme le plus courant et répandu : il s’appelle BERT (pour Bi-directional Encoders for Transformers) et a été créé en 2018 dans les labos de Google. Le nouveau programme français s’appuie donc sur cette application, en lui apportant la french touch ultime avec son nom de premier cru.

Comment s’y est pris l’équipe de L’Inra pour former CamemBERT ?

Il s’agit avant tout d’un apprentissage automatique, et d’un apprentissage profond – le fameux “deep learning. Ils ont entrainé l’IA et lui ont fait “ingurgiter” des milliers de textes en français, textes issus du web. Ensuite, l’exercice était le suivant : les chercheurs ont créé des textes à trous, que l’IA a dû remplir avec le bon mot. Ainsi, elle a appris à différencier les noms communs des noms propres, les verbes, les adverbes, les adjectifs. Un cours particulier en accéléré ! l’IA CamemBERT maîtrise aussi la grammaire et la syntaxe française, et elle est dotée d’un vocabulaire conséquent. Quand on connaît la difficulté de l’apprentissage de la langue de Molière, cela fait rêver n’est ce pas ? Les chercheurs l’affirment : le taux de réussite de cette Intelligence Artificielle est de plus de 99%.

Une belle prouesse réalisée par ces chercheurs spécialistes de l’IA, et une véritable avancée pour la compréhension des contenus français sur la scène internationale à étudier dans les écoles d’intelligence artificielle. Cocorico !

#ia #intelligenceartificielle #camembert

Plus

d'articles

23 avril 2024

Retrouvez l’interview de Coline Alberti, étudiante en deuxième année de Mastère à l’IA School sur le campus d’Aix-en-Provence. Pourquoi Coline […]

19 avril 2024

De la santé à la finance en passant par l’automobile, l’intelligence artificielle (IA) a révolutionné de nombreux domaines. Cependant, cette […]

3 avril 2024

Vous avez envie d’en savoir plus sur la tech ? alors voici 3 films qui vous intéresseront tout particulièrement ! […]

2 avril 2024

Retrouvez l’interview de Pompilio Fanelli, formateur en Data Visualisation pour l’IA School sur le campus de Bordeaux.   Le parcours […]

21 mars 2024

Si nous voulons comprendre l’ampleur de la biodiversité marine et savoir comment elle pourrait être en danger, nous devons d’abord […]

14 mars 2024

Selon la direction générale de la Sécurité intérieure (DGSI), 72 attentats ont été déjoués depuis 2012. Mais, ces résultats ne […]