5 janvier 2024

ChatGPT version audio : OpenAI donne enfin la parole à son agent conversationnel

Le projet ChatGPT, lancé en 2018, visait à développer un modèle de langage avancé capable de comprendre et de générer du texte de manière conversationnelle et naturelle. Depuis un an, le service surfe sur le succès dans le monde entier, avec en moyenne plus de 13 millions de visiteurs uniques par jour. En septembre 2023, OpenAI a annoncé des mises à jour, notamment la mise en service d’un ChatGPT version audio, multipliant ainsi les canaux de requêtes possibles.

Tout savoir sur ChatGPT, le chatbot boosté à l’Intelligence Artificielle

OpenAI est une entreprise de recherche en Intelligence Artificielle (IA) basée à San Francisco, en Californie, fondée en 2015 par Sam Altman. Les équipes se sont inspirées des avancées dans le domaine du Deep Learning et du NLP pour former un agent capable de simuler des conversations humaines.

La première version GPT-1, dévoilée en 2018, a représenté une avancée significative dans la capacité des machines à générer du texte cohérent en réponse à différents types de requêtes. L’IA s’est ensuite améliorée avec les sorties successives de GPT-2 en 2019 et GPT-3 en 2020.

ChatGPT-4, la version qui propulse l’assistant dans le monde entier

C’est l’un des modèles de langage les plus avancés et les plus sophistiqués, introduits au début de l’année 2023. GPT-4 est doté d’un réseau de neurones alimenté par 100 000 milliards de paramètres. De plus, selon ses créateurs, « GPT-4 est 82 % moins susceptible de répondre aux demandes de contenu non autorisé et 40 % plus susceptible de produire des réponses factuelles ».

Le 6 novembre, lors du premier Devday, une conférence dédiée aux développeurs, l’entreprise de Sam Altman a annoncé le lancement imminent de GPT-4 Turbo. Plus performant, il prend en charge une fenêtre contextuelle de 128 000 tokens, soit 4 fois la taille de GPT-4. Cela équivaut à environ 300 pages, à peu près la taille de livres comme Harry Potter à l’école des sorciers de J. K. Rowling, ou I, Robot d’Isaac Asimov par exemple.

Comprendre le fonctionnement de l’Intelligence Artificielle de GPT

L’IA de GPT, ou « Generative Pre-trained Transformer », fonctionne grâce à un réseau de neurones artificiels également appelé Transformer. Ceux-ci sont conçus pour traiter des données séquentielles en tenant compte du contexte global de la séquence.

L’algorithme est entraîné sur de vastes ensembles de données textuelles, afin de lui permettre d’apprendre la structure du langage. Des blocs d’encodeurs et de décodeurs vont ensuite l’aider à saisir un contexte global. Un processus d’apprentissage supervisé lui fournit des exemples de données étiquetées pour ajuster ses poids. Il est ensuite optimisé pour ajuster les paramètres, afin de minimiser les erreurs et améliorer les performances.

OpenAI offre de nouvelles fonctionnalités à ChatGPT grâce à l’audio

Les équipes de Sam Altman ont lancé de nouvelles fonctionnalités pour interagir avec le chatbot. Désormais, il peut aussi voir, mais surtout parler et entendre.

Nouvelle version de ChatGPT-4, de quoi est désormais capable l’assistant ?

ChatGPT-4 est la dernière version du système de conversation artificielle. Il peut traiter des entrées multimodales, c’est-à-dire qu’il peut accepter du texte, des images ou du son. Il produit alors des réponses adaptées dans le même mode ou un mode différent. Il peut commenter une image, en générer une à partir d’une description textuelle ou transcrire un fichier audio et en tirer une rédaction.

Il peut également gérer des entrées et des sorties plus longues et plus complexes, jusqu’à 25 000 mots. Plus fiable et plus créatif, il est capable de gérer des instructions plus nuancées que les versions précédentes. Autre avancée majeure, l’outil est désormais alimenté par des données récentes, alors que jusque-là il ne se basait que sur des données antérieures à 2021. Il peut désormais parcourir le web pour proposer des informations issues d’articles actuels.

Selon OpenAI, il est aussi plus sûr et plus éthique, car entraîné avec des données plus diversifiées. Il a de plus été doté de mécanismes de filtrage et de modération, qui doivent éviter de produire des contenus offensants, trompeurs ou dangereux. Toutefois, cette version est la plus secrète jamais sortie. Difficile d’obtenir des informations qui permettent une évaluation objective des capacités et des performances de l’assistant.

Comment l’Intelligence Artificielle donne-t-elle une voix à ChatGPT ?

Deux modèles distincts ont permis la mise au point des fonctionnalités audio. Tout d’abord, Whisper, son outil open source de reconnaissance vocale, qui convertit ce qu’il entend en contenu textuel puis le transmet au chatbot. Ensuite, un nouveau modèle de synthèse vocale convertit les réponses de ChatGPT en mots parlés.

Celui-ci a la capacité de générer un son humain à partir d’un écrit et d’un échantillon de parole de seulement quelques secondes. Cinq voix synthétiques très réalistes sont disponibles. Chacune d’elles est issue d’une collaboration avec des comédiens et comédiennes professionnels. L’outil est également utilisé par d’autres entreprises, notamment Spotify. La plateforme de streaming l’utilise par exemple pour traduire certains de ses podcasts en différentes langues.

Que peuvent faire les utilisateurs avec la fonction audio de ChatGPT ?

Grâce à la puissance de GPT-4, l’assistant est capable de tenir une conversation orale naturelle avec les utilisateurs. Ainsi, il peut raconter une histoire originale, à partir de quelques instructions ou suggestions. Il peut également aider à la rédaction ou l’amélioration d’un contenu, en réagissant au feedback oral de son interlocuteur. Comme un assistant virtuel, il peut également raconter une blague, réciter un poème, répondre à des questions et même donner son avis.

Comment utiliser les nouvelles fonctionnalités du service d’OpenAI ?

Toutes les nouvelles fonctionnalités sont disponibles dans un premier temps pour les abonnés ChatGPT Plus et Enterprise, via l’application mobile Android et iOS. Pour lancer la voix, vous devez vous rendre dans les paramètres de l’application et choisir « nouvelles fonctionnalités. Vous pouvez ici activer les conversations vocales. Il vous suffit ensuite d’appuyer sur le bouton du casque (dans le coin supérieur droit de l’écran d’accueil) et de sélectionner votre voix préférée.

Notez toutefois que Bing Chat, de Microsoft, est également pris en charge par GPT-4. Il est donc possible d’en utiliser gratuitement les fonctions avec une limite journalière. Le chatbot est disponible via le service Microsoft Edge ou l’application Bing sur Android ou IOS. Une extension Chrome est également disponible. Elle permet de consulter les réponses de Bing Chat à côté des résultats de recherche de Google.

L’Intelligence Artificielle fait désormais partie de notre vie quotidienne. Elle impacte le développement technologique et économique de quasiment tous les secteurs d’activité. Elle ouvre également la porte à de nombreuses opportunités de carrière. IA school forme les futurs experts en sciences de l’IA et de la Data, à travers différents cursus très complets. Avec nos formations, les étudiants maîtrisent l’ensemble des outils techniques et les enjeux business de l’IA.

Plus

d'articles

23 avril 2024

Retrouvez l’interview de Coline Alberti, étudiante en deuxième année de Mastère à l’IA School sur le campus d’Aix-en-Provence. Pourquoi Coline […]

19 avril 2024

De la santé à la finance en passant par l’automobile, l’intelligence artificielle (IA) a révolutionné de nombreux domaines. Cependant, cette […]

3 avril 2024

Vous avez envie d’en savoir plus sur la tech ? alors voici 3 films qui vous intéresseront tout particulièrement ! […]

2 avril 2024

Retrouvez l’interview de Pompilio Fanelli, formateur en Data Visualisation pour l’IA School sur le campus de Bordeaux.   Le parcours […]

21 mars 2024

Si nous voulons comprendre l’ampleur de la biodiversité marine et savoir comment elle pourrait être en danger, nous devons d’abord […]

14 mars 2024

Selon la direction générale de la Sécurité intérieure (DGSI), 72 attentats ont été déjoués depuis 2012. Mais, ces résultats ne […]