5 janvier 2024

ChatGPT version audio : OpenAI donne enfin la parole à son agent conversationnel

Le projet ChatGPT, lancé en 2018, visait à développer un modèle de langage avancé capable de comprendre et de générer du texte de manière conversationnelle et naturelle. Depuis un an, le service surfe sur le succès dans le monde entier, avec en moyenne plus de 13 millions de visiteurs uniques par jour. En septembre 2023, OpenAI a annoncé des mises à jour, notamment la mise en service d’un ChatGPT version audio, multipliant ainsi les canaux de requêtes possibles.

Tout savoir sur ChatGPT, le chatbot boosté à l’Intelligence Artificielle

OpenAI est une entreprise de recherche en Intelligence Artificielle (IA) basée à San Francisco, en Californie, fondée en 2015 par Sam Altman. Les équipes se sont inspirées des avancées dans le domaine du Deep Learning et du NLP pour former un agent capable de simuler des conversations humaines.

La première version GPT-1, dévoilée en 2018, a représenté une avancée significative dans la capacité des machines à générer du texte cohérent en réponse à différents types de requêtes. L’IA s’est ensuite améliorée avec les sorties successives de GPT-2 en 2019 et GPT-3 en 2020.

ChatGPT-4, la version qui propulse l’assistant dans le monde entier

C’est l’un des modèles de langage les plus avancés et les plus sophistiqués, introduits au début de l’année 2023. GPT-4 est doté d’un réseau de neurones alimenté par 100 000 milliards de paramètres. De plus, selon ses créateurs, « GPT-4 est 82 % moins susceptible de répondre aux demandes de contenu non autorisé et 40 % plus susceptible de produire des réponses factuelles ».

Le 6 novembre, lors du premier Devday, une conférence dédiée aux développeurs, l’entreprise de Sam Altman a annoncé le lancement imminent de GPT-4 Turbo. Plus performant, il prend en charge une fenêtre contextuelle de 128 000 tokens, soit 4 fois la taille de GPT-4. Cela équivaut à environ 300 pages, à peu près la taille de livres comme Harry Potter à l’école des sorciers de J. K. Rowling, ou I, Robot d’Isaac Asimov par exemple.

Comprendre le fonctionnement de l’Intelligence Artificielle de GPT

L’IA de GPT, ou « Generative Pre-trained Transformer », fonctionne grâce à un réseau de neurones artificiels également appelé Transformer. Ceux-ci sont conçus pour traiter des données séquentielles en tenant compte du contexte global de la séquence.

L’algorithme est entraîné sur de vastes ensembles de données textuelles, afin de lui permettre d’apprendre la structure du langage. Des blocs d’encodeurs et de décodeurs vont ensuite l’aider à saisir un contexte global. Un processus d’apprentissage supervisé lui fournit des exemples de données étiquetées pour ajuster ses poids. Il est ensuite optimisé pour ajuster les paramètres, afin de minimiser les erreurs et améliorer les performances.

OpenAI offre de nouvelles fonctionnalités à ChatGPT grâce à l’audio

Les équipes de Sam Altman ont lancé de nouvelles fonctionnalités pour interagir avec le chatbot. Désormais, il peut aussi voir, mais surtout parler et entendre.

Nouvelle version de ChatGPT-4, de quoi est désormais capable l’assistant ?

ChatGPT-4 est la dernière version du système de conversation artificielle. Il peut traiter des entrées multimodales, c’est-à-dire qu’il peut accepter du texte, des images ou du son. Il produit alors des réponses adaptées dans le même mode ou un mode différent. Il peut commenter une image, en générer une à partir d’une description textuelle ou transcrire un fichier audio et en tirer une rédaction.

Il peut également gérer des entrées et des sorties plus longues et plus complexes, jusqu’à 25 000 mots. Plus fiable et plus créatif, il est capable de gérer des instructions plus nuancées que les versions précédentes. Autre avancée majeure, l’outil est désormais alimenté par des données récentes, alors que jusque-là il ne se basait que sur des données antérieures à 2021. Il peut désormais parcourir le web pour proposer des informations issues d’articles actuels.

Selon OpenAI, il est aussi plus sûr et plus éthique, car entraîné avec des données plus diversifiées. Il a de plus été doté de mécanismes de filtrage et de modération, qui doivent éviter de produire des contenus offensants, trompeurs ou dangereux. Toutefois, cette version est la plus secrète jamais sortie. Difficile d’obtenir des informations qui permettent une évaluation objective des capacités et des performances de l’assistant.

Comment l’Intelligence Artificielle donne-t-elle une voix à ChatGPT ?

Deux modèles distincts ont permis la mise au point des fonctionnalités audio. Tout d’abord, Whisper, son outil open source de reconnaissance vocale, qui convertit ce qu’il entend en contenu textuel puis le transmet au chatbot. Ensuite, un nouveau modèle de synthèse vocale convertit les réponses de ChatGPT en mots parlés.

Celui-ci a la capacité de générer un son humain à partir d’un écrit et d’un échantillon de parole de seulement quelques secondes. Cinq voix synthétiques très réalistes sont disponibles. Chacune d’elles est issue d’une collaboration avec des comédiens et comédiennes professionnels. L’outil est également utilisé par d’autres entreprises, notamment Spotify. La plateforme de streaming l’utilise par exemple pour traduire certains de ses podcasts en différentes langues.

Que peuvent faire les utilisateurs avec la fonction audio de ChatGPT ?

Grâce à la puissance de GPT-4, l’assistant est capable de tenir une conversation orale naturelle avec les utilisateurs. Ainsi, il peut raconter une histoire originale, à partir de quelques instructions ou suggestions. Il peut également aider à la rédaction ou l’amélioration d’un contenu, en réagissant au feedback oral de son interlocuteur. Comme un assistant virtuel, il peut également raconter une blague, réciter un poème, répondre à des questions et même donner son avis.

Comment utiliser les nouvelles fonctionnalités du service d’OpenAI ?

Toutes les nouvelles fonctionnalités sont disponibles dans un premier temps pour les abonnés ChatGPT Plus et Enterprise, via l’application mobile Android et iOS. Pour lancer la voix, vous devez vous rendre dans les paramètres de l’application et choisir « nouvelles fonctionnalités. Vous pouvez ici activer les conversations vocales. Il vous suffit ensuite d’appuyer sur le bouton du casque (dans le coin supérieur droit de l’écran d’accueil) et de sélectionner votre voix préférée.

Notez toutefois que Bing Chat, de Microsoft, est également pris en charge par GPT-4. Il est donc possible d’en utiliser gratuitement les fonctions avec une limite journalière. Le chatbot est disponible via le service Microsoft Edge ou l’application Bing sur Android ou IOS. Une extension Chrome est également disponible. Elle permet de consulter les réponses de Bing Chat à côté des résultats de recherche de Google.

L’Intelligence Artificielle fait désormais partie de notre vie quotidienne. Elle impacte le développement technologique et économique de quasiment tous les secteurs d’activité. Elle ouvre également la porte à de nombreuses opportunités de carrière. IA school forme les futurs experts en sciences de l’IA et de la Data, à travers différents cursus très complets. Avec nos formations, les étudiants maîtrisent l’ensemble des outils techniques et les enjeux business de l’IA.

Plus

d'articles

20 février 2024

Grâce à un outil d’intelligence artificielle, qui analyse les données de microclimat en fonction des caractéristiques des espaces publics, la […]

13 février 2024

L’utilisation de l’IA en entreprise se développe à grande vitesse. Elle est incitée par le développement des volumes de données […]

8 février 2024

Découvrez l’interview de Chléo Hinn, étudiante en Bachelor 3 à l’IA School sur le campus de Paris en Intelligence Artificielle […]

26 janvier 2024

Les étudiants de l’IA School, l’école de l’intelligence artificielle, ont eu le privilège d’être invités à visiter les locaux de […]

22 janvier 2024

L’IA School a obtenu le prestigieux label « Best School Experience » décerné par Speak & Act, la plateforme de marque employeur […]

21 décembre 2023

Retrouvez l’interview de Gloria Amini, étudiante en Bachelor 2 en Intelligence Artificielle et Management au sein de l’IA School, sur […]