Tutoriel Chirp : Maîtriser l'IA de reconnaissance vocale de Google

Introduction

Chirp est le modèle de parole de 2 milliards de paramètres de Google Cloud, développé grâce à un entraînement auto-supervisé sur des millions d'heures d'audio associé à 28 milliards de phrases de texte dans plus de 100 langues. Ce modèle avancé affiche une impressionnante précision de 98 % en reconnaissance vocale en anglais et montre une amélioration remarquable de 300 % en reconnaissance de diverses langues, en particulier celles comptant moins de 10 millions de locuteurs.

Que va-t-on apprendre ?

Dans ce tutoriel, nous allons nous engager dans un parcours pour configurer la console Google Cloud et exploiter les capacités extraordinaires du modèle AI de texte à parole Chirp. Ce guide complet propose une approche détaillée étape par étape pour garantir un processus d'installation fluide et un démarrage rapide avec l'utilisation du modèle de texte à parole de Chirp. Alors, installez-vous confortablement, détendez-vous et savourez peut-être une tasse de café en nous plongeant dedans !

Résultats d'apprentissage

Comment naviguer efficacement et utiliser la console Google Cloud.
Comment mettre en œuvre le modèle AI de texte à parole Chirp de Google sur la console Google Cloud.

Aperçu des étapes

Le tutoriel couvrira les étapes clés suivantes :

Créer un compte Google Cloud.
Créer un nouveau projet sur la console Google Cloud.
Activer l'API de parole.
Créer un reconnaisseur STT (Speech-to-Text) en utilisant le modèle Chirp.
Établir un nouvel espace de travail pour le projet.
Effectuer une transcription sur un fichier audio.
Visualiser et télécharger les résultats de la transcription.

Prérequis

Aucun prérequis nécessaire ! Il suffit de prendre une tasse de café et d'avoir un ordinateur portable prêt.

Pour commencer

Étape 1 : Créer un compte Google Cloud

Commencez par créer un compte Google Cloud. Si vous en avez déjà un, n'hésitez pas à passer cette étape. Pour ceux qui doivent créer un nouveau compte, vous pouvez vous inscrire ici.

Étape 2 : Créer un nouveau projet

Dans le coin supérieur gauche, cliquez sur le menu déroulant du projet et sélectionnez Nouveau projet. Nommez votre projet et cliquez sur Créer.

Étape 3 : Activer l'API

Naviguez vers Speech dans la console Google Cloud et cliquez sur ACTIVER L'API.

Étape 4 : Créer un reconnaisseur STT

Dans la barre latérale de gauche, cliquez sur Reconnaisseurs > CRÉER DES RECONNAISSEURS. Nommez votre reconnaisseur chirp-recognizer, sélectionnez Chirp comme modèle, et choisissez la langue en-US. Laissez les autres paramètres par défaut et cliquez sur Enregistrer.

Étape 5 : Créer un nouvel espace de travail

Allez dans le menu déroulant Espace de travail et sélectionnez Nouveau Workspace. Une barre latérale apparaîtra sur le côté droit de votre écran.

Sélectionnez Parcourir > Créer un nouveau bucket. Nommez votre bucket chirp-bucket et cliquez sur Continuer. Vous pouvez laisser les autres paramètres du bucket par défaut.

Cliquez sur Créer, et vous devriez voir un nouveau bucket créé avec succès.

Enfin, cliquez sur Sélectionner > Continuer > Créer pour terminer la configuration de l'espace de travail pour l'interface utilisateur de texte à parole.

Étape 6 : Créer une nouvelle transcription

Pour effectuer une véritable transcription, naviguez vers Transcription > Nouvelle transcription. Sélectionnez votre fichier audio soit par Téléchargement local ou Stockage Cloud. Pour ce tutoriel, nous allons utiliser l'option Téléchargement local.

Une fois que vous avez sélectionné votre fichier audio, cliquez sur Continuer.

Changez la version API par défaut de V1 à V2. Spécifiez la langue parlée comme Anglais (États-Unis) - en-US, choisissez Chirp comme le modèle de transcription, et sélectionnez votre chirp-recognizer nouvellement créé comme reconnaisseur.

Cliquez sur Soumettre et attendez quelques instants pendant que la transcription est traitée.

Étape 7 : Voir les résultats de la transcription et télécharger

Pour voir les résultats de la transcription, cliquez simplement sur le nom de votre transcription dans le tableau de bord. Vous avez également la possibilité de télécharger les résultats dans quatre formats différents : JSON, TXT, SRT et CSV.

Par exemple, pour télécharger la transcription au format TXT, cliquez sur Télécharger > TXT > Télécharger.

Conclusion

Ce guide détaillé vous a équipé des connaissances nécessaires pour mettre en œuvre le modèle AI de texte à parole de Google Chirp sur la console Google Cloud. En suivant les instructions étape par étape, vous pouvez exploiter les capacités de Chirp pour une reconnaissance vocale précise.

Ce tutoriel vise à fournir une feuille de route conviviale, garantissant une expérience d'installation fluide tant pour les nouveaux utilisateurs que pour les utilisateurs expérimentés de Google Cloud. À la fin, vous devriez vous sentir confiant dans votre capacité à appliquer efficacement le modèle de texte à parole de Google Chirp.

Adoptez le potentiel de Chirp dans vos projets et applications, et faites des expériences avec diverses langues et fichiers audio. N'hésitez pas à mettre à l'épreuve votre expertise nouvellement acquise lors de notre prochain Hackathon AI !

À la vôtre dans votre parcours AI ! Si vous avez des questions ou des commentaires, n'hésitez pas à nous contacter via LinkedIn ou Twitter. Nous avons hâte d'avoir de vos nouvelles !