OpenAI

Tutoriel OpenAI Whisper : Débloquer les capacités de reconnaissance vocale

OpenAI Whisper tutorial with code examples for speech recognition.

Présentation de Whisper : le système révolutionnaire de reconnaissance vocale d'OpenAI

Whisper se distingue comme la solution de reconnaissance vocale à la pointe de la technologie d'OpenAI, parfaitement affûtée avec 680 000 heures de données multilingues et multitâches issues du web. Ce jeu de données robuste et polyvalent développe une résilience exceptionnelle face aux accents, au bruit ambiant et à la terminologie technique. De plus, il prend en charge une transcription fluide dans diverses langues et une traduction en anglais. OpenAI dévoile gracieusement des modèles et des codes, ouvrant la voie à des développeurs ingénieux pour créer des applications précieuses qui exploitent le potentiel remarquable de la reconnaissance vocale.

Comment utiliser Whisper

Le modèle Whisper est disponible sur GitHub. Vous pouvez le télécharger avec la commande suivante directement dans le Jupyter Notebook :

!pip install git+https://github.com/openai/whisper.git

Whisper a besoin de ffmpeg installé sur la machine actuelle pour fonctionner. Vous l'avez peut-être déjà installé, mais il est probable que votre machine locale doive d'abord installer ce programme.

OpenAI fait référence à plusieurs façons d'installer ce package, mais nous allons utiliser le gestionnaire de paquets Scoop. Voici un tutoriel sur comment le faire manuellement.

Dans le Jupyter Notebook, vous pouvez l'installer avec la commande suivante :

scoop install ffmpeg

Après l'installation, un redémarrage est requis si vous utilisez votre machine locale. Maintenant nous pouvons continuer. Ensuite, nous importons toutes les bibliothèques nécessaires :

import whisper

Utilisation du GPU pour Whisper

Utiliser un GPU est le moyen préféré d'utiliser Whisper. Si vous utilisez une machine locale, vous pouvez vérifier si vous avez un GPU disponible. La première ligne retourne False si aucun GPU Nvidia compatible CUDA n'est disponible et True s'il est disponible. La seconde ligne de code définit le modèle pour préférer le GPU chaque fois qu'il est disponible.

import torch
is_cuda = torch.cuda.is_available()
model = "base" si is_cuda sinon "tiny"

Chargement du modèle Whisper

Maintenant nous pouvons charger le modèle Whisper. Le modèle est chargé avec la commande suivante :

model = whisper.load_model(model)

Veuillez garder à l'esprit qu'il existe plusieurs modèles différents disponibles. Vous pouvez les trouver tous ici. Chacun d'eux a des compromis entre précision et vitesse (calcul nécessaire). Nous utiliserons le modèle 'base' pour ce tutoriel.

Transcription des fichiers audio

Ensuite, vous devez charger votre fichier audio que vous souhaitez transcrire :

audio_file = "path_to_your_audio_file.wav"

Détection de la langue

La fonction detect_language détecte la langue de votre fichier audio :

language = model.detect_language(audio_file)

Transcription des 30 premières secondes

Nous transcrivons les 30 premières secondes de l'audio en utilisant les DecodingOptions et la commande decode :

result = model.transcribe(audio_file, max_length=30)
print(result["text"])

Transcription du fichier audio entier

Cela imprimera le fichier audio entier transcrit, après la fin de l'exécution :

result_full = model.transcribe(audio_file)
print(result_full["text"])

Créer votre propre application Whisper

Il ne tient qu'à vous de créer votre propre application Whisper. Faites preuve de créativité et amusez-vous ! Je suis sûr que vous trouverez de nombreuses applications utiles pour Whisper. La meilleure façon est d'identifier un problème qui vous entoure et de créer une solution. Peut-être pendant nos AI Hackathons ?

Conclusion

Avec la puissance de Whisper d'OpenAI, les possibilités de développements innovants dans la technologie de reconnaissance vocale sont infinies. Que ce soit pour transcrire des réunions, créer du contenu accessible ou développer des outils de communication multilingue, Whisper est prêt à révolutionner notre interaction avec les données audio.

En lire plus

Speaker identification process using OpenAI Whisper and Pyannote.
Illustration depicting OpenAI Whisper transcribing a YouTube video

Laisser un commentaire

Tous les commentaires sont modérés avant d'être publiés.

Ce site est protégé par hCaptcha, et la Politique de confidentialité et les Conditions de service de hCaptcha s’appliquent.