Présentation de Whisper : le système de reconnaissance vocale révolutionnaire d'OpenAI
Whisper se démarque comme la solution de reconnaissance vocale à la pointe d'OpenAI, habilement perfectionnée avec 680 000 heures de données multilingues et multitâches provenant du web. Cet ensemble de données robuste et polyvalent développe une résilience exceptionnelle face aux accents, au bruit ambiant et à la terminologie technique. De plus, il prend en charge une transcription fluide dans diverses langues et la traduction vers l'anglais. OpenAI dévoile gracieusement des modèles et des codes, ouvrant la voie à des développeurs ingénieux pour construire des applications précieuses qui exploitent le potentiel remarquable de la reconnaissance vocale.
Comment utiliser Whisper
Le modèle Whisper est disponible sur GitHub. Vous pouvez le télécharger avec la commande suivante directement dans le notebook Jupyter :
!git clone https://github.com/openai/whisper.git
Whisper a besoin de ffmpeg installé sur la machine actuelle pour fonctionner. Vous l'avez peut-être déjà installé, mais il est probable que votre machine locale doit d'abord avoir ce programme installé. OpenAI renvoie à plusieurs façons d'installer ce package, mais nous allons utiliser le gestionnaire de packages Scoop. Voici un tutoriel sur la façon de le faire manuellement.
Dans le notebook Jupyter, vous pouvez l'installer avec la commande suivante :
scoop install ffmpeg
Après l'installation, un redémarrage est requis si vous utilisez votre machine locale.
Importer des bibliothèques
Ensuite, nous importons toutes les bibliothèques nécessaires :
import whisper
import torch
Utiliser un GPU est le moyen préféré d'utiliser Whisper. Si vous utilisez une machine locale, vous pouvez vérifier si un GPU est disponible. La première ligne renvoie False si un GPU Nvidia compatible CUDA n'est pas disponible et True si c'est le cas.
torch.cuda.is_available()
La deuxième ligne de code définit le modèle pour privilégier le GPU chaque fois qu'il est disponible :
device = "cuda" if torch.cuda.is_available() else "cpu"
Charger le modèle Whisper
Nous pouvons maintenant charger le modèle Whisper. Le modèle est chargé avec la commande suivante :
model = whisper.load_model('base').to(device)
Veuillez garder à l'esprit qu'il existe plusieurs modèles différents disponibles. Vous pouvez les trouver tous sur la page GitHub de Whisper. Chaque modèle présente des compromis entre précision et rapidité (calcul nécessaire). Nous utiliserons le modèle 'base' pour ce tutoriel.
Transcription des fichiers audio
Ensuite, vous devez charger le fichier audio que vous souhaitez transcrire :
audio_file = "path/to/your/audiofile.mp3"
La fonction detect_language détecte la langue de votre fichier audio :
language, _ = model.detect_language(audio_file)
Décodage de l'audio
Nous transcrivons les 30 premières secondes de l'audio à l'aide des DecodingOptions et de la commande decode, puis nous affichons le résultat :
options = whisper.DecodingOptions(language=language)
result = model.decode(audio_file, options)
print(result.text)
Ensuite, nous pouvons transcrire l'ensemble du fichier audio :
full_result = model.transcribe(audio_file)
print(full_result['text'])
Cela affichera l'ensemble du fichier audio transcrit après l'exécution.
Vous pouvez trouver le code complet sous forme de notebook Jupyter ici.
Comment tirer parti de ces connaissances ?
Il vous appartient maintenant de créer votre propre application Whisper. Soyez créatif et amusez-vous ! Explorez diverses applications utiles pour Whisper. La meilleure façon est d'identifier un problème autour de vous et de concocter une solution. Peut-être lors de nos AI Hackathons ?
Laisser un commentaire
Tous les commentaires sont modérés avant d'être publiés.
Ce site est protégé par hCaptcha, et la Politique de confidentialité et les Conditions de service de hCaptcha s’appliquent.