Tutoriel OpenAI Whisper : Utilisez le système de reconnaissance vocale

Présentation de Whisper : le système de reconnaissance vocale révolutionnaire d'OpenAI

Whisper se démarque comme la solution de reconnaissance vocale à la pointe d'OpenAI, habilement perfectionnée avec 680 000 heures de données multilingues et multitâches provenant du web. Cet ensemble de données robuste et polyvalent développe une résilience exceptionnelle face aux accents, au bruit ambiant et à la terminologie technique. De plus, il prend en charge une transcription fluide dans diverses langues et la traduction vers l'anglais. OpenAI dévoile gracieusement des modèles et des codes, ouvrant la voie à des développeurs ingénieux pour construire des applications précieuses qui exploitent le potentiel remarquable de la reconnaissance vocale.

Comment utiliser Whisper

Le modèle Whisper est disponible sur GitHub. Vous pouvez le télécharger avec la commande suivante directement dans le notebook Jupyter :

!git clone https://github.com/openai/whisper.git

Whisper a besoin de ffmpeg installé sur la machine actuelle pour fonctionner. Vous l'avez peut-être déjà installé, mais il est probable que votre machine locale doit d'abord avoir ce programme installé. OpenAI renvoie à plusieurs façons d'installer ce package, mais nous allons utiliser le gestionnaire de packages Scoop. Voici un tutoriel sur la façon de le faire manuellement.

Dans le notebook Jupyter, vous pouvez l'installer avec la commande suivante :

scoop install ffmpeg

Après l'installation, un redémarrage est requis si vous utilisez votre machine locale.

Importer des bibliothèques

Ensuite, nous importons toutes les bibliothèques nécessaires :

import whisper
import torch

Utiliser un GPU est le moyen préféré d'utiliser Whisper. Si vous utilisez une machine locale, vous pouvez vérifier si un GPU est disponible. La première ligne renvoie False si un GPU Nvidia compatible CUDA n'est pas disponible et True si c'est le cas.

torch.cuda.is_available()

La deuxième ligne de code définit le modèle pour privilégier le GPU chaque fois qu'il est disponible :

device = "cuda" if torch.cuda.is_available() else "cpu"

Charger le modèle Whisper

Nous pouvons maintenant charger le modèle Whisper. Le modèle est chargé avec la commande suivante :

model = whisper.load_model('base').to(device)

Veuillez garder à l'esprit qu'il existe plusieurs modèles différents disponibles. Vous pouvez les trouver tous sur la page GitHub de Whisper. Chaque modèle présente des compromis entre précision et rapidité (calcul nécessaire). Nous utiliserons le modèle 'base' pour ce tutoriel.

Transcription des fichiers audio

Ensuite, vous devez charger le fichier audio que vous souhaitez transcrire :

audio_file = "path/to/your/audiofile.mp3"

La fonction detect_language détecte la langue de votre fichier audio :

language, _ = model.detect_language(audio_file)

Décodage de l'audio

Nous transcrivons les 30 premières secondes de l'audio à l'aide des DecodingOptions et de la commande decode, puis nous affichons le résultat :

options = whisper.DecodingOptions(language=language)
result = model.decode(audio_file, options)
print(result.text)

Ensuite, nous pouvons transcrire l'ensemble du fichier audio :

full_result = model.transcribe(audio_file)
print(full_result['text'])

Cela affichera l'ensemble du fichier audio transcrit après l'exécution.

Vous pouvez trouver le code complet sous forme de notebook Jupyter ici.

Comment tirer parti de ces connaissances ?

Il vous appartient maintenant de créer votre propre application Whisper. Soyez créatif et amusez-vous ! Explorez diverses applications utiles pour Whisper. La meilleure façon est d'identifier un problème autour de vous et de concocter une solution. Peut-être lors de nos AI Hackathons ?

Tutoriel OpenAI Whisper : Utilisez le système de reconnaissance vocale révolutionnaire