Déchiffrer Whisper : Le système de reconnaissance vocale de premier plan d'OpenAI
OpenAI Whisper émerge comme la solution de reconnaissance vocale de pointe d'OpenAI, minutieusement entraînée avec 680 000 heures de données multilingues et multitâches provenant du web. Cet ensemble de données vaste renforce la résistance accrue aux accents, au bruit ambiant et au jargon technique. De plus, il prend en charge la transcription dans de nombreuses langues et leur traduction en anglais. Contrairement à DALLE-2 et GPT-3, Whisper est un modèle gratuit et open-source. OpenAI offre l'accès à ses modèles et à son code, favorisant la création d'applications de reconnaissance vocale précieuses.
Maîtriser la transcription de vidéos YouTube avec Whisper
Tout au long de ce didacticiel Whisper, vous acquerrez une expertise dans l'utilisation de Whisper pour transcrire une vidéo YouTube. Nous allons utiliser le package Python Pytube pour télécharger et convertir l'audio en un fichier MP4. Visitez le dépôt de Pytube pour plus d'informations.
Étape 1 : Installer la bibliothèque Pytube
Tout d'abord, installez Pytube en exécutant la commande suivante dans votre terminal :
pip install pytube
Étape 2 : Télécharger la vidéo YouTube
Pour ce didacticiel, j'utiliserai la vidéo "Python en 100 secondes". Ensuite, nous devons importer Pytube, fournir le lien vers la vidéo YouTube, et convertir l'audio en MP4 :
from pytube import YouTube
video_url = 'VIDEO_URL_HERE'
video = YouTube(video_url)
audio_stream = video.streams.filter(only_audio=True).first()
audio_file = audio_stream.download(output_path='YOUR_DIRECTORY_HERE')
La sortie est un fichier nommé comme le titre de la vidéo dans votre répertoire courant. Dans notre cas, le fichier est nommé Python en 100 secondes.mp4.
Étape 3 : Transcription de l'audio en texte
Maintenant, la prochaine étape consiste à convertir l'audio en texte. Nous pouvons le faire en trois lignes de code en utilisant Whisper. Tout d'abord, nous installons et importons Whisper :
!pip install git+https://github.com/openai/whisper.git
import whisper
Ensuite, nous chargeons le modèle et enfin nous transcrivons le fichier audio :
model = whisper.load_model('base')
result = model.transcribe(audio_file)
print(result['text'])
Comprendre les modèles Whisper
Nous utiliserons le modèle "de base" pour ce didacticiel. Vous pouvez trouver plus d'informations sur les modèles ici. Chacun d'eux présente des compromis entre précision et rapidité (calcul nécessaire).
Tirez le meilleur parti de votre parcours IA
Vous pouvez trouver le code complet comme Jupyter Notebook.
Votre parcours IA ne doit pas s'arrêter ici - visitez nos autres didacticiels sur l'IA pour en savoir plus ! Et pourquoi ne pas tester vos nouvelles compétences lors de nos prochains hackathons IA ? Vous construirez une application IA, rencontrerez d'autres personnes partageant les mêmes idées du monde entier, et améliorerez vos compétences en quelques jours seulement. Une idée à considérer !
Laisser un commentaire
Tous les commentaires sont modérés avant d'être publiés.
Ce site est protégé par hCaptcha, et la Politique de confidentialité et les Conditions de service de hCaptcha s’appliquent.