Tutoriel OpenAI Whisper: Créez une application d'identification de loc

Découverte d'OpenAI Whisper : Une avancée dans la reconnaissance vocale

Whisper, un système de reconnaissance vocale révolutionnaire développé par OpenAI, a transformé notre manière de traiter les données audio. Avec une impressionnante formation comprenant 680 000 heures de données supervisées multilingues et multitâches collectées sur le web, Whisper a montré une résistance aux accents, au bruit de fond et au langage spécialisé. Ce système non seulement transcrit l'audio dans de nombreuses langues, mais il a également la capacité de traduire le contenu parlé en anglais.

Comprendre les limitations de Whisper

Bien que Whisper excelle dans l'exactitude de la transcription, il fait face à des défis en matière de identification des locuteurs lors des conversations. La diarisation, processus de distinction et d'identification des locuteurs dans un dialogue, joue un rôle crucial dans l'analyse des conversations, et c'est ici que Whisper a besoin d'assistance.

Utilisation de Pyannote Audio pour la diarisation

Pour surmonter les limitations de Whisper en matière de reconnaissance des locuteurs, nous pouvons utiliser pyannote.audio, un ensemble d'outils open-source conçu pour la diarisation des locuteurs. Basé sur le cadre d'apprentissage automatique PyTorch, pyannote.audio fournit un ensemble complet d'outils de blocs neuronaux end-to-end entraînables, ainsi que des modèles pré-entraînés pour des tâches telles que la détection d'activité vocale, la segmentation des locuteurs et la détection de discours superposés. Cet ensemble d'outils atteint des performances à la pointe de la technologie dans la plupart de ces domaines.

Préparation de votre fichier audio

Téléchargez le fichier audio à l'aide de yt-dlp.
Extraire les 20 premières minutes d'audio à l'aide de l'outil ffmpeg.
Utilisez le paquet pydub pour la manipulation audio et créez un nouveau fichier nommé audio.wav.

Étapes pour réaliser la diarisation avec Pyannote

Suivez ces étapes pour installer pyannote.audio et générer les diarisation :

Installez pyannote.audio et ses dépendances.
Exécutez le processus de diarisation sur le fichier audio pour identifier les segments de locuteurs.
Affichez le résultat pour voir les résultats de la diarisation.

Analyse de l'échantillon de sortie

La sortie montrera les heures de début et de fin de chaque segment de locuteur en millisecondes, nous aidant à visualiser le flux de dialogue entre les locuteurs. Ensuite, nous peaufinerons les données pour une meilleure précision.

Connection des segments audio avec la diarisation

À ce stade, nous alignons les segments audio selon les résultats de la diarisation en utilisant des séparateurs comme délimiteurs. Cela préparera le terrain pour le processus de transcription suivant.

Transcription de l'audio avec Whisper

Après la diarisation, nous utiliserons Whisper pour transcrire chaque segment du fichier audio :

Installez OpenAI Whisper.
Exécutez Whisper sur les segments audio préparés ; il fournira les résultats de transcription.
Ajoutez la taille du modèle pour répondre à vos besoins.
Installez la bibliothèque webvtt-py pour travailler avec les fichiers .vtt.

Correspondance des transcriptions avec les diarisation

Enfin, nous corrélons chaque ligne de transcription avec les segments de diarisation correspondants et générons un fichier HTML visuellement attrayant pour afficher les résultats. Une attention particulière sera accordée aux portions audio qui ne tombent dans aucun segment de diarisation, assurant l'intégralité de notre sortie finale.

Applications de vos nouvelles compétences

Après avoir maîtrisé ces techniques, vous pouvez :

Participer à des hackathons IA pour innover et créer des applications utilisant Whisper.
Rejoindre des initiatives en solo ou en équipe comme le programme Slingshot de New Native pour peaufiner votre projet.
Lancer votre application et contribuer à des solutions aux problèmes du monde réel avec l'IA.
Ou, vous pouvez choisir de mettre votre projet de côté, permettant à d'autres de conduire le changement technologique. Cependant, nous vous encourageons à relever le défi !

Rejoignez la communauté IA

Lors des hackathons IA de lablab.ai, plus de 54 000 individus de divers domaines ont conçu plus de 900 prototypes. Ces chiffres continuent d'augmenter chaque semaine. Ne manquez pas l'occasion de faire partie de la plus grande communauté de bâtisseurs IA et de laisser une empreinte significative !

Tutoriel OpenAI Whisper: Créez une application d'identification de locuteur