Das Entschlüsseln von Whisper: OpenAI's führendes Spracherkennungssystem
OpenAI Whisper tritt als OpenAI's modernste Spracherkennungslösung hervor, die sorgfältig mit 680.000 Stunden multilingualer und multitask-basierter Daten aus dem Web trainiert wurde. Dieser umfangreiche Datensatz stärkt die Widerstandsfähigkeit gegen Akzente, Umgebungsgeräusche und Fachjargon. Darüber hinaus unterstützt es die Transkription in zahlreichen Sprachen und deren Übersetzung ins Englische. Im Gegensatz zu DALLE-2 und GPT-3 ist Whisper ein kostenloses und quelloffenes Modell. OpenAI bietet Zugang zu seinen Modellen und Codes, um die Erstellung wertvoller Spracherkennungsanwendungen zu fördern.
Meisterhafte Transkription von YouTube-Videos mit Whisper
In diesem Whisper-Tutorial werden Sie lernen, wie Sie Whisper verwenden, um ein YouTube-Video zu transkribieren. Wir werden das Python-Paket Pytube verwenden, um das Audio herunterzuladen und in eine MP4-Datei zu konvertieren. Besuchen Sie das Pytube-Repository für weitere Informationen.
Schritt 1: Installieren Sie die Pytube-Bibliothek
Installieren Sie zunächst Pytube, indem Sie den folgenden Befehl in Ihrem Terminal ausführen:
pip install pytube
Schritt 2: YouTube-Video herunterladen
Für dieses Tutorial werde ich das Video "Python in 100 Sekunden" verwenden. Als nächstes müssen wir Pytube importieren, den Link zum YouTube-Video angeben und das Audio in MP4 konvertieren:
from pytube import YouTube
video_url = 'VIDEO_URL_HERE'
videо = YouTube(video_url)
audio_stream = video.streams.filter(only_audio=True).first()
audio_file = audio_stream.download(output_path='YOUR_DIRECTORY_HERE')
Das Ergebnis ist eine Datei, die wie der Video Titel in Ihrem aktuellen Verzeichnis benannt ist. In unserem Fall heißt die Datei Python in 100 Seconds.mp4.
Schritt 3: Audio in Text transkribieren
Jetzt besteht der nächste Schritt darin, Audio in Text umzuwandeln. Wir können dies in drei Zeilen Code mit Whisper machen. Zuerst installieren und importieren wir Whisper:
!pip install git+https://github.com/openai/whisper.git
import whisper
Dann laden wir das Modell und zuletzt transkribieren wir die Audiodatei:
model = whisper.load_model('base')
result = model.transcribe(audio_file)
print(result['text'])
Verständnis der Whisper-Modelle
Wir werden das "Basismodell" für dieses Tutorial verwenden. Weitere Informationen zu den Modellen finden Sie hier. Jedes dieser Modelle hat Kompromisse zwischen Genauigkeit und Geschwindigkeit (benötigte Rechenleistung).
Mehr aus Ihrer KI-Reise herausholen
Den vollständigen Code finden Sie als Jupyter-Notebook.
Ihre KI-Reise muss hier nicht enden – besuchen Sie unsere anderen KI-Tutorials, um mehr zu erfahren! Und warum testen Sie nicht Ihre neuen Fähigkeiten während unserer kommenden KI-Hackathons? Sie werden eine KI-App erstellen, andere gleichgesinnte Menschen aus der ganzen Welt treffen und Ihre Fähigkeiten in nur wenigen Tagen verbessern. Eine Überlegung wert!
Hinterlasse einen Kommentar
Alle Kommentare werden vor der Veröffentlichung geprüft.
Diese Website ist durch hCaptcha geschützt und es gelten die allgemeinen Geschäftsbedingungen und Datenschutzbestimmungen von hCaptcha.