AI Development

OpenAI Whisper Tutorial: Nutzen Sie das bahnbrechende Spracherkennungssystem

OpenAI Whisper tutorial on speech recognition system implementation.

Einführung von Whisper: OpenAIs bahnbrechendes Spracherkennungssystem

Whisper steht als OpenAIs hochmoderne Spracherkennungslösung hoch, die mit 680.000 Stunden multilinguale und multitask-Daten aus dem Web fachkundig geschliffen wurde. Dieser robuste und vielseitige Datensatz fördert eine außergewöhnliche Widerstandsfähigkeit gegenüber Akzenten, Umgebungsgeräuschen und technischer Terminologie. Darüber hinaus unterstützt er nahtlose Transkriptionen in verschiedenen Sprachen und Übersetzungen ins Englische. OpenAI präsentiert großzügig Modelle und Codes, die es kreativen Entwicklern ermöglichen, wertvolle Anwendungen zu erstellen, die das bemerkenswerte Potenzial der Spracherkennung nutzen.

So verwenden Sie Whisper

Das Whisper-Modell ist auf GitHub verfügbar. Sie können es mit dem folgenden Befehl direkt im Jupyter-Notebook herunterladen:

!git clone https://github.com/openai/whisper.git

Whisper benötigt ffmpeg, das auf dem aktuellen Computer installiert sein muss, um zu funktionieren. Möglicherweise haben Sie es bereits installiert, aber es ist wahrscheinlich, dass Ihr lokaler Computer dieses Programm zuerst installieren muss. OpenAI erwähnt mehrere Möglichkeiten, dieses Paket zu installieren, aber wir werden den Scoop-Paketmanager verwenden. Hier ist ein Tutorial, wie Sie es manuell tun können.

Im Jupyter-Notebook können Sie es mit dem folgenden Befehl installieren:

scoop install ffmpeg

Nach der Installation ist ein Neustart erforderlich, wenn Sie Ihren lokalen Computer verwenden.

Importieren von Bibliotheken

Als Nächstes importieren wir alle erforderlichen Bibliotheken:

import whisper
import torch

Die Verwendung einer GPU ist der bevorzugte Weg zur Nutzung von Whisper. Wenn Sie einen lokalen Computer verwenden, können Sie überprüfen, ob Sie eine verfügbare GPU haben. Die erste Zeile ergibt False, wenn keine CUDA-kompatible Nvidia-GPU verfügbar ist, und True, wenn dies der Fall ist.

torch.cuda.is_available()

Die zweite Zeile des Codes legt fest, dass das Modell die GPU bevorzugen soll, wann immer sie verfügbar ist:

device = "cuda" if torch.cuda.is_available() else "cpu"

Das Whisper-Modell laden

Jetzt können wir das Whisper-Modell laden. Das Modell wird mit dem folgenden Befehl geladen:

model = whisper.load_model('base').to(device)

Bitte beachten Sie, dass mehrere verschiedene Modelle verfügbar sind. Sie können alle auf der Whisper GitHub-Seite finden. Jedes Modell hat Abwägungen zwischen Genauigkeit und Geschwindigkeit (benötigter Rechenaufwand). Für dieses Tutorial werden wir das 'base'-Modell verwenden.

Audio-Dateien transkribieren

Als Nächstes müssen Sie Ihre Audiodatei laden, die Sie transkribieren möchten:

audio_file = "path/to/your/audiofile.mp3"

Die Funktion detect_language erkennt die Sprache Ihrer Audiodatei:

language, _ = model.detect_language(audio_file)

Audio decodieren

Wir transkribieren die ersten 30 Sekunden des Audios mit den DecodingOptions und dem decode-Befehl und drucken dann das Ergebnis aus:

options = whisper.DecodingOptions(language=language)
result = model.decode(audio_file, options)
print(result.text)

Als Nächstes können wir die gesamte Audiodatei transkribieren:

full_result = model.transcribe(audio_file)
print(full_result['text'])

Dies wird den ganzen Text der Audiodatei ausdrucken, nachdem die Ausführung abgeschlossen ist.

Den vollständigen Code finden Sie als Jupyter-Notebook hier.

Wie können Sie dieses Wissen nutzen?

Jetzt liegt es an Ihnen, Ihre eigene Whisper-Anwendung zu erstellen. Seien Sie kreativ und haben Sie Spaß! Entdecken Sie verschiedene nützliche Anwendungen für Whisper. Der beste Weg ist, ein Problem in Ihrer Umgebung zu identifizieren und eine Lösung dafür zu entwickeln. Vielleicht während unserer AI Hackathons?

Weiterlesen

An overview of AI-based RAG application development using TruLens and Google Cloud.
ChatGPT tutorial for enhancing coding skills with AI support.

Hinterlasse einen Kommentar

Alle Kommentare werden vor der Veröffentlichung geprüft.

Diese Website ist durch hCaptcha geschützt und es gelten die allgemeinen Geschäftsbedingungen und Datenschutzbestimmungen von hCaptcha.