OpenAI

OpenAI Whisper Tutorial: Freischaltung der Sprachverarbeitungskapazitäten

OpenAI Whisper tutorial with code examples for speech recognition.

Einführung von Whisper: OpenAIs bahnbrechendes Sprach­erkennungssystem

Whisper steht als OpenAIs modernste Sprach­erkennungslösung hoch, die mit 680.000 Stunden webbasierter, mehrsprachiger und multitaskingfähiger Daten meisterhaft verfeinert wurde. Dieser robuste und vielseitige Datensatz fördert außergewöhnliche Widerstandsfähigkeit gegen Akzent, Umgebungsgeräusche und technische Terminologie. Darüber hinaus unterstützt er eine nahtlose Transkription in verschiedenen Sprachen und Übersetzungen ins Englische. OpenAI bringt großzügig Modelle und Codes auf den Markt und ebnet den Weg für einfallsreiche Entwickler, um wertvolle Anwendungen zu erstellen, die das bemerkenswerte Potenzial der Sprach­erkennung nutzen.

So verwenden Sie Whisper

Das Whisper-Modell ist auf GitHub verfügbar. Sie können es mit folgendem Befehl direkt im Jupyter-Notebook herunterladen:

!pip install git+https://github.com/openai/whisper.git

Whisper benötigt ffmpeg, das auf dem aktuellen Rechner installiert sein muss, um zu funktionieren. Möglicherweise haben Sie es bereits installiert, aber es ist wahrscheinlich, dass Ihr lokaler Rechner dieses Programm zuerst installieren muss.

OpenAI erwähnt mehrere Möglichkeiten, dieses Paket zu installieren, aber wir werden den Scoop-Paketmanager verwenden. Hier ist ein Tutorial, das erklärt, wie man es manuell macht.

Im Jupyter-Notebook können Sie es mit folgendem Befehl installieren:

scoop install ffmpeg

Nach der Installation ist ein Neustart erforderlich, wenn Sie Ihren lokalen Rechner verwenden. Jetzt können wir fortfahren. Als Nächstes importieren wir alle benötigten Bibliotheken:

import whisper

Verwendung von GPU für Whisper

Die Verwendung einer GPU ist der bevorzugte Weg, Whisper zu nutzen. Wenn Sie einen lokalen Rechner verwenden, können Sie überprüfen, ob eine GPU verfügbar ist. Die erste Zeile ergibt False, wenn keine CUDA-kompatible Nvidia-GPU verfügbar ist, und True, wenn es eine gibt. Die zweite Zeile Code setzt das Modell so, dass die GPU bevorzugt wird, wenn sie verfügbar ist.

import torch
is_cuda = torch.cuda.is_available()
model = "base" if is_cuda else "tiny"

Laden des Whisper-Modells

Jetzt können wir das Whisper-Modell laden. Das Modell wird mit folgendem Befehl geladen:

model = whisper.load_model(model)

Bitte beachten Sie, dass mehrere verschiedene Modelle verfügbar sind. Sie können alle hier finden. Jedes dieser Modelle hat Kompromisse zwischen Genauigkeit und Geschwindigkeit (benötigte Berechnungen). Für dieses Tutorial verwenden wir das 'base' Modell.

Transkribieren von Audiodateien

Als Nächstes müssen Sie die Audiodatei laden, die Sie transkribieren möchten:

audio_file = "path_to_your_audio_file.wav"

Sprache erkennen

Die detect_language-Funktion erkennt die Sprache Ihrer Audiodatei:

language = model.detect_language(audio_file)

Transkribieren der ersten 30 Sekunden

Wir transkribieren die ersten 30 Sekunden des Audios mit den DecodingOptions und dem decode-Befehl:

result = model.transcribe(audio_file, max_length=30)
print(result["text"])

Transkribieren der gesamten Audiodatei

Dies wird die gesamte Audiodatei nach Abschluss der Ausführung transkribiert ausgeben:

result_full = model.transcribe(audio_file)
print(result_full["text"])

Erstellen Sie Ihre eigene Whisper-Anwendung

Jetzt liegt es an Ihnen, Ihre eigene Whisper-Anwendung zu erstellen. Seien Sie kreativ und haben Sie Spaß! Ich bin mir sicher, dass Sie viele nützliche Anwendungen für Whisper finden werden. Der beste Weg ist es, ein Problem in Ihrer Umgebung zu identifizieren und eine Lösung dafür zu entwickeln. Vielleicht während unserer AI-Hackathons?

Fazit

Mit der Kraft von OpenAIs Whisper sind die Möglichkeiten für innovative Entwicklungen in der Sprach­erkennungstechnologie endlos. Ob zum Transkribieren von Besprechungen, Erstellen zugänglicher Inhalte oder Entwickeln mehrsprachiger Kommunikationswerkzeuge, Whisper ist bereit, zu revolutionieren, wie wir mit Audiodaten interagieren.

Weiterlesen

Speaker identification process using OpenAI Whisper and Pyannote.
Illustration depicting OpenAI Whisper transcribing a YouTube video

Hinterlasse einen Kommentar

Alle Kommentare werden vor der Veröffentlichung geprüft.

Diese Website ist durch hCaptcha geschützt und es gelten die allgemeinen Geschäftsbedingungen und Datenschutzbestimmungen von hCaptcha.