Einführung von Whisper: OpenAIs bahnbrechendes Spracherkennungssystem
Whisper steht als OpenAIs modernste Spracherkennungslösung hoch, die mit 680.000 Stunden webbasierter, mehrsprachiger und multitaskingfähiger Daten meisterhaft verfeinert wurde. Dieser robuste und vielseitige Datensatz fördert außergewöhnliche Widerstandsfähigkeit gegen Akzent, Umgebungsgeräusche und technische Terminologie. Darüber hinaus unterstützt er eine nahtlose Transkription in verschiedenen Sprachen und Übersetzungen ins Englische. OpenAI bringt großzügig Modelle und Codes auf den Markt und ebnet den Weg für einfallsreiche Entwickler, um wertvolle Anwendungen zu erstellen, die das bemerkenswerte Potenzial der Spracherkennung nutzen.
So verwenden Sie Whisper
Das Whisper-Modell ist auf GitHub verfügbar. Sie können es mit folgendem Befehl direkt im Jupyter-Notebook herunterladen:
!pip install git+https://github.com/openai/whisper.git
Whisper benötigt ffmpeg, das auf dem aktuellen Rechner installiert sein muss, um zu funktionieren. Möglicherweise haben Sie es bereits installiert, aber es ist wahrscheinlich, dass Ihr lokaler Rechner dieses Programm zuerst installieren muss.
OpenAI erwähnt mehrere Möglichkeiten, dieses Paket zu installieren, aber wir werden den Scoop-Paketmanager verwenden. Hier ist ein Tutorial, das erklärt, wie man es manuell macht.
Im Jupyter-Notebook können Sie es mit folgendem Befehl installieren:
scoop install ffmpeg
Nach der Installation ist ein Neustart erforderlich, wenn Sie Ihren lokalen Rechner verwenden. Jetzt können wir fortfahren. Als Nächstes importieren wir alle benötigten Bibliotheken:
import whisper
Verwendung von GPU für Whisper
Die Verwendung einer GPU ist der bevorzugte Weg, Whisper zu nutzen. Wenn Sie einen lokalen Rechner verwenden, können Sie überprüfen, ob eine GPU verfügbar ist. Die erste Zeile ergibt False, wenn keine CUDA-kompatible Nvidia-GPU verfügbar ist, und True, wenn es eine gibt. Die zweite Zeile Code setzt das Modell so, dass die GPU bevorzugt wird, wenn sie verfügbar ist.
import torch
is_cuda = torch.cuda.is_available()
model = "base" if is_cuda else "tiny"
Laden des Whisper-Modells
Jetzt können wir das Whisper-Modell laden. Das Modell wird mit folgendem Befehl geladen:
model = whisper.load_model(model)
Bitte beachten Sie, dass mehrere verschiedene Modelle verfügbar sind. Sie können alle hier finden. Jedes dieser Modelle hat Kompromisse zwischen Genauigkeit und Geschwindigkeit (benötigte Berechnungen). Für dieses Tutorial verwenden wir das 'base' Modell.
Transkribieren von Audiodateien
Als Nächstes müssen Sie die Audiodatei laden, die Sie transkribieren möchten:
audio_file = "path_to_your_audio_file.wav"
Sprache erkennen
Die detect_language
-Funktion erkennt die Sprache Ihrer Audiodatei:
language = model.detect_language(audio_file)
Transkribieren der ersten 30 Sekunden
Wir transkribieren die ersten 30 Sekunden des Audios mit den DecodingOptions und dem decode
-Befehl:
result = model.transcribe(audio_file, max_length=30)
print(result["text"])
Transkribieren der gesamten Audiodatei
Dies wird die gesamte Audiodatei nach Abschluss der Ausführung transkribiert ausgeben:
result_full = model.transcribe(audio_file)
print(result_full["text"])
Erstellen Sie Ihre eigene Whisper-Anwendung
Jetzt liegt es an Ihnen, Ihre eigene Whisper-Anwendung zu erstellen. Seien Sie kreativ und haben Sie Spaß! Ich bin mir sicher, dass Sie viele nützliche Anwendungen für Whisper finden werden. Der beste Weg ist es, ein Problem in Ihrer Umgebung zu identifizieren und eine Lösung dafür zu entwickeln. Vielleicht während unserer AI-Hackathons?
Fazit
Mit der Kraft von OpenAIs Whisper sind die Möglichkeiten für innovative Entwicklungen in der Spracherkennungstechnologie endlos. Ob zum Transkribieren von Besprechungen, Erstellen zugänglicher Inhalte oder Entwickeln mehrsprachiger Kommunikationswerkzeuge, Whisper ist bereit, zu revolutionieren, wie wir mit Audiodaten interagieren.
Hinterlasse einen Kommentar
Alle Kommentare werden vor der Veröffentlichung geprüft.
Diese Website ist durch hCaptcha geschützt und es gelten die allgemeinen Geschäftsbedingungen und Datenschutzbestimmungen von hCaptcha.