API

OpenAI Whisper Tutorial: Erstellen Sie die OpenAI Whisper API in Docker

A tutorial on creating OpenAI Whisper API in a Docker container.

Entdecken Sie Whisper: OpenAIs führendes Spracherkennungssystem

Whisper, entwickelt von OpenAI, ist ein innovatives Spracherkennungssystem, das einen neuen Standard im Bereich der Audio-Transkription setzt. Durch die Nutzung eines außergewöhnlichen Datensatzes aus 680.000 Stunden mehrsprachiger und multikategorischer Audiodaten glänzt Whisper im Verstehen verschiedener Akzente, im Umgang mit Hintergrundgeräuschen und in der Verarbeitung technischer Fachterminologie. Diese robuste Fähigkeit macht es nicht nur in verschiedenen Bereichen nützlich, sondern unterstützt auch eine effektive Transkription in mehreren Sprachen. Benutzer können die Funktionalität von Whisper nutzen, um nahtlose Übersetzungen ins Englische zu erstellen, was es zu einem unverzichtbaren Werkzeug für die globale Kommunikation macht.

Hauptmerkmale von Whisper

  • Umfangreiche Sprachunterstützung: Transkribiert Sprache aus verschiedenen Sprachen und sorgt für Inklusivität.
  • Hohe Resilienz: Bewältigt mühelos verschiedene Akzente und technische Terminologien.
  • Open-Source-Zugänglichkeit: OpenAI bietet öffentlichen Zugang zu Whisper-Modellen und -Code, was Entwicklung und Innovation fördert.

So starten Sie mit Docker

Wenn Sie eager sind, den Whisper-Container auf Ihrem lokalen Rechner auszuführen, ist der erste Schritt die Installation von Docker. Folgen Sie den bereitgestellten Installationsanweisungen für Ihr Betriebssystem.

Schritt-für-Schritt-Setup-Anweisungen:

  1. Erstellen Sie einen Ordner für Ihr Projekt und benennen Sie ihn whisper-api.
  2. Erstellen Sie eine requirements.txt-Datei in diesem Ordner und fügen Sie flask hinzu.
  3. Erstellen Sie dann eine Dockerfile im selben Ordner. Diese Datei enthält die erforderlichen Anweisungen zum Erstellen des Containers.

Verstehen der Dockerfile

Die Dockerfile enthält die folgenden wesentlichen Zeilen:

FROM python:3.10-slim
WORKDIR /python-docker
COPY requirements.txt .
RUN apt-get update && apt-get install -y git
RUN pip install -r requirements.txt
RUN pip install git+https://github.com/openai/whisper.git
RUN apt-get install -y ffmpeg
EXPOSE 5000
CMD ["flask", "run", "--host=0.0.0.0"]

Hier ist, was in der Dockerfile passiert:

  • Das Basis-Image python:3.10-slim wird für eine leichtgewichtige Umgebung ausgewählt.
  • Ein Arbeitsverzeichnis /python-docker wird aus organisatorischen Gründen erstellt.
  • Die requirements.txt-Datei wird in das Arbeitsverzeichnis kopiert.
  • Der Paketmanager wird aktualisiert und git wird installiert.
  • Abhängigkeiten, die in der requirements.txt aufgeführt sind, werden installiert.
  • Das Whisper-Paket wird direkt von GitHub installiert.
  • ffmpeg wird zur Verarbeitung von Audiodateien installiert.
  • Der Port 5000 wird geöffnet, um den Flask-Server zu betreiben.

Erstellen Sie Ihre Route

Erstellen Sie eine app.py-Datei, in der Sie die erforderlichen Pakete importieren und die Flask-App und Whisper initialisieren. Hier sind die grundlegenden Zeilen, die Sie einschließen sollten:

from flask import Flask, request
import whisper

app = Flask(__name__)
model = whisper.load_model("base")

Erstellen Sie dann eine Route, um eine POST-Anfrage zu akzeptieren, die eine Audiodatei enthält. Verbessern Sie Ihre app.py-Datei mit den folgenden Zeilen:

@app.route('/whisper', methods=['POST'])
def transcribe():
    file = request.files['file']
    # Führen Sie hier die Transkription durch
    return {'transcript': result}

So führen Sie den Container aus?

Um Ihren Docker-Container zu erstellen und auszuführen, navigieren Sie im Terminal zu Ihrem Projektordner und führen Sie die folgenden Befehle aus:

docker build -t whisper-api .
docker run -p 5000:5000 whisper-api

Testen der API

Sobald Ihre API läuft, können Sie sie testen, indem Sie eine POST-Anfrage an http://localhost:5000/whisper mit einer Audiodatei im Anfragekörper im Format form-data senden. Verwenden Sie den folgenden curl-Befehl zum Testen:

curl -X POST http://localhost:5000/whisper -F 'file=@path_to_your_audio_file'

Bei Erfolg sollten Sie ein JSON-Objekt erhalten, das das Transkript der Audiodatei enthält.

Bereitstellung der API

Sie können die Whisper API auf jeder Plattform bereitstellen, die Docker-Technologie unterstützt. Beachten Sie, dass die aktuelle Konfiguration die CPU für die Audioverarbeitung verwendet. Um die GPU für verbesserte Leistung zu nutzen, sind Änderungen an der Dockerfile erforderlich. Dieser grundlegende Leitfaden behandelt jedoch nur das Wesentliche.

Treten Sie der KI-Revolution bei

Was Sie gelernt haben, kann in kommenden KI-Hackathons getestet werden! Zögern Sie nicht, mit der Entwicklergemeinschaft in Kontakt zu treten und mit den von OpenAI bereitgestellten Werkzeugen zu innovieren.

Für den vollständigen Code und weitere Ressourcen besuchen Sie GitHub, um zu erkunden und Ihre Fähigkeiten mit Whisper zu verbessern.

Weiterlesen

Illustration depicting OpenAI Whisper transcribing a YouTube video
A tutorial on generating images from speech using AI technologies.

Hinterlasse einen Kommentar

Alle Kommentare werden vor der Veröffentlichung geprüft.

Diese Website ist durch hCaptcha geschützt und es gelten die allgemeinen Geschäftsbedingungen und Datenschutzbestimmungen von hCaptcha.