Tutoriel OpenAI Whisper : Créer une API OpenAI Whisper dans Docker

Découvrez Whisper : le système de reconnaissance vocale de pointe d'OpenAI

Whisper, développé par OpenAI, est un système de reconnaissance vocale innovant qui établit une nouvelle norme dans le domaine de la transcription audio. Tirant parti d'un ensemble de données extraordinaire dérivé de 680 000 heures d'audio multilingue et multitâche, Whisper excelle dans la compréhension des accents divers, la gestion du bruit de fond et le traitement du jargon technique. Cette capacité robuste non seulement le rend utile dans divers domaines, mais soutient également une transcription efficace dans plusieurs langues. Les utilisateurs peuvent tirer parti des fonctionnalités de Whisper pour créer des traductions fluides en anglais, en faisant un outil inestimable pour la communication mondiale.

Fonctionnalités clés de Whisper

Large support linguistique : Transcrit la parole dans diverses langues, garantissant l'inclusivité.
Haute résilience : Gère facilement des accents divers et des terminologies techniques.
Accessibilité open source : OpenAI offre un accès public aux modèles et au code de Whisper, favorisant le développement et l'innovation.

Comment commencer avec Docker

Si vous souhaitez exécuter le conteneur Whisper sur votre machine locale, la première étape consiste à installer Docker. Suivez les instructions d'installation fournies pour votre système d'exploitation.

Instructions d'installation étape par étape :

Créez un dossier pour votre projet, que vous nommerez whisper-api.
Créez un fichier requirements.txt dans ce dossier et incluez flask dedans.
Ensuite, établissez un Dockerfile dans le même dossier. Ce fichier contiendra les instructions nécessaires pour construire le conteneur.

Comprendre le Dockerfile

Le Dockerfile contiendra les lignes essentielles suivantes :

FROM python:3.10-slim
WORKDIR /python-docker
COPY requirements.txt .
RUN apt-get update && apt-get install -y git
RUN pip install -r requirements.txt
RUN pip install git+https://github.com/openai/whisper.git
RUN apt-get install -y ffmpeg
EXPOSE 5000
CMD ["flask", "run", "--host=0.0.0.0"]

Voici ce qui se passe dans le Dockerfile :

L'image de base python:3.10-slim est choisie pour un environnement léger.
Un répertoire de travail /python-docker est créé à des fins d'organisation.
Le fichier requirements.txt est copié dans le répertoire de travail.
Le gestionnaire de paquets est mis à jour et git est installé.
Les dépendances mentionnées dans le requirements.txt sont installées.
Le paquet Whisper est installé directement depuis GitHub.
ffmpeg est installé pour le traitement des fichiers audio.
Le port 5000 est exposé pour exécuter le serveur Flask.

Créer votre route

Créez un fichier app.py où vous importerez les packages nécessaires, en initialisant l'application Flask et Whisper. Voici les lignes fondamentales à inclure :

from flask import Flask, request
import whisper

app = Flask(__name__)
model = whisper.load_model("base")

Ensuite, vous devrez développer une route pour accepter une requête POST contenant un fichier audio. Améliorez votre fichier app.py avec les lignes suivantes :

@app.route('/whisper', methods=['POST'])
def transcrire():
    fichier = request.files['file']
    # Effectuer la transcription ici
    return {'transcript': result}

Comment exécuter le conteneur ?

Pour construire et exécuter votre conteneur Docker, naviguez vers votre dossier de projet dans le terminal et exécutez les commandes suivantes :

docker build -t whisper-api .
docker run -p 5000:5000 whisper-api

Tester l'API

Une fois votre API en cours d'exécution, vous pouvez la tester en envoyant une requête POST à http://localhost:5000/whisper avec un fichier audio inclus dans le corps de la requête, formaté en form-data. Utilisez la commande curl suivante pour tester :

curl -X POST http://localhost:5000/whisper -F 'file=@path_to_your_audio_file'

En cas de succès, vous devriez recevoir un objet JSON contenant la transcription du fichier audio.

Déployer l'API

Vous pouvez déployer l'API Whisper sur n'importe quelle plateforme supportant la technologie Docker. Notez que la configuration actuelle utilise le CPU pour le traitement audio. Pour utiliser le GPU pour des performances améliorées, des modifications du Dockerfile seront nécessaires. Cependant, ce guide de base couvre uniquement les essentiels.

Rejoignez la révolution de l'IA

Ce que vous avez appris peut être mis à l'épreuve lors des prochains hackathons d'IA ! N'hésitez pas à vous engager avec la communauté des développeurs et à innover en utilisant les outils fournis par OpenAI.

Pour le code complet et d'autres ressources, visitez GitHub pour explorer et améliorer vos compétences avec Whisper.