Tutorial de OpenAI Whisper: Crea una API de OpenAI Whisper en Docker

Descubre Whisper: el sistema de reconocimiento de voz premier de OpenAI

Whisper, desarrollado por OpenAI, es un innovador sistema de reconocimiento de voz que establece un nuevo estándar en el campo de la transcripción de audio. Aprovechando un extraordinario conjunto de datos derivado de 680,000 horas de audio multilingüe y multitarea, Whisper sobresale en la comprensión de diversos acentos, la gestión del ruido de fondo y el procesamiento de jerga técnica. Esta robusta capacidad no solo lo hace útil en varios dominios, sino que también apoya la transcripción efectiva en varios idiomas. Los usuarios pueden aprovechar la funcionalidad de Whisper para crear traducciones fluidas al inglés, lo que lo convierte en una herramienta invaluable para la comunicación global.

Características clave de Whisper

Amplio soporte de idiomas: Transcribe voz de varios idiomas, garantizando inclusividad.
Alta resistencia: Maneja diversos acentos y terminologías técnicas sin esfuerzo.
Accesibilidad de código abierto: OpenAI proporciona acceso público a los modelos y al código de Whisper, fomentando el desarrollo y la innovación.

Cómo comenzar con Docker

Si deseas ejecutar el contenedor de Whisper en tu máquina local, el primer paso es instalar Docker. Sigue las instrucciones de instalación proporcionadas para tu sistema operativo.

Instrucciones de configuración paso a paso:

Crea una carpeta para tu proyecto, nombrándola whisper-api.
Crea un archivo requirements.txt en esta carpeta e incluye flask en él.
A continuación, establece un Dockerfile en la misma carpeta. Este archivo contendrá las instrucciones necesarias para construir el contenedor.

Entendiendo el Dockerfile

El Dockerfile contendrá las siguientes líneas esenciales:

FROM python:3.10-slim
WORKDIR /python-docker
COPY requirements.txt .
RUN apt-get update && apt-get install -y git
RUN pip install -r requirements.txt
RUN pip install git+https://github.com/openai/whisper.git
RUN apt-get install -y ffmpeg
EXPOSE 5000
CMD ["flask", "run", "--host=0.0.0.0"]

Aquí está lo que sucede en el Dockerfile:

La imagen base python:3.10-slim es seleccionada para un entorno ligero.
Se crea un directorio de trabajo /python-docker para fines organizativos.
El archivo requirements.txt se copia en el directorio de trabajo.
Se actualiza el gestor de paquetes y se instala git.
Se instalan las dependencias mencionadas en el requirements.txt.
El paquete Whisper se instala directamente desde GitHub.
ffmpeg se instala para el procesamiento de archivos de audio.
El puerto 5000 se expone para ejecutar el servidor Flask.

Creando tu ruta

Crea un archivo app.py donde importarás los paquetes necesarios, inicializando la aplicación Flask y Whisper. Aquí están las líneas fundamentales para incluir:

from flask import Flask, request
import whisper

app = Flask(__name__)
model = whisper.load_model("base")

A continuación, deberás desarrollar una ruta para aceptar una solicitud POST que contenga un archivo de audio. Mejora tu archivo app.py con las siguientes líneas:

@app.route('/whisper', methods=['POST'])
def transcribe():
    file = request.files['file']
    # Realiza la transcripción aquí
    return {'transcript': result}

¿Cómo ejecutar el contenedor?

Para construir y ejecutar tu contenedor Docker, navega a tu carpeta de proyecto en la terminal y ejecuta los siguientes comandos:

docker build -t whisper-api .
docker run -p 5000:5000 whisper-api

Probando la API

Una vez que tu API esté ejecutándose, puedes probarla enviando una solicitud POST a http://localhost:5000/whisper con un archivo de audio incluido en el cuerpo de la solicitud, formateado como form-data. Usa el siguiente comando curl para probar:

curl -X POST http://localhost:5000/whisper -F 'file=@path_to_your_audio_file'

Al tener éxito, deberías recibir un objeto JSON que contenga la transcripción del archivo de audio.

Desplegando la API

Puedes desplegar la API de Whisper en cualquier plataforma que soporte tecnología Docker. Ten en cuenta que la configuración actual emplea la CPU para el procesamiento de audio. Para utilizar la GPU y mejorar el rendimiento, serán necesarias modificaciones al Dockerfile. Sin embargo, esta guía básica cubre solo lo esencial.

Únete a la revolución de la IA

¡Lo que has aprendido se puede poner a prueba en los próximos Hackatones de IA! No dudes en involucrarte con la comunidad de desarrolladores e innovar utilizando las herramientas proporcionadas por OpenAI.

Para obtener el código completo y más recursos, visita GitHub para explorar y mejorar tus habilidades con Whisper.