AI Development

Tutorial de OpenAI Whisper: Utiliza el Innovador Sistema de Reconocimiento de Voz

OpenAI Whisper tutorial on speech recognition system implementation.

Presentando Whisper: el revolucionario sistema de reconocimiento de voz de OpenAI

Whisper se erige como la solución de reconocimiento de voz de vanguardia de OpenAI, perfeccionada con 680,000 horas de datos multilingües y multitarea obtenidos de la web. Este robusto y versátil conjunto de datos cultiva una excepcional resistencia a los acentos, al ruido ambiental y a la terminología técnica. Además, admite transcripciones sin interrupciones en varios idiomas y traducciones al inglés. OpenAI revela generosamente modelos y códigos, allanando el camino para que desarrolladores ingeniosos construyan aplicaciones valiosas que aprovechen el notable potencial del reconocimiento de voz.

Cómo utilizar Whisper

El modelo Whisper está disponible en GitHub. Puedes descargarlo con el siguiente comando directamente en el cuaderno de Jupyter:

!git clone https://github.com/openai/whisper.git

Whisper necesita que ffmpeg esté instalado en la máquina actual para funcionar. Es posible que ya lo tengas instalado, pero es probable que tu máquina local necesite que este programa se instale primero. OpenAI se refiere a múltiples formas de instalar este paquete, pero utilizaremos el gestor de paquetes Scoop. Aquí hay un tutorial sobre cómo hacerlo manualmente.

En el cuaderno de Jupyter puedes instalarlo con el siguiente comando:

scoop install ffmpeg

Después de la instalación, se requiere un reinicio si estás usando tu máquina local.

Importando bibliotecas

A continuación, importamos todas las bibliotecas necesarias:

import whisper
import torch

Usar una GPU es la forma preferida de utilizar Whisper. Si estás usando una máquina local, puedes verificar si tienes una GPU disponible. La primera línea devolverá False si no hay una GPU Nvidia compatible con CUDA disponible y True si sí.

torch.cuda.is_available()

La segunda línea de código establece que el modelo prefiera la GPU siempre que esté disponible:

device = "cuda" si torch.cuda.is_available() sino "cpu"

Cargando el modelo Whisper

Ahora podemos cargar el modelo Whisper. El modelo se carga con el siguiente comando:

model = whisper.load_model('base').to(device)

Ten en cuenta que hay varios modelos diferentes disponibles. Puedes encontrar todos ellos en la página de GitHub de Whisper. Cada modelo tiene compromisos entre precisión y velocidad (cómputo necesario). Usaremos el modelo 'base' para este tutorial.

Transcribiendo archivos de audio

A continuación, debes cargar tu archivo de audio que deseas transcribir:

audio_file = "ruta/a/tu/archivo_de_audio.mp3"

La función detect_language detecta el idioma de tu archivo de audio:

language, _ = model.detect_language(audio_file)

Decodificando audio

Transcribimos los primeros 30 segundos del audio usando DecodingOptions y el comando decode, luego imprimimos el resultado:

options = whisper.DecodingOptions(language=language)
result = model.decode(audio_file, options)
print(result.text)

A continuación, podemos transcribir todo el archivo de audio:

full_result = model.transcribe(audio_file)
print(full_result['text'])

Esto imprimirá todo el archivo de audio transcrito después de que la ejecución haya terminado.

Puedes encontrar el código completo como un cuaderno de Jupyter aquí.

¿Cómo aprovechar este conocimiento?

Ahora depende de ti crear tu propia aplicación Whisper. ¡Sé creativo y diviértete! Explora diversas aplicaciones útiles para Whisper. La mejor manera es identificar un problema a tu alrededor y crear una solución para ello. ¿Quizás durante nuestros Hackathons de IA?

Puede que te interese

An overview of AI-based RAG application development using TruLens and Google Cloud.
ChatGPT tutorial for enhancing coding skills with AI support.

Dejar un comentario

Todos los comentarios se revisan antes de su publicación.

Este sitio está protegido por hCaptcha y se aplican la Política de privacidad de hCaptcha y los Términos del servicio.