Tutorial de OpenAI Whisper: Desbloqueando Capacidades de Reconocimient

Presentando Whisper: el sistema de reconocimiento de voz innovador de OpenAI

Whisper se erige como la solución de reconocimiento de voz de vanguardia de OpenAI, perfeccionada con 680,000 horas de datos multilingües y multitarea recopilados de la web. Este robusto y versátil conjunto de datos cultiva una excepcional resistencia a acentos, ruido ambiental y terminología técnica. Además, admite transcripción fluida en varios idiomas y traducción al inglés. OpenAI revela generosamente modelos y códigos, allanando el camino para que ingeniosos desarrolladores construyan aplicaciones valiosas que aprovechen el notable potencial del reconocimiento de voz.

Cómo usar Whisper

El modelo Whisper está disponible en GitHub. Puedes descargarlo con el siguiente comando directamente en el Jupyter Notebook:

!pip install git+https://github.com/openai/whisper.git

Whisper necesita ffmpeg instalado en la máquina actual para funcionar. Puede que ya lo tengas instalado, pero es probable que tu máquina local necesite instalar este programa primero.

OpenAI se refiere a múltiples maneras de instalar este paquete, pero nosotros utilizaremos el administrador de paquetes Scoop. Aquí hay un tutorial sobre cómo hacerlo manualmente.

En el Jupyter Notebook, puedes instalarlo con el siguiente comando:

scoop install ffmpeg

Después de la instalación, se requiere un reinicio si estás utilizando tu máquina local. Ahora podemos continuar. A continuación, importamos todas las bibliotecas necesarias:

import whisper

Usando GPU para Whisper

Usar una GPU es la forma preferida de utilizar Whisper. Si estás utilizando una máquina local, puedes verificar si tienes una GPU disponible. La primera línea arroja False si no hay una GPU Nvidia compatible con CUDA disponible y True si está disponible. La segunda línea de código establece que el modelo prefiere la GPU siempre que esté disponible.

import torch
is_cuda = torch.cuda.is_available()
model = "base" if is_cuda else "tiny"

Cargando el modelo Whisper

Ahora podemos cargar el modelo Whisper. El modelo se carga con el siguiente comando:

model = whisper.load_model(model)

Ten en cuenta que hay varios modelos diferentes disponibles. Puedes encontrar todos ellos aquí. Cada uno de ellos tiene compromisos entre precisión y velocidad (cálculo necesario). Utilizaremos el modelo 'base' para este tutorial.

Transcribiendo archivos de audio

A continuación, necesitas cargar tu archivo de audio que deseas transcribir:

audio_file = "path_to_your_audio_file.wav"

Detectando el idioma

La función detect_language detecta el idioma de tu archivo de audio:

language = model.detect_language(audio_file)

Transcribiendo los primeros 30 segundos

Transcribimos los primeros 30 segundos del audio usando las DecodingOptions y el comando decode:

result = model.transcribe(audio_file, max_length=30)
print(result["text"])

Transcribiendo el archivo de audio completo

Esto imprimirá el archivo de audio completo transcrito, después de que la ejecución haya finalizado:

result_full = model.transcribe(audio_file)
print(result_full["text"])

Creando tu propia aplicación Whisper

Ahora depende de ti crear tu propia aplicación Whisper. ¡Sé creativo y diviértete! Estoy seguro de que encontrarás muchas aplicaciones útiles para Whisper. La mejor manera es identificar un problema a tu alrededor y elaborar una solución para ello. ¿Quizás durante nuestros Hackatones de IA?

Conclusión

Con el poder de Whisper de OpenAI, las posibilidades para desarrollos innovadores en la tecnología de reconocimiento de voz son infinitas. Ya sea para transcribir reuniones, crear contenido accesible o desarrollar herramientas de comunicación multilingües, Whisper está listo para revolucionar la forma en que interactuamos con los datos de audio.

Tutorial de OpenAI Whisper: Desbloqueando Capacidades de Reconocimiento de Voz