Desentrañando Whisper: El sistema de reconocimiento de voz premier de OpenAI
OpenAI Whisper surge como la solución de reconocimiento de voz de última generación de OpenAI, meticulosamente entrenada con 680,000 horas de datos multilingües y multitarea provenientes de la web. Este extenso conjunto de datos refuerza una mayor resistencia a los acentos, al ruido ambiental y a la jerga técnica. Además, admite la transcripción en numerosos idiomas y su traducción al inglés. A diferencia de DALLE-2 y GPT-3, Whisper es un modelo gratuito y de código abierto. OpenAI ofrece acceso a sus modelos y códigos, fomentando la creación de valiosas aplicaciones de reconocimiento de voz.
Dominando la transcripción de videos de YouTube con Whisper
A lo largo de este tutorial de Whisper, adquirirás experiencia en la utilización de Whisper para transcribir un video de YouTube. Usaremos el paquete de Python Pytube para descargar y convertir el audio en un archivo MP4. Visita el repositorio de Pytube para más información.
Paso 1: Instalar la biblioteca Pytube
Primero, instala Pytube ejecutando el siguiente comando en tu terminal:
pip install pytube
Paso 2: Descargar el video de YouTube
Para este tutorial, usaré el video "Python en 100 segundos". A continuación, necesitamos importar Pytube, proporcionar el enlace al video de YouTube y convertir el audio a MP4:
from pytube import YouTube
video_url = 'VIDEO_URL_HERE'
videos = YouTube(video_url)
audio_stream = video.streams.filter(only_audio=True).first()
audio_file = audio_stream.download(output_path='YOUR_DIRECTORY_HERE')
El resultado es un archivo nombrado como el título del video en tu directorio actual. En nuestro caso, el archivo se llama Python en 100 Segundos.mp4.
Paso 3: Transcribiendo audio a texto
Ahora, el siguiente paso es convertir el audio en texto. Podemos hacerlo en tres líneas de código utilizando Whisper. Primero, instalamos e importamos Whisper:
!pip install git+https://github.com/openai/whisper.git
import whisper
Luego cargamos el modelo y finalmente transcribimos el archivo de audio:
model = whisper.load_model('base')
result = model.transcribe(audio_file)
print(result['text'])
Entendiendo los modelos Whisper
Usaremos el modelo "base" para este tutorial. Puedes encontrar más información sobre los modelos aquí. Cada uno de ellos tiene compensaciones entre precisión y velocidad (cómputo necesario).
Obtén más de tu viaje de IA
Puedes encontrar el código completo como Jupyter Notebook.
Tu viaje de IA no tiene que terminar aquí: ¡visita nuestros otros tutoriales de IA para aprender más! ¿Y por qué no probar tus nuevas habilidades durante nuestros próximos Hackatones de IA? Construirás una aplicación de IA, conocerás a otras personas con ideas afines de todo el mundo y mejorarás tus habilidades en solo un par de días. ¡Una idea que vale la pena considerar!
Dejar un comentario
Todos los comentarios se revisan antes de su publicación.
Este sitio está protegido por hCaptcha y se aplican la Política de privacidad de hCaptcha y los Términos del servicio.