Tutorial de Chirp: Domina la IA de Reconocimiento de Voz de Google

Introducción

Chirp es el modelo de voz de última generación de Google Cloud, con 2 billones de parámetros, desarrollado a través de entrenamiento auto-supervisado en millones de horas de audio emparejadas con 28 mil millones de oraciones de texto en más de 100 idiomas. Este modelo avanzado cuenta con una impresionante precisión del 98% en el reconocimiento de voz en inglés y muestra una notable mejora del 300% en el reconocimiento de varios idiomas, particularmente aquellos con menos de 10 millones de hablantes.

¿Qué aprenderás?

En este tutorial, nos embarcaremos en un viaje para configurar la consola de Google Cloud y aprovechar las extraordinarias capacidades del modelo de inteligencia artificial de Chirp para convertir voz a texto. Esta guía integral ofrece un enfoque detallado y paso a paso para garantizar un proceso de configuración fluido y un inicio rápido con el uso del modelo de Chirp. Así que, siéntate, relájate y quizás disfruta de una taza de café mientras nos adentramos en el tema!

Resultados de Aprendizaje

Cómo navegar y utilizar efectivamente la consola de Google Cloud.
Cómo implementar el modelo de inteligencia artificial Chirp de Google para convertir voz a texto en la consola de Google Cloud.

Descripción General de Pasos

El tutorial cubrirá los siguientes pasos clave:

Crear una cuenta de Google Cloud.
Crear un nuevo proyecto en la consola de Google Cloud.
Activar la API de voz.
Crear un Reconocedor de STT (Conversa a Texto) usando el modelo Chirp.
Establecer un nuevo Espacio de Trabajo para el proyecto.
Realizar transcripción en un archivo de audio.
Ver y descargar los resultados de la transcripción.

Requisitos Previos

¡No se necesitan requisitos previos! Solo toma una taza de café y ten un portátil listo.

Comenzando

Paso 1: Crear una Cuenta de Google Cloud

Comienza creando una cuenta de Google Cloud. Si ya tienes una, siéntete libre de omitir este paso. Para aquellos que necesitan crear una nueva cuenta, puedes registrarte aquí.

Paso 2: Crear un Nuevo Proyecto

En la esquina superior izquierda, haz clic en el menú desplegable de proyectos y selecciona Nuevo Proyecto. Nombra tu proyecto y haz clic en Crear.

Paso 3: Activar API

Navega a Voz en la consola de Google Cloud y haz clic en ACTIVAR API.

Paso 4: Crear un Reconocedor de STT

En la barra lateral izquierda, haz clic en Reconocedores > CREAR RECONOCEDORES. Nombra tu reconocedor chirp-recognizer, selecciona Chirp como el modelo y elige el idioma en-US. Deja el resto de la configuración como predeterminada y haz clic en Guardar.

Paso 5: Crear un Nuevo Espacio de Trabajo

Ve al menú desplegable de Espacio de Trabajo y selecciona Nuevo Espacio de Trabajo. Aparecerá una barra lateral en el lado derecho de tu pantalla.

Selecciona Navegar > Crear un nuevo bucket. Nombra tu bucket chirp-bucket y haz clic en Continuar. Puedes dejar el resto de la configuración del bucket como predeterminada.

Haz clic en Crear, y deberías ver que un nuevo bucket se creó exitosamente.

Finalmente, haz clic en Seleccionar > Continuar > Crear para completar la configuración del espacio de trabajo para la interfaz de usuario de voz a texto.

Paso 6: Crear una Nueva Transcripción

Para realizar una transcripción real, navega a Transcripción > Nueva Transcripción. Selecciona tu archivo de audio ya sea a través de Subida Local o Almacenamiento en la Nube. Para este tutorial, usaremos la opción de Subida Local.

Una vez que hayas seleccionado tu archivo de audio, haz clic en Continuar.

Cambia la versión API predeterminada de V1 a V2. Especifica el idioma hablado como Inglés (Estados Unidos) - en-US, elige Chirp como el modelo de transcripción y selecciona tu recién creado chirp-recognizer como el reconocedor.

Haz clic en Enviar y espera unos momentos mientras se procesa la transcripción.

Paso 7: Ver Resultados de Transcripción y Descargar

Para ver los resultados de la transcripción, simplemente haz clic en el nombre de tu transcripción en el panel. También tienes la opción de descargar los resultados en cuatro formatos diferentes: JSON, TXT, SRT y CSV.

Por ejemplo, para descargar la transcripción en formato TXT, haz clic en Descargar > TXT > Descargar.

Concluyendo

Esta guía detallada te ha equipado con el conocimiento para implementar el modelo de inteligencia artificial Chirp de Google para convertir voz a texto en la consola de Google Cloud. Siguiendo las instrucciones paso a paso, podrás aprovechar las capacidades de Chirp para un reconocimiento de voz preciso.

Este tutorial tiene como objetivo proporcionar un mapa fácil de seguir, asegurando una experiencia de configuración fluida tanto para los novatos como para los usuarios experimentados de Google Cloud. Al final, deberías sentirte seguro en tu capacidad para aplicar eficientemente el modelo de voz a texto de Google Chirp.

Aprovecha el potencial de Chirp en tus proyectos y aplicaciones, y experimenta con diversos idiomas y archivos de audio. ¡No dudes en poner a prueba tu nueva experiencia en nuestro próximo Hackathon de IA!

¡Salud por tu viaje en la IA! Si tienes alguna pregunta o comentario, no dudes en comunicarte a través de LinkedIn o Twitter. Estamos emocionados de escuchar de ti!