Chirp-Tutorial: Meistere Googles Sprach-zu-Text-KI

Einführung

Chirp ist das hochmoderne 2B-Parameter-Sprachmodell von Google Cloud, das durch selbstüberwachtes Training an Millionen von Stunden Audio, das mit 28 Milliarden Sätzen Text in über 100 Sprachen gekoppelt ist, entwickelt wurde. Dieses fortschrittliche Modell bietet eine beeindruckende Spracherkennungsgenauigkeit von 98 % in Englisch und zeigt eine bemerkenswerte relative Verbesserung von 300 % bei der Erkennung verschiedener Sprachen, insbesondere bei solchen mit weniger als 10 Millionen Sprechern.

Was Werden Sie Lernen?

In diesem Tutorial werden wir eine Reise antreten, um die Google Cloud-Konsole einzurichten und die außergewöhnlichen Fähigkeiten des Chirp-Sprach-zu-Text-KI-Modells zu nutzen. Diese umfassende Anleitung bietet einen detaillierten Schritt-für-Schritt-Ansatz, um einen reibungslosen Einrichtungsprozess und einen schnellen Start mit dem Sprach-zu-Text-Modell von Chirp sicherzustellen. Lehnen Sie sich also zurück, entspannen Sie sich und genießen Sie vielleicht eine Tasse Kaffee, während wir eintauchen!

Lernergebnisse

Wie man die Google Cloud-Konsole effektiv navigiert und nutzt.
Wie man das Chirp-Sprach-zu-Text-KI-Modell von Google in der Google Cloud-Konsole implementiert.

Überblick über die Schritte

Das Tutorial umfasst die folgenden wichtigen Schritte:

Erstellen eines Google Cloud-Kontos.
Erstellen eines neuen Projekts auf der Google Cloud-Konsole.
Aktivieren der Speech API.
Erstellen eines STT (Speech-to-Text) Erkennungsmodells unter Verwendung des Chirp-Modells.
Einrichten eines neuen Arbeitsbereichs für das Projekt.
Durchführen der Transkription einer Audiodatei.
Anzeigen und Herunterladen der Transkriptions Ergebnisse.

Voraussetzungen

Keine Voraussetzungen erforderlich! Nehmen Sie einfach eine Tasse Kaffee und haben Sie einen Laptop bereit.

Erste Schritte

Schritt 1: Erstellen Sie ein Google Cloud-Konto

Beginnen Sie mit der Erstellung eines Google Cloud-Kontos. Wenn Sie bereits eines haben, können Sie diesen Schritt überspringen. Für diejenigen, die ein neues Konto erstellen müssen, können Sie sich hier anmelden.

Schritt 2: Erstellen Sie ein neues Projekt

Klicken Sie in der oberen linken Ecke auf das Dropdown-Menü für Projekte und wählen Sie Neues Projekt. Benennen Sie Ihr Projekt und klicken Sie auf Erstellen.

Schritt 3: API aktivieren

Navigieren Sie zu Speech in der Google Cloud-Konsole und klicken Sie auf API aktivieren.

Schritt 4: Erstellen Sie einen STT-Erkenner

Klicken Sie in der linken Seitenleiste auf Erkenner > ERKENNER ERSTELLEN. Benennen Sie Ihren Erkenner chirp-recognizer, wählen Sie Chirp als Modell und wählen Sie die Sprache en-US. Lassen Sie den Rest der Einstellungen auf Standard und klicken Sie auf Speichern.

Schritt 5: Erstellen Sie einen neuen Arbeitsbereich

Gehen Sie zum Dropdown-Menü Arbeitsbereich und wählen Sie Neuer Arbeitsbereich. Ein Seitenbereich wird auf der rechten Seite Ihres Bildschirms angezeigt.

Wählen Sie Durchsuchen > Neuen Bucket erstellen. Benennen Sie Ihren Bucket chirp-bucket und klicken Sie auf Weiter. Sie können die restlichen Bucketeinstellungen auf Standard lassen.

Klicken Sie auf Erstellen, und Sie sollten sehen, dass ein neuer Bucket erfolgreich erstellt wurde.

Zum Schluss klicken Sie auf Auswählen > Weiter > Erstellen, um die Einrichtung des Arbeitsbereichs für die Benutzeroberfläche für Sprach-zu-Text abzuschließen.

Schritt 6: Erstellen Sie eine neue Transkription

Um tatsächliche Transkriptionen vorzunehmen, navigieren Sie zu Transkription > Neue Transkription. Wählen Sie Ihre Audiodatei entweder über Lokalen Upload oder Cloud-Speicher. Für dieses Tutorial verwenden wir die Option Lokaler Upload.

Nachdem Sie Ihre Audiodatei ausgewählt haben, klicken Sie auf Weiter.

Ändern Sie die Standard-API-Version von V1 auf V2. Geben Sie die gesprochene Sprache als Englisch (Vereinigte Staaten) - en-US an, wählen Sie Chirp als Transkriptionsmodell und wählen Sie Ihren neu erstellten chirp-recognizer als Erkenner aus.

Klicken Sie auf Einreichen und warten Sie einige Momente, während die Transkription verarbeitet wird.

Schritt 7: Transkriptions Ergebnisse anzeigen und herunterladen

Um die Transkriptions Ergebnisse anzuzeigen, klicken Sie einfach auf den Namen Ihrer Transkription im Dashboard. Sie haben auch die Möglichkeit, die Ergebnisse in vier verschiedenen Formaten herunterzuladen: JSON, TXT, SRT und CSV.

Um beispielsweise die Transkription im TXT-Format herunterzuladen, klicken Sie auf Herunterladen > TXT > Herunterladen.

Zusammenfassung

Diese detaillierte Anleitung hat Sie mit dem Wissen ausgestattet, um das Sprach-zu-Text-KI-Modell von Google Chirp in der Google Cloud-Konsole zu implementieren. Indem Sie den Schritt-für-Schritt-Anweisungen folgen, können Sie die Fähigkeiten von Chirp für eine genaue Spracherkennung nutzen.

Dieses Tutorial zielt darauf ab, eine benutzerfreundliche Roadmap bereitzustellen und eine nahtlose Einrichtungserfahrung für sowohl Neulinge als auch erfahrene Google Cloud-Nutzer zu gewährleisten. Am Ende sollten Sie sich in der Lage fühlen, das Sprach-zu-Text-Modell von Google Chirp effizient anzuwenden.

Nutzen Sie das Potenzial von Chirp in Ihren Projekten und Anwendungen und experimentieren Sie mit verschiedenen Sprachen und Audiodateien. Zögern Sie nicht, Ihr neu erworbenes Fachwissen bei unserem bevorstehenden AI Hackathon zu testen!

Prost auf Ihre KI-Reise! Wenn Sie Fragen oder Feedback haben, wenden Sie sich gerne über LinkedIn oder Twitter an uns. Wir freuen uns darauf, von Ihnen zu hören!