Tutorial: Erstellung eines automatischen Synchronisationsdienstes mit

Einführung

Die Ankunft von hochentwickelter Text-zu-Sprache-Technologie in den letzten Jahren hat die Türen für viele innovative und hochmoderne KI-gestützte Produkte geöffnet. Wir sind nicht mehr auf die unbeholfenen und roboterhaften synthetisierten Sprachen beschränkt, die durch die Text-zu-Sprache-Technologie der Vergangenheit erzeugt wurden. Kürzlich hat ein Unternehmen namens ElevenLabs das Spiel verändert, indem es uns Funktionen rund um die Sprachgenerierung bietet. Von der Erstellung und Gestaltung benutzerdefinierter Stimmen bis hin zur Synthese von Reden mit den Stimmen, die wir erstellen, oder der Verwendung vorgefertigter Stimmen, die von ElevenLabs bereitgestellt werden.

In diesem Tutorial werden wir einen automatischen Synchronisierungsdienst mit Text-zu-Sprache-Technologie von ElevenLabs aufbauen. Außerdem werden wir die notwendigen Schritte identifizieren, vom Abrufen eines Videos über einen YouTube-Link bis hin zu der Kombination des Videos mit den generierten Dubs.

Einführung in ElevenLabs

ElevenLabs ist ein äußerst innovatives Unternehmen, das eine leistungsstarke und benutzerfreundliche API für die Sprachgenerierung anbietet. Sie bieten eine hochmoderne Technologie mit ihrer Sprachgenerierungs-API, die auf riesigen Sammlungen von Hörbüchern und Podcasts trainiert wurde, was zu natürlicher klingenden und ausdrucksvollen Reden führt. Daher kann die API von ElevenLabs als ideale Wahl für eine Vielzahl von sprachzentrierten Produkten dienen, wie z.B. die Erzählung von Geschichten/Hörbüchern und Voiceover für Videos.

Einführung in OpenAIs Whisper

Whisper ist ein Audio-Transkriptionsdienst oder Sprache-zu-Text, der von OpenAI entwickelt wurde. Berichten zufolge wurde es auf 680.000 Stunden mehrsprachiger und multitasking-überwachter Daten trainiert, die aus dem Web gesammelt wurden, um die Konsistenz bei der Erkennung von Akzenten, Hintergrundgeräuschen und Fachsprache zu verbessern. Whisper ist auch in der Lage, Reden in mehreren Sprachen zu transkribieren sowie aus nicht-englischen Sprachen zu übersetzen.

Einführung in Anthropics Claude-Modell

Claude ist ein fortschrittliches KI-Modell, das von Anthropic entwickelt wurde, basierend auf ihrer Forschung zur Förderung und Schulung von hilfreichen, ehrlichen und harmlosen KI-Systemen. Es wurde entwickelt, um bei verschiedenen sprachzentrierten Anwendungsfällen wie Textzusammenfassungen, kollaborativem Schreiben, Fragen & Antworten und Programmierung zu helfen. Frühere Bewertungen von verschiedenen Nutzern berichteten, dass Claude besonders effektiv darin ist, sichere und zuverlässige Antworten zu produzieren, was die Arbeit erleichtert und intuitiver macht. Dies macht Claude ideal für den Aufbau von Diensten, die eine humane und hervorragende Benutzererfahrung bieten sollen. Wir werden Claude verwenden, um unser Video-Transkript zu übersetzen.

Voraussetzungen

Grundkenntnisse in Python; Erfahrung mit Streamlit ist ein Plus.
Zugang zur API von ElevenLabs.
Zugang zur API von Anthropic.

Gliederung

Identifizierung der Anforderungen
Initialisierung des Projekts
Hinzufügen einer Video-Transkriptionsfunktion mit OpenAIs Whisper
Hinzufügen einer Übersetzungsfunktion mit Anthropics Claude
Hinzufügen einer Dubs-Generierungsfunktion mit der API von ElevenLabs
Feinschliff - Kombination des Videos mit den generierten Dubs
Testen des automatischen Synchronisierungsdienstes

Diskussion

Bevor wir in den Code-Teil eintauchen, lassen Sie uns über die Funktionen nachdenken, die unser automatischer Synchronisierungsdienst beinhalten sollte. Indem wir die Anforderungen und beabsichtigten Anwendungsfälle betrachten, können wir sicherstellen, dass unser Dienst angemessene Lösungen bietet. Mit diesem Gedanken im Hinterkopf, lassen Sie uns beginnen!

Identifizierung der Anforderungen

Um Dubs für YouTube-Videos zu generieren, müssen wir die Schritte verfolgen:

1. Video vom YouTube-Link abrufen

Wir können die beliebte Python-Bibliothek pytube verwenden, um die Video- und Audiostreams sowie Metadaten wie Titel, Beschreibung und Miniaturansicht abzurufen. Wir werden ein Texteingabefeld für den YouTube-Link und eine Schaltfläche zur Auslösung des Stream-Downloadprozesses bereitstellen.

2. Audio-Stream transkribieren

Sobald der Audio-Stream heruntergeladen ist, können wir ihn mit OpenAIs Whisper über die Whisper-Bibliothek transkribieren. Um die Leistung zu verbessern, werden wir das Audio in einminütige Abschnitte schneiden, bevor wir die Transkription durchführen. Das Transkript wird in einem DataFrame angezeigt.

3. Transkript übersetzen

Als nächstes werden wir die anthropic Bibliothek verwenden, um auf Claude zuzugreifen, indem wir einen Prompt senden, um die Übersetzung des Transkripts, das ursprünglich auf Englisch war, anzufordern.

4. Generieren der Dubs

Nachdem wir die Antwort von Claude erhalten haben, werden wir Dubs mit der API von ElevenLabs generieren und dabei das mehrsprachige Modell verwenden, um nicht-englische Übersetzungen zu berücksichtigen.

5. Kombinieren der Dubs mit dem Video

Schließlich werden wir den Video-Stream vom YouTube-Link abrufen und den generierten Audio mit dem Video kombinieren, indem wir ffmpeg verwenden.

Initialisierung des Projekts

Wir werden die streamlit Bibliothek verwenden, um unsere Benutzeroberfläche zu erstellen. Das Projekt beinhaltet die Erstellung einer einzelnen Python-Datei und die Befolgung der Schritte, um einen reibungslosen Betrieb sicherzustellen:

Erstellen des Projektverzeichnisses

Navigieren Sie zuerst zu Ihrem Code-Projektverzeichnis und erstellen Sie ein Projektverzeichnis.

Erstellen und Aktivieren der virtuellen Umgebung

Erstellen Sie die virtuelle Umgebung und aktivieren Sie sie, um Abhängigkeitskonflikte zu vermeiden.

Installation der Abhängigkeiten

Mit pip-Befehlen werden wir alle notwendigen Abhängigkeiten installieren, einschließlich Streamlit, Anthropic, ElevenLabs, Pytube, Pydub, Whisper und anderen genannten. Stellen Sie sicher, dass Sie alle potenziellen Probleme wie Fehler in Pytube und die Installation von ffmpeg ansprechen.

Erstellen der Streamlit-Geheimdatei

Speichern Sie API-Schlüssel und sensible Informationen in einer secrets.toml Datei im Projektverzeichnis zur Sicherheit.

Erstellen der auto_dubs.py Datei

Verwenden Sie einen Code-Editor, um das erste Layout der App mit einem Titel, Texteingabe, Auswahlfeld für Sprachen und einer Schaltfläche, die den Transkriptionsprozess auslöst, zu schreiben.

Hinzufügen einer Video-Transkriptionsfunktion mit OpenAIs Whisper

Fügen Sie einen Handler zur Schaltfläche "Transkribieren!" hinzu, um den Audio-Stream herunterzuladen, das Audio zu schneiden und die Transkription mit der Whisper-Bibliothek zu verarbeiten, wobei die Ergebnisse in einem Pandas DataFrame angezeigt werden.

Hinzufügen einer Übersetzungsfunktion mit Anthropics Claude

Integrieren Sie die Übersetzungsfunktion, indem Sie eine Funktion erstellen, die das Transkript an Claude zur Übersetzung sendet, gefolgt von einer Benutzeraufforderung, um Claude effektiv zu steuern.

Hinzufügen einer Dubs-Generierungsfunktion mit der API von ElevenLabs

Integrieren Sie das Dub-Generierungsfeature mit ElevenLabs, indem Sie das mehrsprachige Modell verwenden, um natürlich klingende Sprache basierend auf dem übersetzten Text zu generieren.

Feinschliff - Kombinieren des Videos mit den generierten Dubs

Kombinieren Sie Video und Audio mit ffmpeg und stellen Sie sicher, dass der Gesamtprozess reibungslos läuft, bevor er dem Benutzer präsentiert wird.

Testen des automatischen Synchronisierungsdienstes

Nun wollen wir unsere App testen, indem wir auf die Schaltfläche "Transkribieren!" klicken und überprüfen, ob alles wie gewünscht funktioniert, einschließlich der Wiedergabe des Videos mit den neuen Dubs.

Fazit

Dieses Tutorial hat einen innovativen Ansatz zur Erzeugung von Übersetzungsdubs für YouTube-Videos mit der API von ElevenLabs gezeigt. Die Kombination von OpenAIs Whisper, Anthropics Claude und den mehrsprachigen Fähigkeiten von ElevenLabs führt zu einer nahtlosen Benutzererfahrung. Durch Streamlit konnten wir alle notwendigen Funktionen in einer benutzerfreundlichen Oberfläche präsentieren.

Jetzt können wir automatisch Dubs für YouTube-Videos generieren und das Potenzial der Kombination verschiedener KI-Dienste zur Erreichung bemerkenswerter Ergebnisse präsentieren!

Tutorial: Erstellung eines automatischen Synchronisationsdienstes mit ElevenLabs