Fortgeschrittene Fähigkeiten erwerben: YOLOv7 und GPT-3 zu Ihren Diensten
Am Ende dieses KI-Tutorials werden Sie wissen, wie Sie EasyOCR zur Textextraktion aus verschiedenen Quellen wie Fotos verwenden und die Kraft von OpenAIs GPT-3 zur Textzusammenfassung nutzen!
EasyOCR entschlüsseln: Eine Software-Powerhouse
EasyOCR, ein privates Unternehmen, sticht im Bereich Softwareveröffentlichung, Beratung und Lieferung hervor. Sie zeichnen sich durch die Erstellung von gebrauchsfertiger Software, Betriebssystemsoftware, Geschäftsanwendungssoftware und Computerspielen für alle Plattformen aus. Die Bereitstellung maßgeschneiderter Softwarelösungen nach einer gründlichen Analyse der Benutzerbedürfnisse und -probleme stärkt ihre Marktposition.
YOLOv7 enthüllt: Die Zukunft der Objekterkennung
YOLOv7, die neueste Ergänzung der YOLO-Familie von einstufigen Objekterkennungsalgorithmen, ist ein wirklicher Umbruch im Bereich der Objekterkennung. Dieses fortschrittliche Modell verarbeitet Bildrahmen durch ein Backbone, um Merkmale zu extrahieren, die dann in einem "Neck" gemischt und kombiniert werden, bevor sie zum "Head" des Netzwerks weitergeleitet werden. Hierbei prognostiziert es die Standorte und Klassen der Objekte und identifiziert diese mit Begrenzungsrahmen.
Wesentlich eingeführt von WongKinYiu und Alexey Bochkovskiy (AlexeyAB) verbessert YOLOv7 die Genauigkeit der Begrenzungsrahmen und die Inferenzgeschwindigkeit durch mehrere innovative Änderungen am YOLO-Netzwerk und den Trainingsabläufen. Zu den bemerkenswerten Funktionen gehören:
- Erweiterte effiziente Schichtaggregation
- Modellskalierungstechniken
- Re-Parametrisierung Planung
- Hilfs-Head für grobe bis feine Vorhersagen
Das YOLOv7 GitHub-Repository stellt den gesamten erforderlichen Code für das Training von YOLOv7 mit benutzerdefinierten Daten zur Verfügung, das in PyTorch definiert und in Python geschrieben ist.
Erste Schritte
Installation der Abhängigkeiten
Beginnen Sie mit dem Herunterladen der notwendigen Bibliotheken, die für EasyOCR und GPT-3 erforderlich sind.
Programmierungsumgebung
Für dieses Tutorial werde ich Visual Studio Code (VSC) verwenden, aber Sie können jede von Ihnen bevorzugte Umgebung nutzen, einschließlich Notebooks oder Google Colab.
Hinweis: Es ist praktisch, eine einzelne Datei für dieses Tutorial zu verwenden, obwohl Sie den Code nach Bedarf in Module aufteilen können.
Textextraktion aus Bildern
Für diese Aufgabe werden wir EasyOCR verwenden, um eine Klasse zu erstellen, die in der Lage ist, Text aus Bildern zu extrahieren.
Klassenstruktur
-
__init__: Definiert den Reader für Englisch. Er nutzt die GPU, wenn verfügbar, und lädt die Modelle in das Verzeichnis
./models
, wenn diese noch nicht vorhanden sind. - __call__: Ermöglicht direkte Aufrufe der extract_text-Methode in der Instanz, ähnlich wie eine Funktion.
- extract_text: Nimmt ein Bild als Argument an, das eine Liste extrahierter Texte und ein Bild mit Begrenzungsrahmen zurückgibt und Texte mit einer Konfidenz von weniger als 45 % filtert.
Wir können jetzt diese Klasse nutzen, um Text aus einem Bild zu extrahieren. Um diesen Prozess zu vereinfachen, werden wir eine Funktion zum Laden von Bildern erstellen.
Unter Verwendung eines Bildes aus Adrians vorherigem Tutorial werden die Ergebnisse zeigen:
- Ein Bild mit annotierten Begrenzungsrahmen
- Extrahierter Text aus dem Bild
Gar nicht schlecht!
Textzusammenfassung!
Jetzt, da wir erfolgreich Text extrahiert haben, werden wir zur Zusammenfassung mit GPT-3 übergehen.
Einrichten von GPT-3
Wir werden eine Klasse erstellen, um unsere Anfragen an GPT zu verwalten:
- Einrichten einer
.env
-Datei zum Speichern des OpenAI-API-Schlüssels. - Definieren der Klasse für GPT-3.
- __init__: Setzt das GPT-3-Modell und die Konfiguration, einschließlich des API-Schlüssels.
- __call__: Ähnlich wie in der vorherigen Klasse.
- prediction: Ermöglicht Vorhersagen basierend auf einem gegebenen Prompt.
- summarize: Fasst den gegebenen Text zusammen.
Testen der Anwendung
Nachdem wir alles zusammengefügt haben, sollte unser Code klar und strukturiert aussehen. Das Ausführen des Codes wird ergeben:
- Ein Bild mit Begrenzungsrahmen
- Der extrahierte Text zusammen mit den Zusammenfassungs Ergebnissen
Wow! Das ermöglicht uns, eine einfache Anwendung zu erstellen, die in der Lage ist, Texte zu summarisierten, die aus einem normalen Foto extrahiert wurden. Viel Spaß beim Nutzen dieses Werkzeugs!
Wie viele KI-Anwendungen kann ich erstellen?
Das ist eine interessante Frage; die einzigen Einschränkungen sind Ihre Ressourcen! Mit einer bahnbrechenden Idee, die ein reales Problem anspricht, sind Sie schon zur Hälfte dort. Außerdem müssen Sie es erstellen, starten und effektiv vermarkten. Wir sind hier, um Sie in jedem Schritt zu unterstützen.
Treten Sie unseren AI Hackathons bei und präsentieren Sie Ihre bahnbrechende Idee über 52.000 KI-Entwicklern weltweit. Arbeiten Sie gemeinsam daran, es innerhalb von nur 7 Tagen zu verwirklichen, und erkunden Sie unser AI Slingshot-Programm. Es ist einfach und innovativ - treten Sie uns bei unter Lablab.ai!
Hinterlasse einen Kommentar
Alle Kommentare werden vor der Veröffentlichung geprüft.
Diese Website ist durch hCaptcha geschützt und es gelten die allgemeinen Geschäftsbedingungen und Datenschutzbestimmungen von hCaptcha.