So konvertieren Sie ein Bild mit OCR in PDF
In diesem Tutorial werden wir die Schritte durchgehen, die zum Extrahieren der gerasterter Text Inhalt einer Bilddatei, wie z. B. JPG oder PNG und konvertieren Sie diesen in einfachen, bearbeitbaren Text, der dann in gängigen Dokumentformaten verwendet werden kann, wie PDF und DOCX.
Was ist OCR?
OCR (Optical Character Recognition) ist der Prozess der Umwandlung von Text, der in einem Rasterbild gespeichert ist, in Text, der in einem textbasierten Dokument, wie z. B. einer DOCX-Datei, bearbeitet werden kann. OCR funktioniert, indem die in der Bilddatei vorhandenen Pixel analysiert werden und nach Pixelmustern gesucht wird, die geschriebenen Textzeichen ähneln. Eine ausführliche Erklärung von OCR finden Sie in diesem großartigen Artikel das erklärt es gut.
Was ist falsch an Text, der in einer Bilddatei gespeichert ist?
Nur Bildbearbeitungssoftware kann eine Bilddatei mit Text ändern, was komplex werden kann, wenn das Bildformat keine Ebenen unterstützt. Darüber hinaus ist der Text in der Bilddatei nicht durchsuchbar, was es schwierig, wenn nicht unmöglich macht, Dateien anhand einer Stichwortsuche zu finden. OCR eignet sich ideal zum Konvertieren einer Bilddatei, z. B. eines Scans eines physischen Dokuments, in ein Dokumentformat, wenn diese hauptsächlich Text enthält.
Wählen Sie Ihr Werkzeug
Jetzt können wir mit der Konvertierung einiger Bilder in ein bearbeitbares Dokumentformat beginnen. Sie müssen nun das richtige Tool auswählen, das Ihren Anforderungen entspricht. Unsere Tools können in die folgenden drei Dokumentdateitypen konvertieren (Links zu diesen Tools werden in einem neuen Browser-Tab geöffnet ):
Sobald Sie das richtige Tool ausgewählt haben, können Sie den Bildtyp auswählen, den Sie hochladen möchten. Standardmäßig ist dies für JPG-Dateien das ausgewählte Quelldateiformat. Sie können dies mithilfe der Auswahlfunktion für den Quelldateityp auf der linken Seite des Tools ändern.
Wählen Sie Ihre Dateien
Wenn Sie das richtige Tool und die richtigen Formate ausgewählt haben, können Sie auf die Schaltfläche „Dateien hochladen“ klicken, um die zu konvertierenden Bilddateien auszuwählen. Sie können auch bis zu 50 Dateien per Drag & Drop auf das Tool ziehen. Sie können die ausgewählten Dateien neu anordnen, indem Sie ihre Miniaturansichten innerhalb der Tool-Anzeige ziehen. Jede Miniaturansicht verfügt außerdem über Schaltflächen zum Drehen nach links und rechts, damit Sie Ihre Bilder vor dem Hochladen richtig ausrichten können.
Hier ist ein Beispiel des Zusammenführungstools mit vier ausgewählten JPG-Dateien, die zur Konvertierung in eine bearbeitbare PDF-Datei bereit sind:
Auf der rechten Seite des Tools befindet sich die OCR- Option; standardmäßig ist diese nicht aktiviert. Wenn Ihre Dateien mit deaktivierter Option übermittelt würden, würde das erstellte Dokument lediglich eingebettete Kopien Ihrer Bilddateien enthalten. Für die Zwecke dieses Tutorials und um die durch die OCR- Einstellung bereitgestellte Klartextextraktion zu demonstrieren, sollte diese Option aktiviert sein.
Nachdem Sie Ihre Dateien ausgewählt und alle Einstellungen geändert haben, klicken Sie auf die Schaltfläche „Zusammenführen“. Das OCR-Tool konvertiert Ihre Bilddateien in sauberen, einfachen und bearbeitbaren Text.
Dies ist ein Beispiel für zwei Dateien, die an das Zusammenführungstool gesendet wurden. Das endgültige Bild enthält den einfachen, bearbeitbaren Text, der aus dem ersten Bild extrahiert und als PDF-Dokument gespeichert wurde:
Einen Kommentar hinzufügen
Keine Kommentare
Seien Sie der erste, der diesen Artikel kommentiert.