Jak przekonwertować obraz na PDF za pomocą OCR

W tym samouczku omówimy kroki niezbędne do wyodrębnienia pliku tekst rastrowy zawartość zawarta w pliku obrazu, np JPG Lub PNG i przekonwertuj go na zwykły, edytowalny tekst, którego można następnie używać w popularnych formatach dokumentów, takich jak PDF i DOCX.

Co to jest OCR?

OCR, czyli optyczne rozpoznawanie znaków, to proces konwertowania tekstu zapisanego na obrazie rastrowym na tekst, który można edytować w dokumencie tekstowym, takim jak plik DOCX. OCR działa na zasadzie analizy pikseli znajdujących się w pliku obrazu w poszukiwaniu wzorów pikseli przypominających znaki pisanego tekstu. Aby uzyskać szczegółowe wyjaśnienie OCR, zobacz ten świetny artykuł to dobrze wyjaśnia.

Co jest nie tak z tekstem przechowywanym w pliku obrazu?

Tylko oprogramowanie do edycji obrazów może zmienić plik obrazu zawierający tekst, co może stać się skomplikowane, jeśli format obrazu nie obsługuje warstw. Co więcej, tekstu w pliku obrazu nie można przeszukiwać, co utrudnia, jeśli nie uniemożliwia, zlokalizowanie plików na podstawie wyszukiwania słów kluczowych. OCR jest idealnym kandydatem do konwersji pliku obrazu, takiego jak skan dokumentu fizycznego, do formatu dokumentu, jeśli zawiera głównie tekst.

Wybierz swoje narzędzie

Teraz, gdy jesteśmy gotowi do rozpoczęcia konwersji niektórych obrazów do edytowalnego formatu dokumentu, musisz wybrać odpowiednie narzędzie, które odpowiada Twoim potrzebom. Nasze narzędzia umożliwiają konwersję plików dokumentów do trzech następujących typów (linki do tych narzędzi otworzą się w nowej karcie przeglądarki ):

Po wybraniu odpowiedniego narzędzia możesz wybrać typ przesyłanego obrazu. Domyślnie dla plików JPG będzie to wybrany format pliku źródłowego. Możesz to zmienić, korzystając z selektora typu pliku źródłowego znajdującego się po lewej stronie narzędzia.

Wybierz swoje pliki

Po wybraniu odpowiedniego narzędzia i formatu możesz kliknąć przycisk „Prześlij pliki”, aby wybrać pliki obrazów do konwersji. Jeśli wolisz, możesz także przeciągnąć i upuścić do narzędzia 50 plików. Możesz zmienić kolejność wybranych plików, przeciągając ich miniatury na ekranie narzędzia. Każda miniatura ma również przyciski obracania w lewo i w prawo, które umożliwiają prawidłową orientację obrazów przed przesłaniem.

Oto przykład narzędzia Scal z wybranymi czterema plikami JPG i gotowymi do konwersji na edytowalny plik PDF:

Po prawej stronie narzędzia znajduje się opcja OCR ; domyślnie nie jest to włączone. Jeśli pliki zostały przesłane przy wyłączonej tej opcji, utworzony dokument będzie po prostu zawierał osadzone kopie plików obrazów. Na potrzeby tego samouczka i w celu zademonstrowania wyodrębniania zwykłego tekstu zapewnianego przez ustawienie OCR należy to włączyć.

Po wybraniu plików i zmianie ustawień kliknij przycisk „Scal”, a narzędzie OCR przekonwertuje pliki obrazów na czysty, zwykły i edytowalny tekst.

Oto przykład dwóch plików przesłanych do narzędzia Scal. Ostateczny obraz zawiera zwykły tekst, który można edytować, wyodrębniony z pierwszego obrazu i zapisany jako dokument PDF: