Як перетворити зображення на PDF за допомогою OCR
У цьому підручнику ми розглянемо кроки, необхідні для вилучення растеризований текст вміст, що міститься у файлі зображення, наприклад JPG або PNG і перетворити це на звичайний редагований текст, який потім можна використовувати в популярних форматах документів, таких як PDF і DOCX.
Що таке OCR?
OCR або оптичне розпізнавання символів — це процес перетворення тексту, що зберігається в растровому зображенні, на текст, який можна редагувати в текстовому документі, наприклад у файлі DOCX. Функція оптичного розпізнавання символів аналізує пікселі, присутні у файлі зображення, шукаючи візерунки пікселів, які нагадують символи написаного тексту. Для детального пояснення OCR див стаття це добре пояснює.
Що не так із текстом, який зберігається у файлі зображення?
Лише програмне забезпечення для редагування зображень може змінити файл зображення з текстом, який може стати складним, якщо формат зображення не підтримує шари. Крім того, текст не можна шукати у файлі зображення, що ускладнює, а то й унеможливлює пошук файлів за ключовим словом. OCR є ідеальним кандидатом для перетворення файлу зображення, наприклад сканованого фізичного документа, у формат документа, якщо він містить переважно текст.
Виберіть свій інструмент
Тепер, коли ми готові розпочати перетворення деяких зображень у формат документа, який можна редагувати, вам потрібно буде вибрати правильний інструмент, який відповідає вашим потребам. Наші інструменти можуть конвертувати файли документів у такі три типи (посилання на ці інструменти відкриються в новій вкладці браузера ):
Вибравши правильний інструмент, ви можете вибрати тип зображення, яке ви завантажуєте. За замовчуванням для файлів JPG це буде вибраний вихідний формат файлу. Це можна змінити за допомогою селектора типу файлу джерела, розташованого ліворуч від інструмента.
Виберіть файли
Вибравши правильний інструмент і формати, ви можете натиснути кнопку «Завантажити файли», щоб вибрати файли зображень для конвертації. Ви також можете перетягнути до 50 файлів на інструмент, якщо хочете. Ви можете змінити порядок вибраних файлів, перетягнувши їхні мініатюри на екрані інструментів. Кожна мініатюра також має кнопки повороту вліво та вправо, щоб ви могли правильно орієнтувати зображення перед завантаженням.
Ось приклад інструмента «Об’єднати» з чотирма файлами JPG, вибраними та готовими до перетворення на редагований файл PDF:
Праворуч від інструмента є опція OCR ; за замовчуванням це не ввімкнено. Якщо ваші файли було надіслано з вимкненою цією опцією, документ, який буде створено, просто міститиме вбудовані копії ваших файлів зображень. Для цілей цього підручника та для демонстрації вилучення звичайного тексту, яке забезпечується параметром OCR, це має бути ввімкнено.
Після вибору ваших файлів і змінення будь-яких налаштувань натисніть кнопку «Об’єднати», і інструмент оптичного розпізнавання символів перетворить ваші файли зображень на чистий звичайний текст, який можна редагувати.
Ось приклад двох файлів, надісланих до інструменту «Об’єднати», остаточне зображення містить звичайний редагований текст, витягнутий із першого зображення та збережений як документ PDF:
Додати коментар
Без коментарів
Будьте першим, хто залишить коментар до цієї статті.