Как преобразовать изображение в PDF с помощью OCR
В этом уроке мы рассмотрим шаги, необходимые для извлечения растеризованный текст содержимое, содержащееся в файле изображения, например JPG или PNG и преобразовать его в простой редактируемый текст, который затем можно будет использовать в популярных форматах документов, таких как PDF и ДОКС.
Что такое ОКР?
OCR, или оптическое распознавание символов, — это процесс преобразования текста, хранящегося в растровом изображении, в текст, который можно редактировать в текстовом документе, например в файле DOCX. OCR работает путем анализа пикселей, присутствующих в файле изображения, в поисках шаблонов пикселей, напоминающих письменные текстовые символы. Подробное объяснение OCR можно найти в этом замечательном статья это хорошо объясняет.
Что не так с текстом, хранящимся в файле изображения?
Только программное обеспечение для редактирования изображений может изменить текстовый файл изображения, который может стать сложным, если формат изображения не поддерживает слои. Кроме того, текст в файле изображения не доступен для поиска, что затрудняет, а то и делает невозможным поиск файлов с помощью поиска по ключевым словам. OCR — идеальный кандидат для преобразования файла изображения, например отсканированного физического документа, в формат документа, если он в основном содержит текст.
Выберите свой инструмент
Теперь, когда мы готовы начать преобразование некоторых изображений в редактируемый формат документа, вам нужно будет выбрать правильный инструмент, соответствующий вашим потребностям. Наши инструменты могут конвертировать документы в следующие три типа файлов (ссылки на эти инструменты откроются в новой вкладке браузера ):
После того, как вы выбрали правильный инструмент, вы можете выбрать тип загружаемого изображения. По умолчанию для файлов JPG это будет выбранный формат исходного файла. Вы можете изменить это, используя переключатель типа исходного файла, расположенный в левой части инструмента.
Выберите файлы
Выбрав правильный инструмент и форматы, вы можете нажать кнопку «Загрузить файлы», чтобы выбрать файлы изображений для конвертации. При желании вы также можете перетащить в инструмент до 50 файлов. Вы можете изменить порядок выбранных файлов, перетаскивая их миниатюры на дисплее инструмента. Каждая миниатюра также имеет кнопки поворота влево и вправо, позволяющие правильно ориентировать изображения перед загрузкой.
Вот пример инструмента «Объединить» с четырьмя выбранными файлами JPG, готовыми к преобразованию в редактируемый файл PDF:
Справа от инструмента находится опция OCR ; по умолчанию это не включено. Если ваши файлы были отправлены с отключенной этой опцией, создаваемый документ будет просто содержать встроенные копии ваших файлов изображений. Для целей данного руководства и для демонстрации извлечения обычного текста, обеспечиваемого настройкой OCR, эту опцию следует включить.
После того, как ваши файлы будут выбраны и все настройки изменены, нажмите кнопку «Объединить», и инструмент OCR преобразует ваши файлы изображений в чистый, простой, редактируемый текст.
Вот пример двух файлов, отправленных в инструмент «Объединить». Окончательное изображение содержит простой редактируемый текст, извлеченный из первого изображения и сохраненный как документ PDF:
Добавить комментарий
Без комментариев
Будьте первым, кто оставит свой комментарий.