Como converter uma imagem para PDF usando OCR
Neste tutorial, seguiremos as etapas necessárias para extrair o texto rasterizado conteúdo contido em um arquivo de imagem, como JPG ou PNG e convertê-lo em texto simples e editável que pode ser usado em formatos de documentos populares, como PDF e DOCX.
O que é OCR?
OCR, ou reconhecimento óptico de caracteres, é o processo de conversão de texto armazenado em uma imagem raster em texto que pode ser editado em um documento baseado em texto, como um arquivo DOCX. OCR funciona analisando os pixels presentes no arquivo de imagem, procurando padrões de pixels que se assemelhem a caracteres de texto escrito. Para uma explicação detalhada do OCR, consulte este excelente artigo isso explica bem.
O que há de errado com o texto armazenado em um arquivo de imagem?
Somente software de edição de imagem pode alterar um arquivo de imagem contendo texto, o que pode se tornar complexo se o formato da imagem não suportar camadas. Além disso, o texto não pode ser pesquisado no arquivo de imagem, tornando difícil, se não impossível, localizar arquivos com base em uma pesquisa por palavra-chave. OCR é um candidato ideal para converter um arquivo de imagem, como a digitalização de um documento físico, em um formato de documento se ele contiver principalmente texto.
Selecione sua ferramenta
Agora que estamos prontos para começar a converter algumas imagens em um formato de documento editável, você precisará escolher a ferramenta correta que atenda às suas necessidades. Nossas ferramentas podem ser convertidas nos três tipos de arquivo de documento a seguir (os links para essas ferramentas serão abertos em uma nova guia do navegador ):
Depois de selecionar a ferramenta correta, você poderá selecionar o tipo de imagem que deseja enviar. Por padrão, para arquivos JPG, este será o formato de arquivo de origem selecionado. Você pode alterar isso usando o seletor de tipo de arquivo de origem do arquivo localizado no lado esquerdo da ferramenta.
Selecione seus arquivos
Com a ferramenta e os formatos corretos selecionados, você pode clicar no botão "Carregar arquivos" para selecionar os arquivos de imagem a serem convertidos. Você também pode arrastar e soltar até 50 arquivos na ferramenta, se preferir. Você pode reordenar os arquivos selecionados arrastando suas miniaturas na exibição da ferramenta. Cada miniatura também possui botões de rotação para a esquerda e para a direita para permitir que você oriente suas imagens corretamente antes do upload.
Aqui está um exemplo da ferramenta Merge com quatro arquivos JPG selecionados e prontos para serem convertidos em um arquivo editável PDF:
No lado direito da ferramenta está a opção OCR ; por padrão, isso não está habilitado. Se seus arquivos foram enviados com esta opção desabilitada, o documento que seria criado conteria simplesmente cópias incorporadas de seus arquivos de imagem. Para os fins deste tutorial e para demonstrar a extração de texto simples fornecida pela configuração de OCR, esta opção deve estar habilitada.
Depois que seus arquivos forem selecionados e todas as configurações alteradas, clique no botão "Mesclar" e a ferramenta OCR converterá seus arquivos de imagem em texto limpo, simples e editável.
Aqui está um exemplo de dois arquivos que foram enviados para a ferramenta Merge, a imagem final contém o texto simples editável que foi extraído da primeira imagem e salvo como um documento PDF:
Adicione um comentário
Sem comentários
Seja o primeiro a comentar este artigo.