Cómo convertir una imagen a PDF usando OCR
En este tutorial, seguiremos los pasos necesarios para extraer el texto rasterizado contenido contenido dentro de un archivo de imagen, como JPG o PNG y conviértalo en texto plano y editable que luego pueda usarse en formatos de documentos populares, como PDF y DOCX.
¿Qué es el OCR?
OCR, o reconocimiento óptico de caracteres, es el proceso de convertir texto almacenado dentro de una imagen rasterizada en texto que se puede editar dentro de un documento basado en texto, como un archivo DOCX. El OCR funciona analizando los píxeles presentes en el archivo de imagen, buscando patrones de píxeles que se asemejen a caracteres de texto escrito. Para obtener una explicación detallada de OCR, consulte este fantástico artículo eso lo explica bien.
¿Qué tiene de malo el texto almacenado en un archivo de imagen?
Sólo el software de edición de imágenes puede modificar un archivo de imagen que contiene texto, lo que puede volverse complejo si el formato de la imagen no admite capas. Además de esto, no se puede buscar el texto dentro del archivo de imagen, lo que hace difícil, si no imposible, localizar archivos basándose en una búsqueda de palabras clave. OCR es un candidato ideal para convertir un archivo de imagen, como un escaneo de un documento físico, a un formato de documento si contiene principalmente texto.
Seleccione su herramienta
Ahora que estamos listos para comenzar a convertir algunas imágenes a un formato de documento editable, deberá elegir la herramienta correcta que se adapte a sus necesidades. Nuestras herramientas pueden convertir a los siguientes tres tipos de archivos de documentos (los enlaces a estas herramientas se abrirán en una nueva pestaña del navegador ):
Una vez que haya seleccionado la herramienta correcta, podrá seleccionar el tipo de imagen que está cargando. De forma predeterminada, para archivos JPG, este será el formato de archivo de origen seleccionado. Puede cambiar esto utilizando el selector de tipo de archivo fuente ubicado en el lado izquierdo de la herramienta.
Seleccione sus archivos
Con la herramienta y los formatos correctos seleccionados, puede hacer clic en el botón "Cargar archivos" para seleccionar los archivos de imagen que desea convertir. También puedes arrastrar y soltar hasta 50 archivos en la herramienta si lo prefieres. Puede reordenar los archivos seleccionados arrastrando sus miniaturas dentro de la pantalla de herramientas. Cada miniatura también tiene botones para girar hacia la izquierda y hacia la derecha para permitirle orientar las imágenes correctamente antes de cargarlas.
A continuación se muestra un ejemplo de la herramienta Fusionar con cuatro archivos JPG seleccionados y listos para convertirse en un archivo editable PDF:
Al lado derecho de la herramienta está la opción OCR ; De forma predeterminada, esto no está habilitado. Si sus archivos se enviaron con esta opción desactivada, el documento que se crearía simplemente contendría copias incrustadas de sus archivos de imagen. Para los fines de este tutorial y para demostrar la extracción de texto sin formato proporcionada por la configuración de OCR, esto debe estar habilitado.
Una vez que haya seleccionado sus archivos y haya cambiado cualquier configuración, haga clic en el botón "Fusionar" y la herramienta OCR convertirá sus archivos de imagen en texto limpio, sin formato y editable.
A continuación se muestra un ejemplo de dos archivos que se enviaron a la herramienta Combinar. La imagen final contiene el texto editable sin formato que se extrajo de la primera imagen y se guardó como un documento PDF:
Añadir un comentario
Sin comentarios
Sé el primero en comentar este artículo.