Comment convertir une image en PDF à l'aide de l'OCR
Dans ce didacticiel, nous passerons en revue les étapes nécessaires pour extraire le texte rastérisé contenu contenu dans un fichier image, tel que JPG ou PNG et convertissez-le en texte brut et modifiable qui peut ensuite être utilisé dans des formats de documents populaires tels que PDF et DOCX.
Qu’est-ce que l’OCR ?
L'OCR, ou reconnaissance optique de caractères, est le processus de conversion du texte stocké dans une image raster en texte pouvant être modifié dans un document texte, tel qu'un fichier DOCX. L'OCR fonctionne en analysant les pixels présents dans le fichier image, à la recherche de motifs de pixels qui ressemblent à des caractères de texte écrit. Pour une explication détaillée de l'OCR, veuillez consulter cet excellent article ça l'explique bien.
Quel est le problème avec le texte stocké dans un fichier image ?
Seul un logiciel de retouche d'image peut modifier un fichier image contenant du texte, ce qui peut devenir complexe si le format d'image ne prend pas en charge les calques. De plus, le texte ne peut pas être recherché dans le fichier image, ce qui rend difficile, voire impossible, la localisation des fichiers sur la base d'une recherche par mot clé. L'OCR est un candidat idéal pour convertir un fichier image, tel qu'une numérisation d'un document physique, en un format de document s'il contient principalement du texte.
Sélectionnez votre outil
Maintenant que nous sommes prêts à commencer à convertir certaines images en un format de document modifiable, vous devrez choisir l'outil adapté à vos besoins. Nos outils peuvent convertir les trois types de fichiers de documents suivants (les liens vers ces outils s'ouvriront dans un nouvel onglet de navigateur ) :
Une fois que vous avez sélectionné le bon outil, vous pouvez ensuite sélectionner le type d'image que vous téléchargez. Par défaut, pour les fichiers JPG, ce sera le format de fichier source sélectionné. Vous pouvez modifier cela en utilisant le sélecteur de type de fichier source situé sur le côté gauche de l'outil.
Sélectionnez vos fichiers
Avec le bon outil et les bons formats sélectionnés, vous pouvez cliquer sur le bouton « Télécharger des fichiers » pour sélectionner vos fichiers image à convertir. Vous pouvez également glisser et déposer jusqu'à 50 fichiers sur l'outil si vous préférez. Vous pouvez réorganiser les fichiers sélectionnés en faisant glisser leurs vignettes dans l'affichage de l'outil. Chaque vignette comporte également des boutons de rotation gauche et droite pour vous permettre d'orienter correctement vos images avant le téléchargement.
Voici un exemple de l'outil Fusion avec quatre fichiers JPG sélectionnés et prêts à être convertis en un fichier PDF modifiable :
Sur le côté droit de l'outil se trouve l'option OCR ; par défaut, ceci n'est pas activé. Si vos fichiers étaient soumis avec cette option désactivée, le document qui serait créé contiendrait simplement des copies intégrées de vos fichiers image. Pour les besoins de ce didacticiel et pour démontrer l'extraction de texte brut fournie par le paramètre OCR, cela doit être activé.
Une fois vos fichiers sélectionnés et tous les paramètres modifiés, cliquez sur le bouton "Fusionner" et l'outil OCR convertira vos fichiers image en texte propre, clair et modifiable.
Voici un exemple de deux fichiers qui ont été soumis à l'outil de fusion. L'image finale contient le texte brut modifiable qui a été extrait de la première image et enregistré en tant que document PDF :
Ajouter un commentaire
Sans commentaires
Soyez le premier à commenter cet article.