Een afbeelding converteren naar PDF met behulp van OCR
In deze zelfstudie doorlopen we de stappen die nodig zijn om het gerasterde tekst inhoud in een afbeeldingsbestand, zoals JPG of PNG en converteer deze naar gewone, bewerkbare tekst die vervolgens kan worden gebruikt in populaire documentformaten zoals PDF en DOCX.
Wat is OCR?
OCR, of Optical Character Recognition, is het proces waarbij tekst die in een rasterafbeelding is opgeslagen, wordt geconverteerd naar tekst die kan worden bewerkt in een op tekst gebaseerd document, zoals een DOCX-bestand. OCR werkt door de pixels in het afbeeldingsbestand te analyseren, op zoek naar pixelpatronen die lijken op geschreven teksttekens. Voor een gedetailleerde uitleg van OCR, zie dit geweldige artikel dat verklaart het goed.
Wat is er mis met tekst die is opgeslagen in een afbeeldingsbestand?
Alleen beeldbewerkingssoftware kan een tekstbevattend afbeeldingsbestand wijzigen, wat complex kan worden als het afbeeldingsformaat geen lagen ondersteunt. Bovendien is de tekst niet doorzoekbaar in het afbeeldingsbestand, waardoor het moeilijk, zo niet onmogelijk wordt om bestanden te lokaliseren op basis van een zoekopdracht op trefwoord. OCR is een ideale kandidaat om een afbeeldingsbestand, zoals een scan van een fysiek document, naar een documentformaat te converteren als het voornamelijk tekst bevat.
Selecteer uw gereedschap
Nu we klaar zijn om enkele afbeeldingen naar een bewerkbaar documentformaat te converteren, moet u de juiste tool kiezen die bij uw behoeften past. Onze tools kunnen converteren naar de volgende drie documentbestandstypen (links naar deze tools worden geopend in een nieuw browsertabblad ):
Nadat u de juiste tool heeft geselecteerd, kunt u vervolgens het type afbeelding selecteren dat u uploadt. Voor JPG-bestanden is dit standaard het geselecteerde bronbestandsformaat. U kunt dit wijzigen door de bestandsbronbestandstypekiezer aan de linkerkant van de tool te gebruiken.
Selecteer uw bestanden
Met de juiste tool en formaten geselecteerd, kunt u op de knop "Bestanden uploaden" klikken om uw afbeeldingsbestanden te selecteren die u wilt converteren. U kunt desgewenst ook maximaal 50 bestanden naar de tool slepen en neerzetten. U kunt de geselecteerde bestanden opnieuw ordenen door hun miniaturen binnen de toolweergave te slepen. Elke miniatuur heeft ook knoppen voor links en rechts draaien, zodat u uw afbeeldingen correct kunt oriënteren voordat u ze uploadt.
Hier is een voorbeeld van het samenvoeggereedschap met vier JPG-bestanden geselecteerd en klaar om te worden geconverteerd naar een bewerkbaar PDF-bestand:
Aan de rechterkant van de tool bevindt zich de OCR- optie; standaard is dit niet ingeschakeld. Als uw bestanden werden verzonden terwijl deze optie was uitgeschakeld, zou het document dat zou worden gemaakt eenvoudigweg ingesloten kopieën van uw afbeeldingsbestanden bevatten. Voor de doeleinden van deze zelfstudie en om de extractie van platte tekst te demonstreren die door de OCR- instelling wordt geboden, moet dit zijn ingeschakeld.
Zodra uw bestanden zijn geselecteerd en eventuele instellingen zijn gewijzigd, klikt u op de knop "Samenvoegen" en de OCR-tool converteert uw afbeeldingsbestanden naar schone, duidelijke, bewerkbare tekst.
Hier is een voorbeeld van twee bestanden die naar de samenvoegtool zijn verzonden. De uiteindelijke afbeelding bevat de gewone bewerkbare tekst die uit de eerste afbeelding is gehaald en is opgeslagen als een PDF-document:
Voeg een reactie toe
Geen commentaar
Wees de eerste die op dit artikel reageert.