Sådan konverteres et billede til PDF ved hjælp af OCR
I denne tutorial vil vi gennemgå de nødvendige trin for at udtrække rasteriseret tekst indhold indeholdt i en billedfil, som f.eks JPG eller PNG og konverter dette til almindelig, redigerbar tekst, der derefter kan bruges i populære dokumentformater som f.eks PDF og DOCX.
Hvad er OCR?
OCR, eller Optical Character Recognition, er processen med at konvertere tekst gemt i et rasterbillede til tekst, der kan redigeres i et tekstbaseret dokument, såsom en DOCX-fil. OCR fungerer ved at analysere de pixels, der er til stede i billedfilen, og lede efter pixelmønstre, der ligner skrevne teksttegn. For en detaljeret forklaring af OCR, se venligst denne fantastiske artikel det forklarer det godt.
Hvad er der galt med tekst gemt i en billedfil?
Kun billedredigeringssoftware kan ændre en tekstholdig billedfil, som kan blive kompleks, hvis billedformatet ikke understøtter lag. Oven i dette er teksten ikke søgbar i billedfilen, hvilket gør det svært, hvis ikke umuligt, at finde filer baseret på en søgeordssøgning. OCR er en ideel kandidat til at konvertere en billedfil, såsom en scanning af et fysisk dokument, til et dokumentformat, hvis det primært indeholder tekst.
Vælg dit værktøj
Nu hvor vi er klar til at begynde at konvertere nogle billeder til et redigerbart dokumentformat, skal du vælge det rigtige værktøj, der passer til dine behov. Vores værktøjer kan konvertere til følgende tre dokumentfiltyper (links til disse værktøjer åbnes i en ny browserfane ):
Når du har valgt det rigtige værktøj, kan du derefter vælge den type billede, du uploader. For JPG-filer vil dette som standard være det valgte kildefilformat. Du kan ændre dette ved at bruge filkildefiltypevælgeren placeret i venstre side af værktøjet.
Vælg dine filer
Med det korrekte værktøj og de korrekte formater valgt, kan du klikke på knappen "Upload filer" for at vælge dine billedfiler, der skal konverteres. Du kan også trække og slippe op til 50 filer på værktøjet, hvis du foretrækker det. Du kan omarrangere de valgte filer ved at trække deres thumbnails i værktøjsdisplayet. Hvert miniaturebillede har også rotationsknapper til venstre og højre, så du kan orientere dine billeder korrekt før upload.
Her er et eksempel på fletværktøjet med fire JPG filer valgt og klar til at blive konverteret til en redigerbar PDF fil:
Til højre for værktøjet er OCR- indstillingen; som standard er dette ikke aktiveret. Hvis dine filer blev sendt med denne indstilling deaktiveret, ville det dokument, der ville blive oprettet, blot indeholde indlejrede kopier af dine billedfiler. Til formålet med denne øvelse og for at demonstrere den almindelige tekstudtrækning, der leveres af OCR- indstillingen, bør dette være aktiveret.
Når dine filer er blevet valgt og eventuelle indstillinger ændret, skal du klikke på knappen "Merge", og OCR-værktøjet vil konvertere dine billedfiler til ren, almindelig, redigerbar tekst.
Her er et eksempel på to filer, der er blevet sendt til fletværktøjet, det endelige billede indeholder den almindelige redigerbare tekst, der blev udtrukket fra det første billede og gemt som et PDF dokument:
Tilføj en kommentar
Ingen kommentarer
Vær den første til at kommentere denne artikel.