Hur man konverterar en bild till PDF med OCR
I den här handledningen kommer vi att gå igenom de steg som behövs för att extrahera rastrerad text innehåll som finns i en bildfil, t.ex JPG eller PNG och konvertera detta till vanlig, redigerbar text som sedan kan användas inom populära dokumentformat som t.ex PDF och DOCX.
Vad är OCR?
OCR, eller Optical Character Recognition, är processen att konvertera text som lagras i en rasterbild till text som kan redigeras i ett textbaserat dokument, till exempel en DOCX-fil. OCR fungerar genom att analysera pixlarna som finns i bildfilen och leta efter pixelmönster som liknar skrivna texttecken. För en detaljerad förklaring av OCR, se denna fantastiska artikel det förklarar det bra.
Vad är det för fel på text som lagras i en bildfil?
Endast bildredigeringsprogram kan ändra en textinnehållande bildfil, som kan bli komplex om bildformatet inte stöder lager. Utöver detta är texten inte sökbar i bildfilen, vilket gör det svårt, för att inte säga omöjligt, att hitta filer baserat på en nyckelordssökning. OCR är en idealisk kandidat för att konvertera en bildfil, till exempel en skanning av ett fysiskt dokument, till ett dokumentformat om den huvudsakligen innehåller text.
Välj ditt verktyg
Nu när vi är redo att börja konvertera några bilder till ett redigerbart dokumentformat, måste du välja rätt verktyg som passar dina behov. Våra verktyg kan konvertera till följande tre dokumentfiltyper (länkar till dessa verktyg öppnas i en ny webbläsarflik ):
När du har valt rätt verktyg kan du sedan välja vilken typ av bild du laddar upp. Som standard, för JPG-filer, kommer detta att vara det valda källfilformatet. Du kan ändra detta genom att använda filtypsväljaren för filkällan som finns på verktygets vänstra sida.
Välj dina filer
Med rätt verktyg och format valda kan du klicka på knappen "Ladda upp filer" för att välja dina bildfiler att konvertera. Du kan också dra och släppa upp till 50 filer till verktyget om du föredrar det. Du kan ordna om de markerade filerna genom att dra deras miniatyrbilder i verktygsdisplayen. Varje miniatyr har också rotationsknappar till vänster och höger så att du kan orientera dina bilder korrekt innan de laddas upp.
Här är ett exempel på sammanslagningsverktyget med fyra JPG filer valda och redo att konverteras till en redigerbar PDF fil:
Till höger om verktyget finns OCR- alternativet; som standard är detta inte aktiverat. Om dina filer skickades in med det här alternativet inaktiverat, skulle dokumentet som skulle skapas helt enkelt innehålla inbäddade kopior av dina bildfiler. För syftet med denna handledning och för att demonstrera den klartextextraktion som tillhandahålls av OCR- inställningen, bör detta vara aktiverat.
När dina filer har valts och eventuella inställningar ändrats klickar du på knappen "Sammanfoga" så konverterar OCR-verktyget dina bildfiler till ren, vanlig, redigerbar text.
Här är ett exempel på två filer som har skickats till verktyget Merge, den slutliga bilden innehåller den vanliga redigerbara texten som extraherades från den första bilden och sparades som ett PDF dokument:
Lägg till en kommentar
Inga kommentarer
Var den första att kommentera den här artikeln.