Jak převést obrázek na PDF pomocí OCR
V tomto tutoriálu projdeme kroky potřebné k extrahování souboru rastrovaný text obsah obsažený v obrazovém souboru, jako je např JPG nebo PNG a převést jej na prostý, upravitelný text, který pak lze použít v oblíbených formátech dokumentů, jako jsou např PDF a DOCX.
Co je OCR?
OCR neboli optické rozpoznávání znaků je proces převodu textu uloženého v rastrovém obrázku na text, který lze upravovat v textovém dokumentu, jako je soubor DOCX. OCR funguje tak, že analyzuje pixely přítomné v souboru obrázku a hledá vzory pixelů, které se podobají psaným textovým znakům. Podrobné vysvětlení OCR naleznete v tomto skvělém článek tím se to dobře vysvětluje.
Co je špatného na textu uloženém v souboru obrázku?
Pouze software pro úpravu obrázků může změnit soubor obrázku obsahující text, který se může stát složitým, pokud formát obrázku nepodporuje vrstvy. Kromě toho není možné text v souboru obrázku prohledávat, takže je obtížné, ne-li nemožné, najít soubory na základě vyhledávání klíčových slov. OCR je ideálním kandidátem pro převod obrazového souboru, jako je naskenovaný fyzický dokument, do formátu dokumentu, pokud primárně obsahuje text.
Vyberte svůj nástroj
Nyní, když jsme připraveni začít převádět některé obrázky do upravitelného formátu dokumentu, budete si muset vybrat správný nástroj, který vyhovuje vašim potřebám. Naše nástroje lze převést na následující tři typy souborů dokumentů (odkazy na tyto nástroje se otevřou na nové kartě prohlížeče ):
Jakmile vyberete správný nástroj, můžete vybrat typ obrázku, který nahráváte. Ve výchozím nastavení to bude pro soubory JPG vybraný formát zdrojového souboru. Toto můžete změnit pomocí voliče typu zdrojového souboru umístěného na levé straně nástroje.
Vyberte své soubory
Se správným nástrojem a vybranými formáty můžete kliknout na tlačítko "Nahrát soubory" a vybrat soubory obrázků, které chcete převést. Pokud chcete, můžete do nástroje také přetáhnout až 50 souborů. Vybrané soubory můžete znovu uspořádat přetažením jejich miniatur na displeji nástroje. Každá miniatura má také tlačítka pro otáčení doleva a doprava, která vám umožní správně orientovat obrázky před odesláním.
Zde je příklad nástroje sloučení se čtyřmi vybranými soubory JPG a připravenými k převodu na upravitelný soubor PDF:
Na pravé straně nástroje je možnost OCR ; ve výchozím nastavení to není povoleno. Pokud byly vaše soubory odeslány s touto možností vypnutou, dokument, který by se vytvořil, by jednoduše obsahoval vložené kopie vašich obrazových souborů. Pro účely tohoto kurzu a pro demonstraci extrakce prostého textu poskytovaného nastavením OCR by to mělo být povoleno.
Jakmile jsou vaše soubory vybrány a všechna nastavení změněna, klikněte na tlačítko „Sloučit“ a nástroj OCR převede vaše soubory obrázků na čistý, prostý, upravitelný text.
Zde je příklad dvou souborů, které byly odeslány do nástroje sloučení, konečný obrázek obsahuje prostý upravitelný text, který byl extrahován z prvního obrázku a uložen jako dokument PDF:
Přidat komentář
Bez komentáře
Buďte první, kdo okomentuje tento článek.