Kuvan muuntaminen PDF:ksi tekstintunnistusta käyttämällä
Tässä opetusohjelmassa käymme läpi vaiheet, jotka tarvitaan purkamiseen rasteroitua tekstiä kuvatiedoston sisältämä sisältö, kuten JPG tai PNG ja muuntaa sen tavalliseksi, muokattavaksi tekstiksi, jota voidaan sitten käyttää suosituissa asiakirjamuodoissa, kuten PDF ja DOCX.
Mikä on OCR?
OCR eli optinen merkintunnistus on prosessi, jossa rasterikuvaan tallennettu teksti muunnetaan tekstiksi, jota voidaan muokata tekstipohjaisessa asiakirjassa, kuten DOCX-tiedostossa. Tekstintunnistus toimii analysoimalla kuvatiedostossa olevia pikseleitä ja etsimällä pikselikuvioita, jotka muistuttavat kirjoitetun tekstin merkkejä. Yksityiskohtainen selitys OCR:stä löytyy tästä upeasta artikla se selittää sen hyvin.
Mitä vikaa kuvatiedostoon tallennetussa tekstissä on?
Vain kuvankäsittelyohjelmisto voi muuttaa tekstiä sisältävää kuvatiedostoa, josta voi tulla monimutkainen, jos kuvamuoto ei tue tasoja. Tämän lisäksi teksti ei ole haettavissa kuvatiedostosta, mikä tekee tiedostojen löytämisestä avainsanahaun perusteella vaikeaa, ellei mahdotonta. Tekstintunnistus on ihanteellinen vaihtoehto kuvatiedoston, kuten fyysisen asiakirjan skannauksen, muuntamiseen asiakirjamuotoon, jos se sisältää pääasiassa tekstiä.
Valitse työkalusi
Nyt kun olemme valmiita aloittamaan joidenkin kuvien muuntamisen muokattavaan asiakirjamuotoon, sinun on valittava oikea työkalu, joka sopii tarpeisiisi. Työkalumme voivat muuntaa seuraavaan kolmeen asiakirjatiedostotyyppiin (linkit näihin työkaluihin avautuvat uudelle selaimen välilehdelle ):
Kun olet valinnut oikean työkalun, voit valita ladattavan kuvan tyypin. Oletuksena JPG tiedostolle tämä on valittu lähdetiedostomuoto. Voit muuttaa tätä käyttämällä työkalun vasemmalla puolella olevaa tiedostolähdetiedostotyypin valitsinta.
Valitse tiedostosi
Kun oikea työkalu ja muodot on valittu, voit napsauttaa "Lähetä tiedostot" -painiketta valitaksesi muunnettavat kuvatiedostot. Voit myös vetää ja pudottaa jopa 50 tiedostoa työkaluun, jos haluat. Voit järjestää valitut tiedostot uudelleen vetämällä niiden pikkukuvat työkalunäytössä. Jokaisessa pikkukuvassa on myös vasemmalle ja oikealle kiertopainikkeet, joiden avulla voit suunnata kuvat oikein ennen lataamista.
Tässä on esimerkki yhdistämistyökalusta, jossa on neljä JPG tiedostoa valittuna ja valmis muunnettavaksi muokattavaksi PDF tiedostoksi:
Työkalun oikealla puolella on OCR- vaihtoehto; oletusarvoisesti tämä ei ole käytössä. Jos tiedostosi lähetettiin tämän asetuksen ollessa pois käytöstä, luotava asiakirja sisältäisi vain upotetut kopiot kuvatiedostoistasi. Tämän opetusohjelman tarkoituksia varten ja OCR- asetuksen tarjoaman pelkkää tekstin poimintaa varten tämän tulee olla käytössä.
Kun tiedostosi on valittu ja asetuksia muutettu, napsauta "Yhdistä"-painiketta, jolloin OCR-työkalu muuntaa kuvatiedostot puhtaaksi, tavalliseksi, muokattavaksi tekstiksi.
Tässä on esimerkki kahdesta tiedostosta, jotka on lähetetty yhdistämistyökaluun. Lopullinen kuva sisältää pelkkää muokattavaa tekstiä, joka on purettu ensimmäisestä kuvasta ja tallennettu PDF-dokumentiksi:
Lisää kommentti
Ei kommentteja
Ole ensimmäinen, joka kommentoi tätä artikkelia.