OCR을 사용하여 이미지를 PDF으로 변환하는 방법

이 튜토리얼에서는 래스터화된 텍스트 다음과 같은 이미지 파일에 포함된 콘텐츠 JPG 또는 PNG 이를 일반 편집 가능한 텍스트로 변환하여 다음과 같은 널리 사용되는 문서 형식에서 사용할 수 있습니다. PDF 그리고 DOCX.

OCR이란 무엇입니까?

OCR (광학 문자 인식 )은 래스터 이미지에 저장된 텍스트를 DOCX 파일과 같은 텍스트 기반 문서 내에서 편집할 수 있는 텍스트로 변환하는 프로세스입니다. OCR은 이미지 파일 내에 있는 픽셀을 분석하여 작성된 텍스트 문자와 유사한 픽셀 패턴을 찾는 방식으로 작동합니다. OCR에 대한 자세한 설명은 이 훌륭한 문서를 참조하십시오. 기사 그건 잘 설명해준다.

이미지 파일에 저장된 텍스트에 어떤 문제가 있나요?

이미지 편집 소프트웨어만이 텍스트가 포함된 이미지 파일을 변경할 수 있습니다. 이미지 형식이 레이어를 지원하지 않으면 파일이 복잡해질 수 있습니다. 게다가 이미지 파일 내에서는 텍스트를 검색할 수 없으므로 키워드 검색을 기반으로 파일을 찾는 것이 불가능하지는 않더라도 어렵습니다. OCR은 실제 문서 스캔과 같은 이미지 파일에 주로 텍스트가 포함되어 있는 경우 문서 형식으로 변환하는 데 이상적인 방법입니다.

도구를 선택하세요

이제 일부 이미지를 편집 가능한 문서 형식으로 변환할 준비가 되었으므로 필요에 맞는 올바른 도구를 선택해야 합니다. 당사의 도구는 다음 세 가지 문서 파일 형식으로 변환할 수 있습니다 (이러한 도구에 대한 링크는 새 브라우저 탭에서 열립니다).

올바른 도구를 선택하고 나면 업로드할 이미지 유형을 선택할 수 있습니다. 기본적으로 JPG 파일의 경우 이것이 선택된 소스 파일 형식이 됩니다. 도구 왼쪽에 있는 파일 소스 파일 형식 선택기를 사용하여 이를 변경할 수 있습니다.

파일을 선택하세요

올바른 도구와 형식을 선택하면 "파일 업로드" 버튼을 클릭하여 변환할 이미지 파일을 선택할 수 있습니다. 원하는 경우 최대 50개의 파일을 도구에 끌어서 놓을 수도 있습니다. 도구 표시 내에서 해당 축소판을 드래그하여 선택한 파일의 순서를 변경할 수 있습니다. 각 썸네일에는 왼쪽 및 오른쪽 회전 버튼이 있어 업로드하기 전에 이미지의 방향을 올바르게 지정할 수 있습니다.

다음은 4개의 JPG 파일을 선택하고 편집 가능한 PDF 파일로 변환할 준비가 된 병합 도구의 예입니다.

도구 오른쪽에는 OCR 옵션이 있습니다. 기본적으로 이는 활성화되어 있지 않습니다. 이 옵션을 비활성화한 상태로 파일을 제출한 경우 생성되는 문서에는 이미지 파일의 포함된 복사본만 포함됩니다. 이 튜토리얼의 목적과 OCR 설정에서 제공하는 일반 텍스트 추출을 보여주기 위해 이 기능을 활성화해야 합니다.

파일을 선택하고 설정을 변경한 후 "병합" 버튼을 클릭하면 OCR 도구가 이미지 파일을 깨끗하고 일반 편집 가능한 텍스트로 변환합니다.

다음은 병합 도구에 제출된 두 파일의 예입니다. 최종 이미지에는 첫 번째 이미지에서 추출되어 PDF 문서로 저장된 일반 편집 가능한 텍스트가 포함되어 있습니다.