Cách chuyển đổi hình ảnh thành PDF bằng OCR

Trong hướng dẫn này, chúng ta sẽ thực hiện các bước cần thiết để trích xuất văn bản được rasterized nội dung chứa trong một tập tin hình ảnh, chẳng hạn như JPG hoặc PNG và chuyển đổi văn bản này thành văn bản thuần túy, có thể chỉnh sửa, sau đó có thể được sử dụng trong các định dạng tài liệu phổ biến như PDF và DOCX.

OCR là gì?

OCR, hay Nhận dạng ký tự quang học, là quá trình chuyển đổi văn bản được lưu trữ trong hình ảnh raster thành văn bản có thể chỉnh sửa trong tài liệu dựa trên văn bản, chẳng hạn như tệp DOCX. OCR hoạt động bằng cách phân tích các pixel có trong tệp hình ảnh, tìm kiếm các mẫu pixel giống với các ký tự văn bản được viết. Để được giải thích chi tiết về OCR, vui lòng xem phần tuyệt vời này bài báo điều đó giải thích nó tốt.

Có vấn đề gì với văn bản được lưu trữ trong tệp hình ảnh?

Chỉ phần mềm chỉnh sửa hình ảnh mới có thể thay đổi tệp hình ảnh chứa văn bản, điều này có thể trở nên phức tạp nếu định dạng hình ảnh không hỗ trợ các lớp. Ngoài ra, văn bản không thể tìm kiếm được trong tệp hình ảnh, gây khó khăn, nếu không muốn nói là không thể xác định vị trí tệp dựa trên tìm kiếm từ khóa. OCR là ứng cử viên lý tưởng để chuyển đổi tệp hình ảnh, chẳng hạn như bản quét tài liệu vật lý, sang định dạng tài liệu nếu nó chủ yếu chứa văn bản.

Chọn công cụ của bạn

Bây giờ chúng ta đã sẵn sàng bắt đầu chuyển đổi một số hình ảnh sang định dạng tài liệu có thể chỉnh sửa, bạn sẽ cần chọn đúng công cụ phù hợp với nhu cầu của mình. Các công cụ của chúng tôi có thể chuyển đổi sang ba loại tệp tài liệu sau (các liên kết đến các công cụ này sẽ mở trong tab trình duyệt mới ):

Khi bạn đã chọn đúng công cụ, bạn có thể chọn loại hình ảnh bạn đang tải lên. Theo mặc định, đối với tệp JPG, đây sẽ là định dạng tệp nguồn được chọn. Bạn có thể thay đổi điều này bằng cách sử dụng bộ chọn loại tệp nguồn tệp nằm ở phía bên trái của công cụ.

Chọn tập tin của bạn

Với công cụ và định dạng chính xác đã chọn, bạn có thể nhấp vào nút "Tải tệp lên" để chọn tệp hình ảnh cần chuyển đổi. Bạn cũng có thể kéo và thả tối đa 50 tệp vào công cụ nếu muốn. Bạn có thể sắp xếp lại các tệp đã chọn bằng cách kéo hình thu nhỏ của chúng trong màn hình công cụ. Mỗi hình thu nhỏ cũng có các nút xoay trái và phải để cho phép bạn định hướng hình ảnh của mình một cách chính xác trước khi tải lên.

Dưới đây là ví dụ về công cụ Hợp nhất với bốn tệp JPG được chọn và sẵn sàng chuyển đổi thành tệp PDF có thể chỉnh sửa:

Ở bên phải của công cụ là tùy chọn OCR ; theo mặc định, tính năng này không được bật. Nếu tệp của bạn được gửi với tùy chọn này bị tắt thì tài liệu được tạo sẽ chỉ chứa các bản sao được nhúng của tệp hình ảnh của bạn. Vì mục đích của hướng dẫn này và để minh họa tính năng trích xuất văn bản thuần túy do cài đặt OCR cung cấp, tính năng này phải được bật.

Khi các tệp của bạn đã được chọn và bất kỳ cài đặt nào đã thay đổi, hãy nhấp vào nút "Hợp nhất" và công cụ OCR sẽ chuyển đổi các tệp hình ảnh của bạn thành văn bản rõ ràng, đơn giản và có thể chỉnh sửa.

Dưới đây là ví dụ về hai tệp đã được gửi tới công cụ Hợp nhất, hình ảnh cuối cùng chứa văn bản đơn giản có thể chỉnh sửa được trích xuất từ hình ảnh đầu tiên và được lưu dưới dạng tài liệu PDF:

Quá trình quét được chuyển đổi thành văn bản thuần túy thông qua OCR

Nhận xét

Hủy bỏ Gửi

Chọn trò chơi

Nếu bạn đang đợi các tập tin của mình được chuyển đổi, đây là một số trò chơi để chơi. Không cần tải xuống hoặc cài đặt; tất cả các trò chơi sẽ mở trong tab trình duyệt mới.

Tải xuống đã hết hạn

Các tệp tải xuống đã hết hạn; vui lòng thử lại. Chúng tôi xóa các tệp được chuyển đổi bằng công cụ của chúng tôi sau 15 phút, vì vậy vui lòng tải xuống tệp của bạn trước khi chúng hết hạn.

Đóng

Lựa chọn các phương án

Các trường sau đây là bắt buộc để xử lý hình ảnh của bạn.

Chiều rộng (px)*

Chiều cao (px)*

Hủy bỏ Tiếp tục

Bộ chuyển đổi tập tin

Đóng

Cách chuyển đổi hình ảnh thành PDF bằng OCR

OCR là gì?

Có vấn đề gì với văn bản được lưu trữ trong tệp hình ảnh?

Chọn công cụ của bạn

Chọn tập tin của bạn

Thêm một bình luận

Miễn bình luận

HƯỚNG DẪN MỚI NHẤT

Đã nhận được phản hồi