Cách chuyển đổi hình ảnh thành PDF bằng OCR
Trong hướng dẫn này, chúng ta sẽ thực hiện các bước cần thiết để trích xuất văn bản được rasterized nội dung chứa trong một tập tin hình ảnh, chẳng hạn như JPG hoặc PNG và chuyển đổi văn bản này thành văn bản thuần túy, có thể chỉnh sửa, sau đó có thể được sử dụng trong các định dạng tài liệu phổ biến như PDF và DOCX.
OCR là gì?
OCR, hay Nhận dạng ký tự quang học, là quá trình chuyển đổi văn bản được lưu trữ trong hình ảnh raster thành văn bản có thể chỉnh sửa trong tài liệu dựa trên văn bản, chẳng hạn như tệp DOCX. OCR hoạt động bằng cách phân tích các pixel có trong tệp hình ảnh, tìm kiếm các mẫu pixel giống với các ký tự văn bản được viết. Để được giải thích chi tiết về OCR, vui lòng xem phần tuyệt vời này bài báo điều đó giải thích nó tốt.
Có vấn đề gì với văn bản được lưu trữ trong tệp hình ảnh?
Chỉ phần mềm chỉnh sửa hình ảnh mới có thể thay đổi tệp hình ảnh chứa văn bản, điều này có thể trở nên phức tạp nếu định dạng hình ảnh không hỗ trợ các lớp. Ngoài ra, văn bản không thể tìm kiếm được trong tệp hình ảnh, gây khó khăn, nếu không muốn nói là không thể xác định vị trí tệp dựa trên tìm kiếm từ khóa. OCR là ứng cử viên lý tưởng để chuyển đổi tệp hình ảnh, chẳng hạn như bản quét tài liệu vật lý, sang định dạng tài liệu nếu nó chủ yếu chứa văn bản.
Chọn công cụ của bạn
Bây giờ chúng ta đã sẵn sàng bắt đầu chuyển đổi một số hình ảnh sang định dạng tài liệu có thể chỉnh sửa, bạn sẽ cần chọn đúng công cụ phù hợp với nhu cầu của mình. Các công cụ của chúng tôi có thể chuyển đổi sang ba loại tệp tài liệu sau (các liên kết đến các công cụ này sẽ mở trong tab trình duyệt mới ):
Khi bạn đã chọn đúng công cụ, bạn có thể chọn loại hình ảnh bạn đang tải lên. Theo mặc định, đối với tệp JPG, đây sẽ là định dạng tệp nguồn được chọn. Bạn có thể thay đổi điều này bằng cách sử dụng bộ chọn loại tệp nguồn tệp nằm ở phía bên trái của công cụ.
Chọn tập tin của bạn
Với công cụ và định dạng chính xác đã chọn, bạn có thể nhấp vào nút "Tải tệp lên" để chọn tệp hình ảnh cần chuyển đổi. Bạn cũng có thể kéo và thả tối đa 50 tệp vào công cụ nếu muốn. Bạn có thể sắp xếp lại các tệp đã chọn bằng cách kéo hình thu nhỏ của chúng trong màn hình công cụ. Mỗi hình thu nhỏ cũng có các nút xoay trái và phải để cho phép bạn định hướng hình ảnh của mình một cách chính xác trước khi tải lên.
Dưới đây là ví dụ về công cụ Hợp nhất với bốn tệp JPG được chọn và sẵn sàng chuyển đổi thành tệp PDF có thể chỉnh sửa:
Ở bên phải của công cụ là tùy chọn OCR ; theo mặc định, tính năng này không được bật. Nếu tệp của bạn được gửi với tùy chọn này bị tắt thì tài liệu được tạo sẽ chỉ chứa các bản sao được nhúng của tệp hình ảnh của bạn. Vì mục đích của hướng dẫn này và để minh họa tính năng trích xuất văn bản thuần túy do cài đặt OCR cung cấp, tính năng này phải được bật.
Khi các tệp của bạn đã được chọn và bất kỳ cài đặt nào đã thay đổi, hãy nhấp vào nút "Hợp nhất" và công cụ OCR sẽ chuyển đổi các tệp hình ảnh của bạn thành văn bản rõ ràng, đơn giản và có thể chỉnh sửa.
Dưới đây là ví dụ về hai tệp đã được gửi tới công cụ Hợp nhất, hình ảnh cuối cùng chứa văn bản đơn giản có thể chỉnh sửa được trích xuất từ hình ảnh đầu tiên và được lưu dưới dạng tài liệu PDF:
Thêm một bình luận
Miễn bình luận
Hãy là người đầu tiên nhận xét về bài viết này.