中国人 ▼
教程教程评论评论最新教程最新教程

如何使用 OCR 将图像转换为 PDF

在本教程中,我们将介绍提取栅格化文本图像文件中包含的内容,例如JPG或者PNG并将其转换为可编辑的纯文本,然后可以在流行的文档格式中使用,例如PDF和 DOCX。

什么是 OCR?

OCR,即光学字符识别,是将存储在光栅图像中的文本转换为可在文本文档(如 DOCX 文件)中编辑的文本的过程。OCR 的工作原理是分析图像文件中的像素,寻找类似于书面文本字符的像素模式。有关 OCR 的详细说明,请参阅这篇精彩的文章文章这很好地解释了这一点。

存储在图像文件中的文本有什么问题?

只有图像编辑软件才能修改包含文本的图像文件,如果图像格式不支持图层,则修改过程会变得很复杂。除此之外,文本在图像文件中不可搜索,因此很难(甚至不可能)通过关键字搜索找到文件。如果图像文件(例如物理文档的扫描件)主要包含文本,OCR 是将图像文件(例如物理文档的扫描件)转换为文档格式的理想选择。

选择您的工具

现在我们已准备好将一些图像转换为可编辑的文档格式,您需要选择适合您需求的正确工具。我们的工具可以转换为以下三种文档文件类型(这些工具的链接将在新浏览器选项卡中打开):

选择正确的工具后,您就可以选择要上传的图像类型。默认情况下,对于 JPG 文件,这将是选定的源文件格式。您可以使用位于工具左侧的文件源文件类型选择器来更改此设置。

选择您的文件

选择正确的工具和格式后,您可以单击“上传文件”按钮来选择要转换的图像文件。如果愿意,您还可以将最多 50 个文件拖放到该工具上。您可以通过在工具显示中拖动缩略图来重新排列所选文件。每个缩略图还具有向左和向右旋转按钮,可让您在上传之前正确定位图像。

下面是合并工具的示例,其中选择了四个 JPG 文件并准备将其转换为可编辑的 PDF 文件:

合并工具与选定文件

工具右侧是OCR选项;默认情况下,此选项未启用。如果您在提交文件时禁用此选项,则创建的文档将仅包含图像文件的嵌入副本。出于本教程的目的并演示OCR设置提供的纯文本提取,应启用此选项。

一旦选择了文件并更改了任何设置,请单击“合并”按钮,OCR 工具就会将您的图像文件转换为干净、纯正、可编辑的文本。

这是提交给合并工具的两个文件的示例,最终图像包含从第一个图像中提取并保存为 PDF 文档的纯可编辑文本:

原始纸质文件的扫描件
原始纸质文件的另一份扫描件
扫描结果通过 OCR 转换为纯文本

添加评论

暂无评论

第一个评论此篇文章。

© 2024 图像到Stl。将您的 PNG 和 JPG 文件转换为 3D STL 文件。

Your files are ready to download!