PDF 工具·5 分钟

如何从 PDF 提取文本(复制、粘贴、导出)

从 PDF 复制文字以便编辑、引用或翻译。适用于普通和扫描型 PDF。

为什么要从 PDF 提取文本?

PDF 的设计目标是"在任何地方显示都一样",这让它非常适合分享和打印。但这种视觉保真度背后藏着一个问题:PDF 里的文字往往不是真正的文字。它可能是一条看起来像字母 "A" 的矢量路径,但里面并不包含计算机可以复制的字母 "A"。也可能是一张平铺的页面图,里面有扫描仪看见的、但机器读不出的文字。

当你真的需要"用"这些内容时 —— 在邮件里引用一段、粘贴到翻译工具、放进文档里编辑、或者在 200 页里搜某一段 —— 你就需要提取文本。本指南会告诉你怎么做。

人们需要从 PDF 提取文本的原因既实际又频繁:

  • 引用一段话:把研究论文的一段复制到邮件里,不用重新打字。
  • 翻译文档:把一份外语 PDF 粘贴到翻译工具里,翻译引擎需要纯文本。
  • 编辑和重新排版:把 PDF 里的文字抽到 Word 或 Google Docs 里改错别字或更新措辞。
  • 在扫描 PDF 中搜索:一本扫描书就是 300 页图片,提取文本并 OCR 后才可搜索。
  • 内容再利用:从老 PDF 里抽出一章,放进新报告。
  • 抽取数据:把 PDF 报告里的表格数据抽到电子表格里。

挑战在于:PDF 实际上有两种,它们需要不同的工具。

  • 文本型 PDF(绝大多数现代 PDF):文字是真正的、编码在文件中的文本,提取是无损的高速操作。
  • 扫描型 PDF(页面是图片):文字只是像素,需要 OCR(光学字符识别)才能读出来。

方法一:使用 UtilBoxx 免费 PDF 文本提取工具(推荐)

最快、最安全、最私密的方式是 UtilBoxx 的 PDF 提取文本工具。它完全在你的浏览器中运行,同时支持文本型和扫描型 PDF,文件不会上传到任何服务器。

使用方法如下:

  1. 打开 utilboxx.com/zh/tools/pdf/extract-text
  2. 点击上传区域选择你的 PDF(或直接拖入)
  3. 工具会自动检测你的 PDF 包含的是嵌入文本还是扫描图片
  4. 对文本型 PDF,它会直接复制文字;对扫描型 PDF,它会在浏览器中跑 OCR
  5. 复制结果到剪贴板,或下载为 .txt 文件

为什么推荐这个方法

  • 100% 免费,无账号、无注册、无邮箱验证
  • 隐私优先:所有处理都在你的浏览器本地完成,文件不会上传到任何服务器
  • 同时支持两种 PDF:文本型和扫描型(带 OCR)
  • 全设备支持:Windows、Mac、Linux、ChromeOS、iOS、Android
  • 无水印、无每日次数限制
  • 快速:文本型提取几乎瞬时,OCR 每页几秒

无论你是偶尔还是整天都要从 PDF 里抓文字,这是最灵活、且无需安装的工具。

方法二:Adobe Acrobat Pro(付费)

Adobe Acrobat Pro 是 PDF 领域的重量级选手。它的"导出 PDF"功能可以把 PDF 转换成 Word、Excel、纯文本等多种格式。对文本型 PDF,导出干净整齐;对扫描型 PDF,Acrobat 运行一个高质量的 OCR 引擎,能识别几十种语言、版式还原也相当不错。

代价是价格。Acrobat Pro 订阅版大约 每月 $19.99(每年约 $240 美元)。如果只是偶尔提取一次文字,这个投入显然不划算。你还需要桌面安装,对老机器也不太友好。

只有当你已经用它做编辑、涂黑、电子签名或表单创建时,Acrobat 才值得。它的 OCR 确实很优秀,但如果提取文字是你唯一的需求,浏览器工具完全够用,还免了账单。

方法三:命令行 pdftotext(Poppler)

如果你熟悉终端,poppler-utils 包里的开源工具 pdftotext 是最快的命令行选择。它在 macOS(通过 Homebrew)、Linux(通过 apt/dnf/pacman)、Windows(通过 Cygwin 或 WSL)上都可用。

用 `brew install poppler`(macOS)或 `sudo apt install poppler-utils`(Debian/Ubuntu)安装后:

```bash # 用默认版式提取文本 pdftotext input.pdf output.txt

# 尽可能保留版式 pdftotext -layout input.pdf output.txt

# 提取指定页范围(第 1-5 页) pdftotext -f 1 -l 5 input.pdf output.txt

# 通过 pdftotext 与 OCRmyPDF 配合,从扫描型 PDF 提取文本 ocrmypdf --skip-text input.pdf scanned-with-ocr.pdf pdftotext scanned-with-ocr.pdf output.txt ```

`pdftotext` 是开源世界 PDF 文本提取的主力。它快速、可脚本化、能批量处理上千个文件。对扫描型 PDF,OCRmyPDF 是事实标准:它在不改变原始页面图像的前提下,给扫描 PDF 加上一层可搜索的文本层。

常见问题

能从扫描型 PDF 中提取文本吗?

可以,但需要 OCR。UtilBoxx 的 PDF 文本提取工具 在你的浏览器中跑 OCR,把扫描图转成可搜索的文本,文件不会上传到任何地方。Adobe Acrobat Pro 也能对扫描 PDF 跑 OCR。命令行的工作流是 OCRmyPDF 加文本层,再 pdftotext 抽文字。

文本提取会保留格式吗?

通常不会。PDF 文本提取给你的是单词和段落,但视觉格式(粗体、斜体、字号、分栏)往往丢失。`pdftotext -layout` 在保留分栏上做得不错;Adobe 的"导出为 Word"在保留视觉结构上更强,但代价是工具重得多。对绝大多数场景 —— 引用、翻译、搜索 —— 纯文本就够了。

加密的 PDF 能提取文本吗?

可以,但需要密码。加密 PDF 可以用密码打开,然后正常提取文字。包括 UtilBoxx 在内的大多数工具都会在需要时提示输入密码。如果你没有密码,文字按设计就是无法访问的 —— 这是安全特性,不是 bug。

提取对所有语言都有效吗?

是的。文本型提取对 PDF 内嵌的任何语言都有效;OCR 对 OCR 引擎训练过的语言有效。UtilBoxx 浏览器版 OCR 支持多种拉丁、西里尔、东亚文字。Adobe Acrobat Pro 支持的语言更多。对小众文字,命令行工具如 Tesseract 提供最广泛的语言覆盖。

使用在线文本提取工具安全吗?

取决于服务。UtilBoxx 一切处理都在浏览器中完成 —— 不上传、服务器不处理、不记录日志。对其他工具,假设你的文件会被上传到远程服务器,并仔细阅读隐私政策。避免向你不信任的文本提取工具上传任何包含个人、财务、医疗或法律敏感信息的文件。

"复制文本"和"提取文本"有什么区别?

在大多数工具中两者是一样的:PDF 的文本内容。一些工具(如 `pdftotext -layout`)会尝试在纯文本里保留视觉版式。另一些(如 Adobe 的"导出为 Word")会产出结构化文档。UtilBoxx 给你的是干净的纯文本 —— 适合粘贴到任何地方。

结论

从 PDF 提取文本是一件经常要做的小事,不应该为此付费订阅或安装软件。对大多数人来说,UtilBoxx 的免费 PDF 文本提取工具 是显而易见的选择:私密、快速、免费,同时支持文本型和扫描型 PDF,浏览器里就能完成。

如果你已经为 Adobe Acrobat 付了费,那它的"导出 PDF"功能也很优秀。如果你写脚本做批量处理,pdftotext + OCRmyPDF 的组合在终端里无可替代。

其他情况下,去看 UtilBoxx 的 PDF 工具集,你会找到一个完整的、隐私优先的 PDF 处理工具箱 —— 全部在浏览器里完成。