如何使用 Python 处理 PDF 文件：一份 PyPDF 使用指南

PDF文件无处不在。它们被用于报告、发票、银行对账单、研究论文以及法律文件等场合。虽然PDF文件对人类来说易于阅读，但在代码中处理起来却并不容易。提取文本、分割页面或合并文件等操作往往比想象中要困难得多。

这就是PyPDF发挥作用的地方。PyPDF是一个流行的Python库，它允许你读取、修改和创建PDF文件。该库功能简洁易用，适用于大多数常见的PDF操作需求。如果你需要从PDF中提取文本、合并多个PDF文件或使用密码保护文件，那么PyPDF就是一个很好的选择。

在本文中，你将了解什么是PyPDF、它的工作原理以及如何使用它。此外，你还将学习如何使用像PDFBoom这样的工具来处理PDF文件。不过，你需要具备一定的Python基础知识才能理解这些内容。

### 标题：什么是PyPDF？

**PyPDF是什么？**

PyPDF是一个纯Python的库，用于处理PDF文件。它可以帮助你打开现有的PDF文件、读取其结构、提取内容，并创建新的PDF文件。由于PyPDF是用Python编写的，因此不需要依赖外部工具或系统级组件。

该库能够理解PDF的内部结构，包括页面、文本流、元数据以及加密信息。虽然你不必了解PDF的内部机制就可以使用PyPDF，但了解PDF并非仅仅是文本的集合，而是一个包含各种对象和引用的结构化文档还是很有帮助的。

PyPDF经常被用于自动化脚本、数据管道、合规系统和文档处理工具中。当你需要一个可靠且简单的解决方案时，PyPDF是一个不错的选择。

### 安装PyPDF

安装PyPDF非常简单。你可以使用Python的标准包管理器pip来安装它。

“`bash
pip install pypdf
“`

安装完成后，你可以在Python代码中导入PyPDF类。主要使用的类是PdfReader，用于读取文件；而PdfWriter则用于创建或修改PDF文件。

“`python
from pypdf import PdfReader, PdfWriter
“`

有了这些工具之后，你就可以开始处理PDF文件了。

### 读取PDF文件

在大多数情况下，第一步就是打开一个PDF文件。PyPDF通过PdfReader类来实现这一点。

“`python
from pypdf import PdfReader
import re

reader = PdfReader(“sample.pdf”)
print(len(reader.pages))
“`

这段代码会打开一个名为“sample.pdf”的PDF文件，并打印出其中的页数。每个页面都被表示为一个对象，你可以对其进行操作。

如果你想要获取一些基本的元数据，比如标题或作者，也是可以的。

“`python
metadata = reader.metadata
print(metadata)
“`

需要注意的是，元数据并不是必需的，所以并不是所有的PDF文件都包含有意义的元数据。

### 从PDF中提取文本

最常见的用途之一就是从PDF中提取文本。PyPDF可以逐页提取文本。

“`python
from pypdf import PdfReader
import re

reader = PdfReader(“sample.pdf”)

page = reader.pages[0]
text = page.extract_text()
print(text)
“`

这段代码会从PDF的第一页中提取文本。对于像报告或文章这样的文档来说，这种方法非常有用。

不过，需要注意的是，文本提取的效果并不完美。因为PDF中的文本是按照布局来存储的，而不是按照阅读的顺序来存储的。所以，提取出来的文本可能会顺序混乱，或者缺少某些空格。不过，对于大多数结构化文档来说，PyPDF仍然能够提供可用的结果。

如果你想从所有页面中提取文本，可以通过循环来完成这个任务。

“`python
full_text = “”
for page in reader.pages:
full_text += page.extract_text() + “\n”
print(full_text)
“`

这种方法是构建搜索索引或文档分析流程时的常用方法。

### 将PDF分割成多个文件

另一个实用的功能是将PDF分割成多个小文件。这对于处理大型报告或扫描文档非常有用。

“`python
from pypdf import PdfReader, PdfWriter

reader = PdfReader(“sample.pdf”)
writer = PdfWriter()

for i, page in enumerate(reader.pages):
writer.add_page(page)
with open(“page_0.pdf”, “wb”) as f:
writer.write(f)
with open(“page_{1}.pdf”, “wb”) as f:
writer.add_page(page)
“`

这段代码会为每个页面创建一个单独的PDF文件。这样，你就可以轻松地管理和处理这些文件了。

### 合并多个PDF文件

合并多个PDF文件也是一种常见的需求。PyPDF可以让你把多个PDF文件合并成一个文件。

“`python
from pypdf import PdfReader, PdfWriter

writer = PdfWriter()

files = [“file1.pdf”, “file2.pdf”, “file3.pdf”]
for file in files:
reader = PdfReader(file)
for page in reader.pages:
writer.add_page(page)
with open(“merged.pdf”, “wb”) as f:
writer.write(f)
“`

这段代码会将多个PDF文件合并到一个文件中。你可以根据需要调整文件的顺序。

### 旋转和修改页面

有时候，你需要旋转页面，尤其是在处理扫描文档的时候。PyPDF可以轻松实现这一功能。

“`python
from pypdf import PdfReader, PdfWriter

reader = PdfReader(“sample.pdf”)
writer = PdfWriter()

page = reader.pages[0]
page.rotate(90)
writer.addPage(page)
with open(“rotated.pdf”, “wb”) as f:
writer.write(f)
“`

这段代码可以将第一页旋转90度。你可以对所有的页面进行同样的操作。

### 加密和解密PDF文件

在处理敏感文档时，安全性非常重要。PyPDF支持对PDF文件进行加密和保护。

“`python
from pypdf import PdfReader, PdfWriter

reader = PdfReader(“sample.pdf”)
writer = PdfWriter()

for page in reader.pages:
writer.addPage(page)

writer.encrypt(“strongpassword”)
with open(“protected.pdf”, “wb”) as f:
writer.write(f)
“`

生成的PDF文件需要使用密码来打开。这种方式通常用于共享机密报告或财务文件。

如果你需要打开加密后的PDF文件，可以在打开时提供密码。

“`python
reader = PdfReader(“protected.pdf”)
reader.decrypt(“strongpassword”)
“`

解密后，你就可以像处理普通PDF文件一样来使用这个文件了。

### 添加元数据到PDF文件

元数据有助于描述文档的内容。你可以使用PyPDF来添加或更新元数据。

“`python
from pypdf import PdfWriter

writer = PdfWriter()
writer.addMetadata({
“/Title”: “Monthly Report”,
“/Author”: “Finance Team”,
“/Subject”: “Revenue Analysis”
})

with open(“metadata.pdf”, “wb”) as f:
writer.write(f)
“`

元数据会成为PDF文件的一部分，可以在大多数PDF阅读器中查看。这对于文档管理和搜索系统非常有用。

### PyPDF的常见局限性

尽管PyPDF功能强大，但它也有一些局限性。它不支持光学字符识别（OCR），因此无法从扫描图像中提取文本。对于扫描后的PDF文件，你需要使用Tesseract之类的OCR工具。

复杂的布局，如多列文本或表格，可能无法被准确提取出来。在这种情况下，就需要使用后处理或针对特定布局的工具了。

不过，对于大多数日常PDF处理任务来说，PyPDF已经足够用了。

### 何时使用PyPDF

PyPDF最适合用于自动化、后端服务和脚本中，特别是在需要处理简单且快速的PDF操作时。它在数据管道、合规系统和内部工具中表现良好。

如果你需要更高级的布局处理能力或视觉分析能力，可能需要使用更复杂的工具。但对于大多数开发者来说，PyPDF已经能够满足核心需求了。

### 结论

PyPDF是一个实用且易于使用的库，可以用于在Python中处理PDF文件。它允许你读取文档、提取文本、合并和分割文件、旋转页面，还可以为文件添加安全保护措施。只需几行代码就能完成这些操作。

其简单的API和轻量级的设计使得它成为那些希望简化PDF处理过程的开发者的理想选择。虽然它不能解决所有PDF问题，但确实能很好地应对最常见的问题。

如果你经常需要处理PDF文件，那么掌握PyPDF将会为你节省大量时间，减少许多手动工作的麻烦。

如何使用 Python 处理 PDF 文件：一份 PyPDF 使用指南

Related Posts: