用 Python 阅读 PDF
Samyak Jain
2023年1月30日
Python
Python PDF
-
在 Python 中使用
PyPDF2模块阅读 PDF -
在 Python 中使用
PDFplumber模块阅读 PDF -
在 Python 中使用
textract模块阅读 PDF -
在 Python 中使用
PDFminer.six模块阅读 PDF
PDF 文档无法修改,但可以轻松可靠地共享。PDF 文档中可以有不同的元素,如文本、链接、图像、表格、表单等。
在本教程中,我们将使用 Python 读取 PDF 文件。
在 Python 中使用 PyPDF2 模块阅读 PDF
PyPDF2 是一个 Python 模块,我们可以使用它来提取 PDF 文档的信息、合并文档、拆分文档、裁剪页面、加密或解密 PDF 文件等等。
我们使用 open('document_path.PDF', 'rb') 以读取二进制模式打开 PDF 文档。PDFFileReader() 用于创建一个 PDF 阅读器对象来阅读文档。我们可以使用 getPage() 和 extractText() 方法从 PDF 文档的页面中提取文本。要获取给定 PDF 文档中的页数,我们使用 .numPages。
例如,
from PyPDF2 import PDFFileReader
temp = open("document_path.PDF", "rb")
PDF_read = PDFFileReader(temp)
first_page = PDF_read.getPage(0)
print(first_page.extractText())
上面的代码将在提供的 PDF 文档的第一页上打印文本。
在 Python 中使用 PDFplumber 模块阅读 PDF
PDFplumber 是一个 Python 模块,我们可以使用它从 PDF 文档和其他内容中读取和提取文本。与 PyPDF2 模块相比,PDFplumber 模块更有效。这里我们还使用了 open() 函数来读取 PDF 文件。
例如,
import PDFplumber
with PDFplumber.open("document_path.PDF") as temp:
first_page = temp.pages[0]
print(first_page.extract_text())
上面的代码将从提供的 PDF 文档的第一页打印文本。
在 Python 中使用 textract 模块阅读 PDF
我们可以使用 textract 模块中的函数 textract.process() 来读取 PDF 文档。
例如,
import textract
PDF_read = textract.process("document_path.PDF", method="PDFminer")
在 Python 中使用 PDFminer.six 模块阅读 PDF
PDFminer.six 是一个 Python 模块,我们可以使用它从 PDF 文档中读取和提取文本。我们将使用该模块中的 extract_text() 函数来读取 PDF 中的文本。
例如,
from PDFminer.high_level import extract_text
PDF_read = extract_text("document_path.PDF")
Enjoying our tutorials? Subscribe to DelftStack on YouTube to support us in creating more high-quality video guides. Subscribe