用 Python 閱讀 PDF

Samyak Jain 2023年1月30日
  1. 在 Python 中使用 PyPDF2 模組閱讀 PDF
  2. 在 Python 中使用 PDFplumber 模組閱讀 PDF
  3. 在 Python 中使用 textract 模組閱讀 PDF
  4. 在 Python 中使用 PDFminer.six 模組閱讀 PDF
用 Python 閱讀 PDF

PDF 文件無法修改,但可以輕鬆可靠地共享。PDF 文件中可以有不同的元素,如文字、連結、影象、表格、表單等。

在本教程中,我們將使用 Python 讀取 PDF 檔案。

在 Python 中使用 PyPDF2 模組閱讀 PDF

PyPDF2 是一個 Python 模組,我們可以使用它來提取 PDF 文件的資訊、合併文件、拆分文件、裁剪頁面、加密或解密 PDF 檔案等等。

我們使用 open('document_path.PDF', 'rb') 以讀取二進位制模式開啟 PDF 文件。PDFFileReader() 用於建立一個 PDF 閱讀器物件來閱讀文件。我們可以使用 getPage()extractText() 方法從 PDF 文件的頁面中提取文字。要獲取給定 PDF 文件中的頁數,我們使用 .numPages

例如,

from PyPDF2 import PDFFileReader

temp = open("document_path.PDF", "rb")
PDF_read = PDFFileReader(temp)
first_page = PDF_read.getPage(0)
print(first_page.extractText())

上面的程式碼將在提供的 PDF 文件的第一頁上列印文字。

在 Python 中使用 PDFplumber 模組閱讀 PDF

PDFplumber 是一個 Python 模組,我們可以使用它從 PDF 文件和其他內容中讀取和提取文字。與 PyPDF2 模組相比,PDFplumber 模組更有效。這裡我們還使用了 open() 函式來讀取 PDF 檔案。

例如,

import PDFplumber

with PDFplumber.open("document_path.PDF") as temp:
    first_page = temp.pages[0]
    print(first_page.extract_text())

上面的程式碼將從提供的 PDF 文件的第一頁列印文字。

在 Python 中使用 textract 模組閱讀 PDF

我們可以使用 textract 模組中的函式 textract.process() 來讀取 PDF 文件。

例如,

import textract

PDF_read = textract.process("document_path.PDF", method="PDFminer")

在 Python 中使用 PDFminer.six 模組閱讀 PDF

PDFminer.six 是一個 Python 模組,我們可以使用它從 PDF 文件中讀取和提取文字。我們將使用該模組中的 extract_text() 函式來讀取 PDF 中的文字。

例如,

from PDFminer.high_level import extract_text

PDF_read = extract_text("document_path.PDF")

相關文章 - Python PDF