Python で PDF を読む

Samyak Jain 2023年1月30日
  1. Python で PyPDF2 モジュールを使用して PDF を読む
  2. Python で PDFplumber モジュールを使用して PDF を読む
  3. Python で textract モジュールを使用して PDF を読む
  4. Python で PDFminer.six モジュールを使用して PDF を読む
Python で PDF を読む

PDF ドキュメントは変更できませんが、簡単かつ確実に共有できます。PDF ドキュメントには、テキスト、リンク、画像、表、フォームなど、さまざまな要素が含まれている場合があります。

このチュートリアルでは、Python で PDF ファイルを読み取ります。

Python で PyPDF2 モジュールを使用して PDF を読む

PyPDF2 は、PDF ドキュメントの情報の抽出、ドキュメントのマージ、ドキュメントの分割、ページのトリミング、PDF ファイルの暗号化または復号化などに使用できる Python モジュールです。

open('document_path.PDF', 'rb') を使用して、PDF ドキュメントを読み取りバイナリモードで開きます。PDFFileReader() は、ドキュメントを読み取るための PDF リーダーオブジェクトを作成するために使用されます。getPage() および extractText() メソッドを使用して、PDF ドキュメントのページからテキストを抽出できます。指定された PDF ドキュメントのページ数を取得するには、.numPages を使用します。

例えば、

from PyPDF2 import PDFFileReader

temp = open("document_path.PDF", "rb")
PDF_read = PDFFileReader(temp)
first_page = PDF_read.getPage(0)
print(first_page.extractText())

上記のコードは、提供された PDF ドキュメントの最初のページにテキストを出力します。

Python で PDFplumber モジュールを使用して PDF を読む

PDFplumber は、PDF ドキュメントなどからテキストを読み取ったり抽出したりするために使用できる Python モジュールです。PDFplumber モジュールは PyPDF2 モジュールと比較してより強力です。ここでは、open() 関数を使用して PDF ファイルを読み取ります。

例えば、

import PDFplumber

with PDFplumber.open("document_path.PDF") as temp:
    first_page = temp.pages[0]
    print(first_page.extract_text())

上記のコードは、提供された PDF ドキュメントの最初のページからテキストを出力します。

Python で textract モジュールを使用して PDF を読む

textract モジュールの関数 textract.process() を使用して、PDF ドキュメントを読み取ることができます。

例えば、

import textract

PDF_read = textract.process("document_path.PDF", method="PDFminer")

Python で PDFminer.six モジュールを使用して PDF を読む

PDFminer.six は、PDF ドキュメントからテキストを読み取って抽出するために使用できる Python モジュールです。このモジュールの extract_text() 関数を使用して、PDF からテキストを読み取ります。

例えば、

from PDFminer.high_level import extract_text

PDF_read = extract_text("document_path.PDF")

関連記事 - Python PDF