Читать PDF на Python

  1. Используйте модуль PyPDF2 для чтения PDF-файлов на Python
  2. Используйте модуль PDFplumber для чтения PDF-файлов на Python
  3. Используйте модуль textract для чтения PDF на Python
  4. Используйте модуль PDFminer.six для чтения PDF-файлов на Python

PDF-документ нельзя изменить, но можно легко и надежно поделиться. В PDF-документе могут быть разные элементы, такие как текст, ссылки, изображения, таблицы, формы и многое другое.

В этом руководстве мы прочитаем PDF-файл на Python.

Используйте модуль PyPDF2 для чтения PDF-файлов на Python

PyPDF2 - это модуль Python, который мы можем использовать для извлечения информации из документа PDF, объединения документов, разделения документа, обрезки страниц, шифрования или дешифрования файла PDF и т. Д.

Открываем PDF-документ в двоичном режиме чтения с помощью open('document_path.PDF', 'rb'). PDFFileReader() используется для создания объекта PDF-ридера для чтения документа. Мы можем извлекать текст со страниц PDF-документа с помощью методов getPage() и extractText(). Чтобы получить количество страниц в данном PDF-документе, мы используем .numPages.

Например,

from PyPDF2 import PDFFileReader
temp = open('document_path.PDF', 'rb')
PDF_read = PDFFileReader(temp)
first_page = PDF_read.getPage(0)
print(first_page.extractText())

Приведенный выше код напечатает текст на первой странице предоставленного PDF-документа.

Используйте модуль PDFplumber для чтения PDF-файлов на Python

PDFplumber - это модуль Python, который мы можем использовать для чтения и извлечения текста из документа PDF и других вещей. Модуль PDFplumber более эффективен по сравнению с модулем PyPDF2. Здесь мы также используем функцию open() для чтения файла PDF.

Например,

import PDFplumber
with PDFplumber.open("document_path.PDF") as temp:
  first_page = temp.pages[0]
  print(first_page.extract_text())

Приведенный выше код распечатает текст с первой страницы предоставленного PDF-документа.

Используйте модуль textract для чтения PDF на Python

Мы можем использовать функцию textract.process() из модуля textract для чтения PDF-документа.

Например,

import textract
PDF_read = textract.process('document_path.PDF', method='PDFminer')

Используйте модуль PDFminer.six для чтения PDF-файлов на Python

PDFminer.six - это модуль Python, который мы можем использовать для чтения и извлечения текста из документа PDF. Мы будем использовать функцию extract_text() из этого модуля для чтения текста из PDF.

Например,

from PDFminer.high_level import extract_text
PDF_read = extract_text('document_path.PDF')

Сопутствующая статья - Python PDF

  • Извлечение изображений из файлов PDF с помощью Python