Leia PDF em Python

Samyak Jain 30 janeiro 2023
  1. Use o módulo PyPDF2 para ler um PDF em Python
  2. Use o módulo PDFplumber para ler um PDF em Python
  3. Use o módulo textract para ler um PDF em Python
  4. Use o módulo PDFminer.six para ler um PDF em Python
Leia PDF em Python

Um documento PDF não pode ser modificado, mas pode ser compartilhado de forma fácil e confiável. Pode haver diferentes elementos em um documento PDF, como texto, links, imagens, tabelas, formulários e muito mais.

Neste tutorial, leremos um arquivo PDF em Python.

Use o módulo PyPDF2 para ler um PDF em Python

PyPDF2 é um módulo Python que podemos usar para extrair as informações de um documento PDF, mesclar documentos, dividir um documento, cortar páginas, criptografar ou descriptografar um arquivo PDF e muito mais.

Abrimos o documento PDF em modo binário de leitura usando open('document_path.PDF', 'rb'). PDFFileReader() é usado para criar um objeto leitor de PDF para ler o documento. Podemos extrair texto das páginas do documento PDF usando os métodos getPage() e extractText(). Para obter o número de páginas de um determinado documento PDF, usamos .numPages.

Por exemplo,

from PyPDF2 import PDFFileReader

temp = open("document_path.PDF", "rb")
PDF_read = PDFFileReader(temp)
first_page = PDF_read.getPage(0)
print(first_page.extractText())

O código acima imprimirá o texto na primeira página do documento PDF fornecido.

Use o módulo PDFplumber para ler um PDF em Python

PDFplumber é um módulo Python que podemos usar para ler e extrair texto de um documento PDF e outras coisas. O módulo PDFplumber é mais potente em comparação com o módulo PyPDF2. Aqui também usamos a função open() para ler um arquivo PDF.

Por exemplo,

import PDFplumber

with PDFplumber.open("document_path.PDF") as temp:
    first_page = temp.pages[0]
    print(first_page.extract_text())

O código acima imprimirá o texto da primeira página do documento PDF fornecido.

Use o módulo textract para ler um PDF em Python

Podemos usar a função textract.process() do módulo textract para ler um documento PDF.

Por exemplo,

import textract

PDF_read = textract.process("document_path.PDF", method="PDFminer")

Use o módulo PDFminer.six para ler um PDF em Python

PDFminer.six é um módulo Python que podemos usar para ler e extrair texto de um documento PDF. Usaremos a função extract_text() deste módulo para ler o texto de um PDF.

Por exemplo,

from PDFminer.high_level import extract_text

PDF_read = extract_text("document_path.PDF")

Artigo relacionado - Python PDF