Leer PDF en Python

Samyak Jain 30 enero 2023
  1. Utilice el módulo PyPDF2 para leer un PDF en Python
  2. Utilice el módulo PDFplumber para leer un PDF en Python
  3. Utilice el módulo textract para leer un PDF en Python
  4. Utilice el módulo PDFminer.six para leer un PDF en Python
Leer PDF en Python

Un documento PDF no se puede modificar, pero se puede compartir de forma sencilla y fiable. Puede haber diferentes elementos en un documento PDF como texto, enlaces, imágenes, tablas, formularios y más.

En este tutorial, leeremos un archivo PDF en Python.

Utilice el módulo PyPDF2 para leer un PDF en Python

PyPDF2 es un módulo de Python que podemos usar para extraer la información de un documento PDF, fusionar documentos, dividir un documento, recortar páginas, cifrar o descifrar un archivo PDF, y más.

Abrimos el documento PDF en modo lectura binario usando open('document_path.PDF', 'rb'). PDFFileReader() se utiliza para crear un objeto lector de PDF para leer el documento. Podemos extraer texto de las páginas del documento PDF usando los métodos getPage() y extractText(). Para obtener el número de páginas en el documento PDF dado, usamos .numPages.

Por ejemplo,

from PyPDF2 import PDFFileReader

temp = open("document_path.PDF", "rb")
PDF_read = PDFFileReader(temp)
first_page = PDF_read.getPage(0)
print(first_page.extractText())

El código anterior imprimirá el texto en la primera página del documento PDF proporcionado.

Utilice el módulo PDFplumber para leer un PDF en Python

PDFplumber es un módulo de Python que podemos usar para leer y extraer texto de un documento PDF y otras cosas. El módulo PDFplumber es más potente en comparación con el módulo PyPDF2. Aquí también usamos la función open() para leer un archivo PDF.

Por ejemplo,

import PDFplumber

with PDFplumber.open("document_path.PDF") as temp:
    first_page = temp.pages[0]
    print(first_page.extract_text())

El código anterior imprimirá el texto de la primera página del documento PDF proporcionado.

Utilice el módulo textract para leer un PDF en Python

Podemos usar la función textract.process() del módulo textract para leer un documento PDF.

Por ejemplo,

import textract

PDF_read = textract.process("document_path.PDF", method="PDFminer")

Utilice el módulo PDFminer.six para leer un PDF en Python

PDFminer.six es un módulo de Python que podemos usar para leer y extraer texto de un documento PDF. Usaremos la función extract_text() de este módulo para leer el texto de un PDF.

Por ejemplo,

from PDFminer.high_level import extract_text

PDF_read = extract_text("document_path.PDF")

Artículo relacionado - Python PDF