Leer PDF en Python
-
Utilice el módulo
PyPDF2para leer un PDF en Python -
Utilice el módulo
PDFplumberpara leer un PDF en Python -
Utilice el módulo
textractpara leer un PDF en Python -
Utilice el módulo
PDFminer.sixpara leer un PDF en Python
Un documento PDF no se puede modificar, pero se puede compartir de forma sencilla y fiable. Puede haber diferentes elementos en un documento PDF como texto, enlaces, imágenes, tablas, formularios y más.
En este tutorial, leeremos un archivo PDF en Python.
Utilice el módulo PyPDF2 para leer un PDF en Python
PyPDF2 es un módulo de Python que podemos usar para extraer la información de un documento PDF, fusionar documentos, dividir un documento, recortar páginas, cifrar o descifrar un archivo PDF, y más.
Abrimos el documento PDF en modo lectura binario usando open('document_path.PDF', 'rb'). PDFFileReader() se utiliza para crear un objeto lector de PDF para leer el documento. Podemos extraer texto de las páginas del documento PDF usando los métodos getPage() y extractText(). Para obtener el número de páginas en el documento PDF dado, usamos .numPages.
Por ejemplo,
from PyPDF2 import PDFFileReader
temp = open("document_path.PDF", "rb")
PDF_read = PDFFileReader(temp)
first_page = PDF_read.getPage(0)
print(first_page.extractText())
El código anterior imprimirá el texto en la primera página del documento PDF proporcionado.
Utilice el módulo PDFplumber para leer un PDF en Python
PDFplumber es un módulo de Python que podemos usar para leer y extraer texto de un documento PDF y otras cosas. El módulo PDFplumber es más potente en comparación con el módulo PyPDF2. Aquí también usamos la función open() para leer un archivo PDF.
Por ejemplo,
import PDFplumber
with PDFplumber.open("document_path.PDF") as temp:
first_page = temp.pages[0]
print(first_page.extract_text())
El código anterior imprimirá el texto de la primera página del documento PDF proporcionado.
Utilice el módulo textract para leer un PDF en Python
Podemos usar la función textract.process() del módulo textract para leer un documento PDF.
Por ejemplo,
import textract
PDF_read = textract.process("document_path.PDF", method="PDFminer")
Utilice el módulo PDFminer.six para leer un PDF en Python
PDFminer.six es un módulo de Python que podemos usar para leer y extraer texto de un documento PDF. Usaremos la función extract_text() de este módulo para leer el texto de un PDF.
Por ejemplo,
from PDFminer.high_level import extract_text
PDF_read = extract_text("document_path.PDF")