Paquet Pdfminer en Python

Manav Narula 10 octobre 2023
Paquet Pdfminer en Python

Un fichier PDF est un document portable standard et est l’un des formats de document les plus utilisés.

Nous pouvons travailler et lire différents types de fichiers en Python. Il existe plusieurs packages disponibles pour travailler avec des fichiers PDF.

Le pdfminer est l’un de ces packages. Il a différentes fonctionnalités pour travailler avec des fichiers PDF et lire des données textuelles à partir de ces fichiers.

Nous aborderons ci-dessous quelques principes de base de ce package.

Installer le paquetage pdfminer en Python

Le package pdfminer ne supporte pas Python 3 à partir des versions récentes. Nous pouvons utiliser le fork de ce package appelé pdfminer.six pour Python 3.

Nous pouvons l’installer en utilisant la commande pip suivante à partir de l’invite de commande.

pip install pdfminer.six

Utilisation du package pdfminer en Python

Nous pouvons utiliser la fonction extract_text() pour extraire le texte d’un PDF enregistré sur l’appareil, nous pouvons utiliser la fonction extract_text(). Nous pouvons spécifier le chemin du fichier dans la fonction.

Voir l’exemple suivant.

from pdfminer.high_level import extract_text

s = extract_text("sample.pdf")
print(s)

Production :

Sample PDF from device

Nous pouvons utiliser la même fonction de différentes manières.

Nous pouvons ouvrir un fichier PDF à l’aide de la fonction open(), créer un objet fichier et utiliser cet objet fichier pour lire les données. Pour cela, nous devons ouvrir le fichier en mode rb.

Par example,

from pdfminer.high_level import extract_text

with open("sample.pdf", "rb") as f:
    s = extract_text(f)
print(s)

Production :

Sample PDF from device

Nous pouvons lire un fichier sur le Web et extraire son contenu à l’aide de cette fonction.

Tout d’abord, nous allons lire le fichier en utilisant l’URL donnée dans la fonction requests.get(). Son contenu peut être récupéré à l’aide de la fonction content().

Nous allons ensuite charger ce fichier en mémoire à l’aide de la fonction io.BytesIO(), et extraire son texte à l’aide de la fonction extract_pdf().

Vérifiez la syntaxe ci-dessous.

import io
import requests

r = requests.get(url)
s = extract_text(io.BytesIO(response.content))
print(s)

Le paquet pdfminer a été largement utilisé jusqu’à Python 2.7, mais a ensuite perdu de sa popularité en raison de problèmes de compatibilité avec Python 3.

Cependant, de nouveaux packages sont apparus qui offrent un moyen plus rapide de travailler avec des fichiers PDF en Python. Le pyPDF2 est l’une de ces alternatives disponibles.

Auteur: Manav Narula
Manav Narula avatar Manav Narula avatar

Manav is a IT Professional who has a lot of experience as a core developer in many live projects. He is an avid learner who enjoys learning new things and sharing his findings whenever possible.

LinkedIn

Article connexe - Python PDF