Pdfminer-Paket in Python

Manav Narula 10 Oktober 2023
Pdfminer-Paket in Python

Eine PDF-Datei ist ein tragbares Standarddokument und eines der am häufigsten verwendeten Dokumentformate.

Wir können verschiedene Arten von Dateien in Python bearbeiten und lesen. Es sind mehrere Pakete verfügbar, um mit PDF-Dateien zu arbeiten.

Der pdfminer ist ein solches Paket. Es verfügt über verschiedene Funktionen, um mit PDF-Dateien zu arbeiten und Textdaten aus solchen Dateien zu lesen.

Wir werden unten einige Grundlagen dieses Pakets besprechen.

Installation des pdfminer-Pakets in Python

Das Paket pdfminer unterstützt Python 3 neuerer Versionen nicht. Wir können den Fork dieses Pakets namens pdfminer.six für Python 3 verwenden.

Wir können dies mit dem folgenden pip-Befehl von der Eingabeaufforderung aus installieren.

pip install pdfminer.six

Verwenden des pdfminer-Pakets in Python

Wir können die Funktion extract_text() verwenden, um Text aus einem auf dem Gerät gespeicherten PDF zu extrahieren, wir können die Funktion extract_text() verwenden. Wir können den Pfad der Datei innerhalb der Funktion angeben.

Siehe folgendes Beispiel.

from pdfminer.high_level import extract_text

s = extract_text("sample.pdf")
print(s)

Ausgabe:

Sample PDF from device

Wir können dieselbe Funktion auf unterschiedliche Weise verwenden.

Wir können eine PDF-Datei mit der Funktion open() öffnen, ein Dateiobjekt erstellen und dieses Dateiobjekt zum Lesen der Daten verwenden. Dazu müssen wir die Datei im rb-Modus öffnen.

Beispielsweise,

from pdfminer.high_level import extract_text

with open("sample.pdf", "rb") as f:
    s = extract_text(f)
print(s)

Ausgabe:

Sample PDF from device

Mit dieser Funktion können wir eine Datei aus dem Internet lesen und ihren Inhalt extrahieren.

Zuerst lesen wir die Datei mit der angegebenen URL in der Funktion requests.get(). Sein Inhalt kann mit der Funktion content() abgerufen werden.

Diese Datei laden wir dann mit der Funktion io.BytesIO() in den Speicher und extrahieren ihren Text mit der Funktion extract_pdf().

Überprüfen Sie die folgende Syntax.

import io
import requests

r = requests.get(url)
s = extract_text(io.BytesIO(response.content))
print(s)

Das Paket pdfminer war bis Python 2.7 weit verbreitet, verlor dann aber aufgrund von Kompatibilitätsproblemen mit Python 3 an Popularität.

Es sind jedoch neue Pakete aufgetaucht, die eine schnellere Möglichkeit bieten, mit PDF-Dateien in Python zu arbeiten. Das pyPDF2 ist eine solche verfügbare Alternative.

Manav Narula avatar Manav Narula avatar

Manav is a IT Professional who has a lot of experience as a core developer in many live projects. He is an avid learner who enjoys learning new things and sharing his findings whenever possible.

LinkedIn

Verwandter Artikel - Python PDF