Python으로 PDF 읽기

Samyak Jain 2023년1월30일
  1. PyPDF2모듈을 사용하여 Python으로 PDF 읽기
  2. PDFplumber모듈을 사용하여 Python으로 PDF 읽기
  3. textract모듈을 사용하여 Python으로 PDF 읽기
  4. PDFminer.six모듈을 사용하여 Python으로 PDF 읽기
Python으로 PDF 읽기

PDF 문서는 수정할 수 없지만 쉽고 안정적으로 공유 할 수 있습니다. PDF 문서에는 텍스트, 링크, 이미지, 표, 양식 등과 같은 다양한 요소가있을 수 있습니다.

이 튜토리얼에서는 Python으로 PDF 파일을 읽습니다.

PyPDF2모듈을 사용하여 Python으로 PDF 읽기

PyPDF2는 PDF 문서의 정보 추출, 문서 병합, 문서 분할, 페이지 자르기, PDF 파일 암호화 또는 암호 해독 등에 사용할 수있는 Python 모듈입니다.

open('document_path.PDF', 'rb')를 사용하여 읽기 바이너리 모드에서 PDF 문서를 엽니 다. PDFFileReader()는 문서를 읽기위한 PDF 리더 객체를 만드는 데 사용됩니다. getPage()extractText()메소드를 사용하여 PDF 문서의 페이지에서 텍스트를 추출 할 수 있습니다. 주어진 PDF 문서의 페이지 수를 얻기 위해.numPages를 사용합니다.

예를 들면

from PyPDF2 import PDFFileReader

temp = open("document_path.PDF", "rb")
PDF_read = PDFFileReader(temp)
first_page = PDF_read.getPage(0)
print(first_page.extractText())

위의 코드는 제공된 PDF 문서의 첫 페이지에 텍스트를 인쇄합니다.

PDFplumber모듈을 사용하여 Python으로 PDF 읽기

PDFplumber는 PDF 문서 등에서 텍스트를 읽고 추출하는 데 사용할 수있는 Python 모듈입니다. PDFplumber 모듈은PyPDF2 모듈에 비해 더 강력합니다. 여기서는open()함수를 사용하여 PDF 파일을 읽습니다.

예를 들면

import PDFplumber

with PDFplumber.open("document_path.PDF") as temp:
    first_page = temp.pages[0]
    print(first_page.extract_text())

위 코드는 제공된 PDF 문서의 첫 페이지에서 텍스트를 인쇄합니다.

textract모듈을 사용하여 Python으로 PDF 읽기

textract모듈의textract.process()함수를 사용하여 PDF 문서를 읽을 수 있습니다.

예를 들면

import textract

PDF_read = textract.process("document_path.PDF", method="PDFminer")

PDFminer.six모듈을 사용하여 Python으로 PDF 읽기

PDFminer.six는 PDF 문서에서 텍스트를 읽고 추출하는 데 사용할 수있는 Python 모듈입니다. 이 모듈의extract_text()함수를 사용하여 PDF에서 텍스트를 읽습니다.

예를 들면

from PDFminer.high_level import extract_text

PDF_read = extract_text("document_path.PDF")

관련 문장 - Python PDF