Python으로 PDF 읽기

Samyak Jain 2023년1월30일 Python Python PDF

PyPDF2모듈을 사용하여 Python으로 PDF 읽기
PDFplumber모듈을 사용하여 Python으로 PDF 읽기
textract모듈을 사용하여 Python으로 PDF 읽기
PDFminer.six모듈을 사용하여 Python으로 PDF 읽기

PDF 문서는 수정할 수 없지만 쉽고 안정적으로 공유 할 수 있습니다. PDF 문서에는 텍스트, 링크, 이미지, 표, 양식 등과 같은 다양한 요소가있을 수 있습니다.

이 튜토리얼에서는 Python으로 PDF 파일을 읽습니다.

`PyPDF2`모듈을 사용하여 Python으로 PDF 읽기

PyPDF2는 PDF 문서의 정보 추출, 문서 병합, 문서 분할, 페이지 자르기, PDF 파일 암호화 또는 암호 해독 등에 사용할 수있는 Python 모듈입니다.

open('document_path.PDF', 'rb')를 사용하여 읽기 바이너리 모드에서 PDF 문서를 엽니 다. PDFFileReader()는 문서를 읽기위한 PDF 리더 객체를 만드는 데 사용됩니다. getPage()및extractText()메소드를 사용하여 PDF 문서의 페이지에서 텍스트를 추출 할 수 있습니다. 주어진 PDF 문서의 페이지 수를 얻기 위해.numPages를 사용합니다.

예를 들면

from PyPDF2 import PDFFileReader

temp = open("document_path.PDF", "rb")
PDF_read = PDFFileReader(temp)
first_page = PDF_read.getPage(0)
print(first_page.extractText())

위의 코드는 제공된 PDF 문서의 첫 페이지에 텍스트를 인쇄합니다.

`PDFplumber`모듈을 사용하여 Python으로 PDF 읽기

PDFplumber는 PDF 문서 등에서 텍스트를 읽고 추출하는 데 사용할 수있는 Python 모듈입니다. PDFplumber 모듈은PyPDF2 모듈에 비해 더 강력합니다. 여기서는open()함수를 사용하여 PDF 파일을 읽습니다.

예를 들면

import PDFplumber

with PDFplumber.open("document_path.PDF") as temp:
    first_page = temp.pages[0]
    print(first_page.extract_text())

위 코드는 제공된 PDF 문서의 첫 페이지에서 텍스트를 인쇄합니다.

`textract`모듈을 사용하여 Python으로 PDF 읽기

textract모듈의textract.process()함수를 사용하여 PDF 문서를 읽을 수 있습니다.

예를 들면

import textract

PDF_read = textract.process("document_path.PDF", method="PDFminer")

`PDFminer.six`모듈을 사용하여 Python으로 PDF 읽기

PDFminer.six는 PDF 문서에서 텍스트를 읽고 추출하는 데 사용할 수있는 Python 모듈입니다. 이 모듈의extract_text()함수를 사용하여 PDF에서 텍스트를 읽습니다.

예를 들면

from PDFminer.high_level import extract_text

PDF_read = extract_text("document_path.PDF")

튜토리얼이 마음에 드시나요? DelftStack을 구독하세요 YouTube에서 저희가 더 많은 고품질 비디오 가이드를 제작할 수 있도록 지원해주세요. 구독하다

PyPDF2모듈을 사용하여 Python으로 PDF 읽기

PDFplumber모듈을 사용하여 Python으로 PDF 읽기

textract모듈을 사용하여 Python으로 PDF 읽기

PDFminer.six모듈을 사용하여 Python으로 PDF 읽기

관련 문장 - Python PDF

`PyPDF2`모듈을 사용하여 Python으로 PDF 읽기

`PDFplumber`모듈을 사용하여 Python으로 PDF 읽기

`textract`모듈을 사용하여 Python으로 PDF 읽기

`PDFminer.six`모듈을 사용하여 Python으로 PDF 읽기