Pandas에서 GZ 파일 읽기

Hira Arif 2023년6월21일
  1. Pandas에서 GZ 파일 읽기
  2. Pandas 데이터 프레임을 사용하여 gz 파일 읽기
Pandas에서 GZ 파일 읽기

Python 광이고 데이터 분석 및 처리에 Python을 사용하는 경우 Python을 사용하여 gz 파일을 Pandas 데이터 프레임으로 읽는 데 관심이 있을 수 있습니다. 이 튜토리얼은 pandas라는 Python 라이브러리를 사용하여 gz 파일을 데이터 프레임으로 읽는 가능한 방법에 대해 교육합니다.

Pandas에서 GZ 파일 읽기

gz는 표준 GNU zip(gzip) 압축 알고리즘으로 압축된 압축 파일의 파일 확장자입니다. Linux 및 Unix 운영 체제의 압축 형식으로 널리 사용됩니다. 예를 들어 이메일용 파일이 있는 경우 gz 파일 형식을 사용하여 파일을 더 작은 파일로 압축할 수 있습니다.

대용량 데이터 파일은 압축 알고리즘을 사용하여 압축하고 이 데이터를 사용하기 위해 사용자는 조직화된 구조로 콘텐츠를 읽어야 합니다.

파이썬 라이브러리; Pandas에는 Python 및 NumPy 생태계의 필수 부분인 데이터 프레임이라는 데이터 유형이 있어 테이블 및 스프레드시트보다 더 빠르고 사용하기 쉽고 강력합니다.

데이터 프레임은 2차원, 크기 조정 가능, 잠재적으로 이기종 테이블 형식 데이터를 나타내는 데 사용되는 데이터 구조입니다. 여기에는 레이블이 지정된 축(행 및 열)이 포함됩니다.

산술 연산은 행 및 열 레이블 모두에 배치됩니다. 시리즈 개체, 스프레드시트 또는 SQL 테이블을 위한 딕셔너리 같은 컨테이너입니다.

따라서 Python을 사용하여 gz 파일을 Pandas 데이터 프레임으로 읽는 데 관심이 있다면 .gz 파일을 직접 읽을 수 없으므로 Python을 사용하여 파일의 데이터를 조직화된 형식으로 정렬해야 합니다.

그렇다면 .gz 파일을 읽는 방법은 무엇입니까? 이를 위해 아래 단계를 따라야 합니다.

  • gz 파일의 절대 경로와 파일 읽기를 위한 후속 속성을 명시합니다.
  • pandas 모듈의 read_csv() 메서드를 사용하고 매개변수를 전달합니다.
  • pandas DataFrame을 사용하여 gz 파일의 데이터를 보고 조작합니다.

Pandas 데이터 프레임을 사용하여 gz 파일 읽기

CSV 파일 50_Startups.csv에 대한 gz 압축 파일을 읽고 싶다고 가정합니다.

path_gzip_file = "F:/50_Startups.csv.gz"

이를 위해 다음 코드를 실행해 봅시다.

예제 코드(demo.py에 저장됨):

import pandas as pd

path_gzip_file = "F:/50_Startups.csv.gz"

gzip_file_data_frame = pd.read_csv(
    path_gzip_file, compression="gzip", header=0, sep=",", quotechar='"'
)

print(gzip_file_data_frame.head(5))

먼저 pandas 모듈을 가져오고 pd라는 별칭을 지정하여 데이터 프레임으로 작업하고 파일을 읽습니다. 다음으로 gz 파일의 절대 경로를 지정합니다.

그런 다음 pandas 모듈의 pd.read_csv() 메서드를 호출하고 매개 변수를 전달합니다. pd.read_csv는 여러 매개변수를 사용하고 pandas 데이터 프레임을 반환합니다.

아래 나열된 5개의 매개변수를 전달합니다.

  1. 첫 번째는 문자열 path 개체입니다.
  2. 두 번째는 문자열 compression 유형(이 경우 gzip)입니다.
  3. 세 번째 매개변수는 정수형인 header입니다 (header=0을 명시적으로 전달하여 기존 이름을 대체할 수 있도록 합니다. 헤더는 열의 다중 색인을 위한 행 위치를 지정하는 정수 목록일 수 있습니다 - [0,1,3]).
  4. 네 번째는 delimiter 문자열입니다(이 경우 ,).
  5. 다섯 번째는 quotechar, 선택적 길이 1 문자열(인용된 항목의 시작과 끝을 표시하는 데 사용되는 문자. 인용된 항목은 구분 기호를 포함할 수 있으며 무시됩니다.)

마지막으로, 하나의 매개변수 n을 사용하는 head() 함수로 데이터 프레임을 연결하고 처음 n개의 데이터 행을 반환한 다음 데이터를 인쇄합니다.

이제 위의 코드를 다음과 같이 실행합니다.

PS F:\> & C:/Python310/python.exe f:/demo.py

50_Startups.csv.gz 파일을 성공적으로 읽었습니다. 아래 파일 내용의 처음 5개 행을 참조하십시오.

   R&D Spend  Administration  Marketing Spend       State     Profit
0  165349.20       136897.80        471784.10    New York  192261.83
1  162597.70       151377.59        443898.53  California  191792.06
2  153441.51       101145.55        407934.54     Florida  191050.39
3  144372.41       118671.85        383199.62    New York  182901.99
4  142107.34        91391.77        366168.42     Florida  166187.94