Python 및 Pandas를 사용하여 XLSX 파일 읽기

Vaibhav Vaibhav 2021년12월4일
Python 및 Pandas를 사용하여 XLSX 파일 읽기

Pandas는 데이터를 효율적으로 처리하고 해당 데이터에 대한 작업을 쉽게 수행하며 모든 종류의 플롯과 그래프로 분석하는 데 도움이 되는 매우 강력하고 최적화된 라이브러리입니다. 병합, 연결 및 재구성과 같은 일반적인 작업은 팬더를 사용하여 매우 쉽게 수행할 수 있습니다.

Pandas는 또한 파일 읽기 및 파일 내부의 데이터를 배열 및 DataFrames와 같은 다양한 객체에 저장하는 것을 지원합니다. 그러한 파일 중 하나는 .xlsx입니다. .xlsx 파일은 압축되고 XML 기반인 Microsoft Excel Open XML 형식 스프레드시트 파일입니다. 이 기사에서는 팬더를 사용하여 .xlsx 파일을 읽는 방법에 대해 설명합니다.

Python에서 pandas를 사용하여 .xlsx 파일 읽기

pandas를 사용하여 .xlsx 파일을 읽으려면 read_excel() 함수를 사용할 수 있습니다. 이 함수는 엑셀 파일을 pandas Dataframe으로 읽어들입니다. 그리고 이 함수를 사용하여 xlsx, xls, xlsm, xlsb, odf, odsodt 파일을 읽을 수 있습니다. Excel 파일은 여러 시트를 포함할 수 있으므로 이 기능은 단일 및 여러 시트를 읽을 수 있습니다.

read_excel() 함수에는 몇 가지 매개변수가 있습니다. 우리는 몇 가지 주요 사항에 대해 논의할 것입니다.

  • io: 이 매개변수는 str, bytes, ExcelFile, xlrd.Book, path object 또는 file-like object일 수 있습니다. 본질적으로 읽어야 하는 것은 파일 또는 개체입니다. 문자열 형식의 유효한 파일 경로를 이 매개변수에 전달할 수도 있습니다.
  • sheet_name: 이 매개변수는 str, int, list 또는 None일 수 있습니다. 기본값은 0입니다. Excel 파일은 시트로 구성되어 있으므로 읽을 시트를 한 장 또는 여러 장으로 지정할 수 있습니다. 정수 인덱스(2, 0, [1, 3, 7])뿐만 아니라 문자열 이름을 사용하여 시트(Sheet1, Sheet3, ["Sheet4", "Sheet5", "Sheet8"]).
  • header: Excel 파일의 헤더로 간주되어야 하는 행입니다. 첫 번째 행은 일반적으로 헤더이고 0부터 시작하는 인덱싱을 고려하기 때문에 기본값은 0입니다. 헤더가 없으면 None으로 설정합니다.
  • 이름: Excel 파일에서 읽고 싶은 열을 지정할 수 있습니다. 열 이름 목록을 허용합니다. 기본값은 없음입니다. 열 이름은 헤더 내부에 있으므로 파일에 하나가 있어야 합니다. 그렇지 않으면 header = None을 설정하십시오.

이제 이 함수를 사용하여 .xlxs 파일을 읽는 방법을 살펴보겠습니다. 다음 코드를 참조하십시오.

file_name = "my_file.xlsx"  # File name
sheet_name = 3  # 4th sheet
header = 1  # The header is the 2nd row
df = pd.read_excel(file_name=file_name, sheet_name=sheet_name, header=header)
print(df.head())  # Prints first 5 rows from the top along with the header
print(df.tail())  # Prints first 5 rows from the bottom along with the header
Vaibhav Vaibhav avatar Vaibhav Vaibhav avatar

Vaibhav is an artificial intelligence and cloud computing stan. He likes to build end-to-end full-stack web and mobile applications. Besides computer science and technology, he loves playing cricket and badminton, going on bike rides, and doodling.

관련 문장 - Python Excel