Pandas에서 SAS 읽기

Abid Ullah 2023년6월21일
  1. SAS 파일이란?
  2. Python에서 .SAS 파일 열기
  3. Python에서 Pandas를 사용하여 SAS 파일 읽기
  4. Python의 SAS 파일에서 특정 열 읽기
  5. Python에서 SAS 파일을 CSV로 저장
Pandas에서 SAS 읽기

Python은 데이터 분석, 데이터 모델링 및 시각화를 수행하는 데 매우 유용한 프로그래밍 언어입니다. 그러나 Python을 사용하여 데이터를 저장하는 것은 때때로 매우 지루할 수 있습니다.

이 기사에서는 Pandas를 사용하여 Python에서 .SAS 파일을 열고 사용하는 방법을 이해하는 데 중점을 둘 것입니다. 또한 .SAS 파일에서 데이터를 읽는 방법, .SAS 파일에 쓰는 방법 및 .SAS 파일의 사용이 Python에서 더 빠른 계산에 어떻게 도움이 되는지에 대해 논의합니다.

SAS 파일이란?

SAS는 Statistical Analysis System의 약자로 통계 및 데이터를 포함합니다. 이러한 파일은 데이터 분석, 비즈니스 인텔리전스, 예측 분석, 전산 분석 및 데이터 관리를 수행할 때 유용할 수 있습니다.

대부분의 경우 .SAS 파일의 확장자는 .sas7bdat.sas7bcat입니다.

Python에서 .SAS 파일 열기

Python에서 .SAS 파일을 열려면 두 가지 방법이 있습니다. 첫 번째 방법에서는 pyreadstat를 사용하여 Python에서 .SAS 파일을 열 수 있습니다.

동일한 작업을 수행하는 두 번째 방법은 Pandas 데이터 프레임을 사용하는 것입니다. Pandas 데이터 프레임을 사용하는 경우 Python 노트북에서 SAS 파일을 여는 데 도움이 되는 read_sas 메서드를 사용합니다.

먼저 다음 명령을 실행하여 Pyreadstat를 설치해야 합니다.

pip install pyreadstat

패키지가 설치되면 SAS 파일을 Python 노트북에 로드할 수 있습니다.

다음 단계에서는 방금 설치한 Pyreadstat를 가져옵니다.

import pyreadstat

이것은 pyreadstat 패키지를 가져오고 사용할 준비가 되어 있어야 합니다.

이제 .sas7bdat 확장자로 SAS 파일을 열려면 read_sas7bdat를 사용해야 합니다.

gold.sas7bdat라는 이름의 파일을 읽고 싶다고 가정해 보겠습니다. 다음 코드는 파일을 가져오는 데 도움이 됩니다. 여기서는 데이터 프레임을 사용할 것입니다.

df, meta = pyreadstat.read_sas7bdat("/gold.sas7bdat")

이제 pyreadstat를 사용하여 파일을 이미 로드했으므로 작업 디렉토리에서 찾을 수 있습니다. 생성된 df 변수의 유형을 확인하려면 다음 줄을 입력해야 합니다.

type(df)

출력:

df 유형의 출력

이제 우리는 이것이 Python 데이터 프레임임을 알았으므로 이제 Python 데이터 프레임 개체에 사용할 수 있는 모든 메서드를 사용할 수 있습니다. 파일의 처음 5개 항목을 인쇄하려고 합니다.

다음 코드는 원하는 출력을 표시할 수 있어야 합니다.

df.head()

출력:

DF 헤드의 출력

Python에서 Pandas를 사용하여 SAS 파일 읽기

이 섹션은 Pandas를 사용하여 위에서 사용된 동일한 파일을 로드하는 방법을 이해하는 데 도움이 됩니다.

첫 번째 단계에서는 pandas를 가져옵니다. 이는 다음 코드로 수행할 수 있습니다.

import pandas as pd

이 코드는 Panda의 라이브러리를 통합 문서로 가져옵니다.

이 단계에서는 Pandas read_sas 메서드를 사용하여 파일을 노트북으로 가져옵니다.

geturl = "/gold.sas7bdat"
df = pd.read_sas(geturl)

이 코드는 파일을 노트북으로 가져옵니다. 이제 pyreadstat를 사용한 것처럼 파일의 처음 5개 레코드를 인쇄해 보겠습니다.

df.head()

출력:

Pandas DF 헤드의 출력

Python의 SAS 파일에서 특정 열 읽기

고려 중인 파일에 대한 특정 열을 가져오는 데 관심이 있는 경우 usecols에 의해 pyreadstat의 인수를 사용해야 합니다. 다음 코드는 개념을 더 잘 이해하는 데 도움이 됩니다.

columns = ["YEAR"]
df, meta = pyreadstat.read_sas7bdat("/airline.sas7bdat", usecols=columns)
df.head()

출력:

usecols를 사용한 코드 출력

Python에서 SAS 파일을 CSV로 저장

확장자가 .sas7bdat인 파일을 CSV로 저장하려면 to_csv 메서드를 올바르게 사용해야 합니다. 다음 코드는 위에서 만든 데이터 프레임에 대해 파일을 CSV로 변환합니다.

df.to_csv("ourdatafile.csv", index=False)

위의 코드는 기존 .SAS 확장 파일을 데이터 프레임을 사용하여 CSV 형식으로 저장합니다.

이 기사가 Python을 사용하여 SAS 파일을 사용하는 방법을 배우는 데 도움이 되기를 바랍니다.

작가: Abid Ullah
Abid Ullah avatar Abid Ullah avatar

My name is Abid Ullah, and I am a software engineer. I love writing articles on programming, and my favorite topics are Python, PHP, JavaScript, and Linux. I tend to provide solutions to people in programming problems through my articles. I believe that I can bring a lot to you with my skills, experience, and qualification in technical writing.

LinkedIn