Pandas で SAS を読み取る

Abid Ullah 2023年6月21日
  1. SASファイルとは
  2. .SAS ファイルを Python で開く
  3. Python で Pandas を使用して SAS ファイルを読み取る
  4. Python で SAS ファイルから特定の列を読み取る
  5. Python で SAS ファイルを CSV に保存する
Pandas で SAS を読み取る

Python は、データ分析、データ モデリング、および視覚化の実行に非常に役立つプログラミング言語です。 ただし、Python を使用したデータの保存は、非常に面倒な場合があります。

この記事では、Pandas を使用して Python で .SAS ファイルを開いて使用する方法を理解することに焦点を当てます。 また、.SAS ファイルからデータを読み取る方法、.SAS ファイルに書き込む方法、および .SAS ファイルの使用が Python での計算を高速化するのにどのように役立つかについても説明します。

SASファイルとは

SASはStatistical Analysis Systemの略で、統計とデータが含まれています。 これらのファイルは、データ分析、ビジネス インテリジェンス、予測分析、計算分析、およびデータ管理を実行するときに役立ちます。

ほとんどの場合、.SAS ファイルの拡張子は .sas7bdat および .sas7bcat です。

.SAS ファイルを Python で開く

Python で .SAS ファイルを開くには、2つの異なる方法があります。 最初の方法では、pyreadstat を使用します。これにより、Python で .SAS ファイルを開くことができます。

同じことを行う 2つ目の方法は、Pandas データ フレームを使用することです。 Pandas データ フレームを使用する場合は、read_sas メソッドを使用します。これにより、Python ノートブックで SAS ファイルを開くことができます。

まず、次のコマンドを実行して Pyreadstat をインストールする必要があります。

pip install pyreadstat

パッケージがインストールされたら、SAS ファイルを Python ノートブックにロードできます。

次のステップでは、インストールしたばかりの Pyreadstat をインポートします。

import pyreadstat

これにより、pyreadstat パッケージがインポートされ、使用できるようになります。

ここで、拡張子が.sas7bdatの SAS ファイルを開くには、read_sas7bdatを使用する必要があります。

gold.sas7bdat という名前のファイルを読みたいと考えてみましょう。 次のコードは、ファイルをインポートするのに役立ちます。 ここではデータ フレームを使用します。

df, meta = pyreadstat.read_sas7bdat("/gold.sas7bdat")

pyreadstat を使用して既にファイルをロードしたので、作業ディレクトリに配置できるはずです。 作成された df 変数の型を確認するには、次の行に入力する必要があります。

type(df)

出力:

df typeの出力

Python データ フレームであることがわかったので、Python データ フレーム オブジェクトで使用できるすべてのメソッドを使用できるようになります。 ファイルの最初の 5つのエントリを出力します。

次のコードは、目的の出力を表示できる必要があります。

df.head()

出力:

DFヘッドの出力

Python で Pandas を使用して SAS ファイルを読み取る

このセクションは、Pandas を使用して上記で使用したのと同じファイルをロードする方法を理解するのに役立ちます。

最初のステップでは、pandas をインポートします。 これは、次のコードで実行できます。

import pandas as pd

このコードは、パンダのライブラリをワークブックにインポートします。

このステップでは、Pandas read_sas メソッドを使用してファイルをノートブックにインポートします。

geturl = "/gold.sas7bdat"
df = pd.read_sas(geturl)

このコードは、ファイルをノートブックにインポートします。 それでは、pyreadstat を使用したように、ファイルの最初の 5つのレコードを出力してみましょう。

df.head()

出力:

Pandas DF ヘッドの出力

Python で SAS ファイルから特定の列を読み取る

検討中のファイルの特定の列を取得することに関心がある場合は、usecols によって pyreadstat の引数を使用します。 次のコードは、概念をよりよく理解するのに役立ちます。

columns = ["YEAR"]
df, meta = pyreadstat.read_sas7bdat("/airline.sas7bdat", usecols=columns)
df.head()

出力:

usecols を使用したコードの出力

Python で SAS ファイルを CSV に保存する

拡張子 .sas7bdat を持つファイルを CSV に保存するには、to_csv メソッドを正しく使用する必要があります。 次のコードは、上記で作成したデータ フレームのファイルを CSV に変換します。

df.to_csv("ourdatafile.csv", index=False)

上記のコードは、データ フレームを使用して、既存の .SAS 拡張子ファイルを CSV 形式で保存します。

この記事が、Python を使用して SAS ファイルを使用する方法を学習するのに役立つことを願っています。

著者: Abid Ullah
Abid Ullah avatar Abid Ullah avatar

My name is Abid Ullah, and I am a software engineer. I love writing articles on programming, and my favorite topics are Python, PHP, JavaScript, and Linux. I tend to provide solutions to people in programming problems through my articles. I believe that I can bring a lot to you with my skills, experience, and qualification in technical writing.

LinkedIn