Pandas で GZ ファイルを読み取る

Hira Arif 2023年6月21日
  1. Pandas で GZ ファイルを読み取る
  2. Pandas データ フレームを使用して gz ファイルを読み取る
Pandas で GZ ファイルを読み取る

あなたが Python マニアで、データの分析と処理に Python を使用している場合は、Python を使用して gz ファイルを Pandas データ フレームとして読み取ることに興味があるかもしれません。 このチュートリアルでは、pandas という Python ライブラリを使用して、gz ファイルをデータ フレームとして読み取る方法について説明します。

Pandas で GZ ファイルを読み取る

gzは、標準の GNU zip (gzip) 圧縮アルゴリズムによって圧縮された圧縮ファイルのファイル拡張子です。 Linux および Unix オペレーティング システムの圧縮形式として広く使用されています。 たとえば、電子メール用のファイルがある場合、gzファイル形式を使用してファイルをより小さなファイルに圧縮できます。

大きなデータ ファイルは、圧縮アルゴリズムを使用して圧縮され、このデータを使用します。 ユーザーは、整理された構造でコンテンツを読む必要があります。

Python ライブラリ; Pandas にはデータ フレームと呼ばれるデータ型があり、これは Python と NumPy エコシステムの不可欠な部分であり、テーブルやスプレッドシートよりも高速で使いやすく強力です。

データ フレームは、2 次元の、サイズ変更可能な、異種の可能性のある表形式のデータを表すために使用されるデータ構造です。 ラベル付きの軸 (行と列) が含まれています。

算術演算は、行ラベルと列ラベルの両方に配置されます。 これは、シリーズ オブジェクト、スプレッドシート、または SQL テーブルの辞書のようなコンテナーです。

そのため、Python を使用して gz ファイルを Pandas データ フレームとして読み取ることに関心がある場合は、.gz ファイルを直接読み取ることができないことに注意してください。Python を使用して、ファイルのデータを整理された形式に整理する必要があります。

では、.gz ファイルの読み方は? そのためには、以下の手順に従う必要があります。

  • gz ファイルの絶対パスと、ファイル読み取り用の後続の属性を記述します。
  • pandas モジュールの read_csv() メソッドを使用して、パラメーターを渡します。
  • pandas DataFrame を使用して、gz ファイルのデータを表示および操作します。

Pandas データ フレームを使用して gz ファイルを読み取る

CSV ファイル 50_Startups.csvgz 圧縮ファイルを読みたいとします。

path_gzip_file = "F:/50_Startups.csv.gz"

次のコードを実行してみましょう。

コード例 (demo.py に保存):

import pandas as pd

path_gzip_file = "F:/50_Startups.csv.gz"

gzip_file_data_frame = pd.read_csv(
    path_gzip_file, compression="gzip", header=0, sep=",", quotechar='"'
)

print(gzip_file_data_frame.head(5))

まず、pandas モジュールをインポートし、それを pd としてエイリアスして、データ フレームを操作し、ファイルを読み取ります。 次に、gz ファイルの絶対パスを指定します。

その後、pandas モジュールの pd.read_csv() メソッドを呼び出してパラメーターを渡します。 pd.read_csv は複数のパラメーターを取り、pandas データ フレームを返します。

以下に示す 5つのパラメーターを渡します。

  1. 最初のものは文字列 path オブジェクトです。
  2. 2 番目は、compression タイプの文字列です (この場合は gzip)。
  3. 3 番目は整数 header (既存の名前を置き換えることができるように明示的に header=0 を渡します。ヘッダーは、列の複数のインデックスの行位置を指定する整数のリストにすることができます。[0,1,3])。
  4. 4 番目の文字列は delimiter (この場合は ,) です。
  5. 5 番目は quotechar で、オプションの長さ 1 文字列です (引用された項目の開始と終了を示すために使用される文字。引用された項目には区切り文字を含めることができ、無視されます。)

最後に、データ フレームを head() 関数でチェーンします。この関数は、1つのパラメーター n を取り、最初の n 個のデータ行を返し、データを出力します。

ここで、上記のコードを次のように実行します。

PS F:\> & C:/Python310/python.exe f:/demo.py

50_Startups.csv.gz ファイルが正常に読み込まれました。 以下のファイル コンテンツの最初の 5 行を参照してください。

   R&D Spend  Administration  Marketing Spend       State     Profit
0  165349.20       136897.80        471784.10    New York  192261.83
1  162597.70       151377.59        443898.53  California  191792.06
2  153441.51       101145.55        407934.54     Florida  191050.39
3  144372.41       118671.85        383199.62    New York  182901.99
4  142107.34        91391.77        366168.42     Florida  166187.94