パンダのプロファイリング

Zeeshan Afridi 2024年2月15日
  1. Python での Pandas プロファイリング
  2. Python で Pandas プロファイリングを使用する
  3. まとめ
パンダのプロファイリング

Pandas は、高性能のデータ分析ツールを提供する Python ライブラリです。 これらのツールの 1つに pandas_profiling があり、データに関するレポートを迅速かつ効率的に生成できます。

さまざまな形式 (HTMLMarkdown、および PDF) で結果を出力する機能など、非常に使いやすいさまざまな機能を提供します。 たとえば、2つ以上の変数間の相関関係を調査するために使用できます。

Python での Pandas プロファイリング

Pandas Profiling は、データ フレーム オブジェクトをすばやく簡単に分析する Python ライブラリです。 Pandas データ フレームで動作するように設計されており、データの分析と操作を容易にするさまざまな機能を提供します。

これには、要約統計、相関行列、null 値のカウントなど、多くの組み込みの診断機能が含まれています。 また、データ フレーム オブジェクトを視覚化する便利な方法を提供し、多くのエクスポート オプションが含まれています。

特に、新しいデータセットを探索するときに、データの感触をつかみ、潜在的な問題を特定するための迅速かつ簡単な方法が提供されるため、役立ちます。 また、複数のデータ フレームを比較して、構造と内容がどのように異なるかを確認することもできます。

構文:

pandas_profiling.ProfileReport(df, **kwargs)

Python で Pandas プロファイリングを使用する

Pandas Profiling は、探索的データ分析に最適なツールです。 データの要約統計と視覚化をすばやく生成できます。

数値データとカテゴリ データを調査するために使用され、データのパターンと関係を特定し、潜在的な問題を強調するのに役立ちます。 さらに、欠損値や不適切なデータ型など、潜在的なデータの問題を特定するのにも役立ちます。

全体として、Pandas プロファイリングは、データ アナリストや科学者にも役立ちます。 Pandas プロファイリングを使用するには、ライブラリをインポートし、データ フレームをプロファイラーに渡します。

Pandas プロファイリングを使用する前に、ローカル マシンにインストールされていることを確認してください。 インストールするには、次のコマンドを使用できます。

pip install pandas-profiling

その後、ProfileReport() メソッドを呼び出して、プロファイラーによって生成されたレポートを表示できます。

# importing libraries
import pandas as pd
import pandas_profiling as pp

# creating a dictionary
dictionary = {
    "ID": {0: 24, 2: 43, 4: 12, 3: 13, 4: 68, 5: 89, 6: 90, 7: 56, 8: 35},
    "Name": {
        0: "Ram",
        1: "Deep",
        2: "Yash",
        3: "Aman",
        4: "Arjun",
        5: "Aditya",
        6: "Divya",
        7: "Chelsea",
        8: "Aish",
    },
    "Marks": {0: 90, 1: 97, 2: 45, 3: 78, 4: 56, 5: 76, 6: 100, 7: 87, 8: 81},
    "Grade": {0: "B", 1: "A", 2: "F", 3: "C", 4: "E", 5: "C", 6: "D", 7: "B", 8: "B"},
}

# forming dataframe and printing
data = pd.DataFrame(dictionary)
print(data)

# forming ProfileReport and save
# as output.html file
profile = pp.ProfileReport(data)
profile.to_file("output.html")

出力:

パンダのプロファイリング

まとめ

Pandas Profiling は、データ フレームをすばやく簡単に分析できるオープンソースの Python ライブラリです。 探索的データ分析に有益であり、データをよりよく理解するのに役立ちます。

これは、データのパターンをすばやく識別し、データの構造、分布、および関係に関する洞察を提供する Python ライブラリです。

これは主に、データの探索と、外れ値、欠損値、重複行などの問題の特定に使用されます。

著者: Zeeshan Afridi
Zeeshan Afridi avatar Zeeshan Afridi avatar

Zeeshan is a detail oriented software engineer that helps companies and individuals make their lives and easier with software solutions.

LinkedIn