Pandas Groupby 설명

Zeeshan Afridi 2023년6월21일
  1. Python에서 Pandas groupby().describe() 사용
  2. 결론
Pandas Groupby 설명

Pandas는 데이터 분석에 가장 유용하고 널리 사용되는 라이브러리 중 하나입니다. 하지만 데이터 분석이 쉽지 않은데 다행히도 Pandas는 유용한 기능을 많이 제공하고 있습니다. 유용한 기능 중 하나는 groupby.describe() 기능입니다.

describe()는 데이터를 빠르게 요약하고 모든 변수 또는 그룹에 대한 통계 분석을 제공하는 데 사용됩니다. describe()는 전체 데이터 세트, 단일 열 또는 열 그룹에 적용될 수 있습니다.

groupby.describe() 구문은 다음과 같습니다.

df.groupby("var_a")["var_b"].describe()

Python에서 Pandas groupby().describe() 사용

groupby() 함수는 다양한 변수를 기반으로 데이터 세트를 하위 그룹으로 그룹화하는 데 도움이 됩니다. 하나 이상의 변수를 기반으로 데이터 세트를 그룹화할 수 있는 반면 describe() 함수는 그룹에 대한 통계 분석을 제공합니다.

그러나 그룹의 세부 사항으로 들어가 데이터를 분석하기 전에 먼저 데이터 프레임을 생성해 보겠습니다.

# import pandas
import pandas as pd

# create DataFrame
df = pd.DataFrame(
    {
        "teams": ["A", "B", "C", "D", "E", "F"],
        "points": [8, 12, 14, 14, 15, 22],
        "assists": [2, 9, 3, 5, 7, 6],
    }
)

# view DataFrame
print(df)

출력:

  	teams  points  assists
0    A       8        2
1    B      12        9
2    C      14        3
3    D      14        5
4    E      15        7
5    F      22        6

지금까지 데이터 프레임을 만들었습니다. 다음으로 groupby() 함수를 사용하여 데이터를 그룹화하고 describe()를 사용하여 통계 분석을 살펴보겠습니다.

# import pandas
import pandas as pd

# create DataFrame
df = pd.DataFrame(
    {
        "teams": ["A", "B", "C", "D", "E", "F"],
        "points": [8, 12, 14, 14, 15, 22],
        "assists": [2, 9, 3, 5, 7, 6],
    }
)


# create a group
group = df.groupby("points")
print(group.first())
print("\n\n********** Group stats **********")

# see the stats using
group_stats = df.groupby("points").describe()
print(group_stats)

출력:

team  assists
points
8         A        2
12        B        9
14        C        3
15        E        7
22        F        6


********** Group stats **********
         assists
         count mean       std  min  25%  50%  75%  max
points
8          1.0  2.0       NaN  2.0  2.0  2.0  2.0  2.0
12         1.0  9.0       NaN  9.0  9.0  9.0  9.0  9.0
14         2.0  4.0  1.414214  3.0  3.5  4.0  4.5  5.0
15         1.0  7.0       NaN  7.0  7.0  7.0  7.0  7.0
22         1.0  6.0       NaN  6.0  6.0  6.0  6.0  6.0

위의 예에서 볼 수 있듯이 points를 기반으로 데이터를 그룹화한 다음 group_stats = df.groupby('points').describe()와 같이 describe()를 적용합니다. 이제 보시다시피 min, max, std 등과 같은 통계가 표시됩니다.

결론

groupby.describe() 함수를 사용하여 데이터를 그룹화하고 통계를 보는 방법에 대한 기사를 요약하기 위해 groupby()describe() 함수가 무엇이며 어떻게 작동하는지 논의했습니다. 또한 Python에서 데이터를 분석하기 위해 describe() 함수에서 사용하는 다양한 통계 함수에 대해 논의했습니다.

Zeeshan Afridi avatar Zeeshan Afridi avatar

Zeeshan is a detail oriented software engineer that helps companies and individuals make their lives and easier with software solutions.

LinkedIn

관련 문장 - Pandas Groupby