Comment obtenir la moyenne d'une colonne d'un pandas DataFrame

Ahmed Waheed 30 janvier 2023
  1. Méthode df.mean() pour calculer la moyenne d’une colonne Pandas DataFrame
  2. Méthode df.describe()
Comment obtenir la moyenne d'une colonne d'un pandas DataFrame

Lorsque nous travaillons avec de grands ensembles de données, nous devons parfois prendre la moyenne ou la moyenne de la colonne. Par exemple, vous avez une liste de notation des étudiants et vous voulez connaître la moyenne des notes ou une autre colonne. Voici les différentes façons d’accomplir cette tâche.

  1. df.mean()
  2. df.describe()

Nous utiliserons le même DataFrame dans les sections suivantes comme suit,

import pandas as pd

data = {
    "name": ["Oliver", "Harry", "George", "Noah"],
    "percentage": [90, 99, 50, 65],
    "grade": [88, 76, 95, 79],
}
df = pd.DataFrame(data)

Ci-dessous, l’exemple DataFrame.

     name  percentage  grade
0  Oliver          90     88
1   Harry          99     76
2  George          50     95
3    Noah          65     79

Méthode df.mean() pour calculer la moyenne d’une colonne Pandas DataFrame

Prenons la moyenne des colonnes de notes présentes dans notre jeu de données.

import pandas as pd

data = {
    "name": ["Oliver", "Harry", "George", "Noah"],
    "percentage": [90, 99, 50, 65],
    "grade": [88, 76, 95, 79],
}
df = pd.DataFrame(data)
mean_df = df["grade"].mean()
print(mean_df)

Les éléments suivants seront sortis.

84.5

Prenons un autre exemple et appliquons la fonction df.mean() à l’ensemble du DataFrame.

import pandas as pd

data = {
    "name": ["Oliver", "Harry", "George", "Noah"],
    "percentage": [90, 99, 50, 65],
    "grade": [88, 76, 95, 79],
}
df = pd.DataFrame(data)
mean_df = df.mean()
print(mean_df)

Nous ne spécifions pas le nom de la colonne dans la méthode mean() dans l’exemple ci-dessus. La méthode mean() détermine automatiquement quelles colonnes sont éligibles pour l’application de la fonction mean.

Les éléments suivants seront sortis.

percentage    76.0
grade         84.5
dtype: float64

Méthode df.describe()

Cette méthode crée la sortie d’une statistique complète de l’ensemble de données. Voyons comment l’utiliser.

import pandas as pd

data = {
    "name": ["Oliver", "Harry", "George", "Noah"],
    "percentage": [90, 99, 50, 65],
    "grade": [88, 76, 95, 79],
}
df = pd.DataFrame(data)
print(df.describe())

Production:

       percentage      grade
count    4.000000   4.000000
mean    76.000000  84.500000
std     22.524061   8.660254
min     50.000000  76.000000
25%     61.250000  78.250000
50%     77.500000  83.500000
75%     92.250000  89.750000
max     99.000000  95.000000

Le résultat de la méthode df.describle() est un DataFrame, par conséquent, vous pouvez obtenir la moyenne de pourcentage et de grade en vous référant au nom de la colonne et au nom de la ligne.

df.describe()["grade"]["mean"]
df.describe()["percentage"]["mean"]

df.describe() peut également fonctionner pour une colonne spécifique. Appliquons cette fonction sur la colonne grade.

import pandas as pd

data = {
    "name": ["Oliver", "Harry", "George", "Noah"],
    "percentage": [90, 99, 50, 65],
    "grade": [88, 76, 95, 79],
}
df = pd.DataFrame(data)
print(df["grade"].describe())

Les éléments suivants seront sortis.

count     4.000000
mean     84.500000
std       8.660254
min      76.000000
25%      78.250000
50%      83.500000
75%      89.750000
max      95.000000
Name: grade, dtype: float64

Le résultat est Series lorsque la colonne est spécifiée. Nous pourrions obtenir la valeur moyenne en faisant directement référence à la mean.

df["grade"].describe()["mean"]