Función Pandas DataFrame.describe()

Minahil Noor 30 enero 2023
  1. Sintaxis de pandas.DataFrame.describe():
  2. Códigos de ejemplo: Método DataFrame.describe() para encontrar las estadísticas de un DataFrame
  3. Códigos de ejemplo: Método DataFrame.describe() para encontrar las estadísticas de cada columna
  4. Códigos de ejemplo: Método DataFrame.describe() para encontrar las estadísticas de las columnas numéricas
Función Pandas DataFrame.describe()

La función Pandas DataFrame.describe() informa sobre los datos estadísticos de un DataFrame.

Sintaxis de pandas.DataFrame.describe():

DataFrame.describe(
    percentiles=None, include=None, exclude=None, datetime_is_numeric=False
)

Parámetros

percentiles Este parámetro indica los percentiles a incluir en la salida. Todos los valores deben estar entre 0 y 1. El valor por defecto es [.25, .5, .75], que devuelve los percentiles 25, 50 y 75.
include Especifica los tipos de datos a incluir en la salida. Tiene tres opciones.
all: todas las columnas de la entrada se incluirán en la salida.
Una lista de tipos de datos: limita los resultados a los tipos de datos proporcionados.
None: El resultado incluirá todas las columnas numéricas.
exclude Especifica los tipos de datos a excluir de la salida. Tiene dos opciones.
Una lista de tipos de datos: excluye del resultado los tipos de datos proporcionados.
None: El resultado no excluirá nada.
datetime_is_numeric Un parámetro booleano. Indica si se deben tratar los tipos de datos datetime como numéricos.

Retorna

Devuelve el resumen de estadísticas de la Series o Dataframe pasado.

Códigos de ejemplo: Método DataFrame.describe() para encontrar las estadísticas de un DataFrame

import pandas as pd

dataframe=pd.DataFrame({'Attendance': {0: 60, 1: 100, 2: 80,3: 78,4: 95},
                        'Name': {0: 'Olivia', 1: 'John', 2: 'Laura',3: 'Ben',4: 'Kevin'},
                        'Obtained Marks': {0: 90, 1: 75, 2: 82, 3: 64, 4: 45}})

print("The Original Data frame is: \n")
print(dataframe)

dataframe1 = dataframe.describe()
print("Statistics are: \n")
print(dataframe1)

Producción:

The Original Data frame is: 

   Attendance    Name  Obtained Marks
0          60  Olivia              90
1         100    John              75
2          80   Laura              82
3          78     Ben              64
4          95   Kevin              45
Statistics are: 

       Attendance  Obtained Marks
count    5.000000        5.000000
mean    82.600000       71.200000
std     15.773395       17.484279
min     60.000000       45.000000
25%     78.000000       64.000000
50%     80.000000       75.000000
75%     95.000000       82.000000
max    100.000000       90.000000

La función ha devuelto el resumen de las estadísticas del DataFrame. No hemos pasado ningún parámetro, por lo que la función ha utilizado todos los valores por defecto.

Códigos de ejemplo: Método DataFrame.describe() para encontrar las estadísticas de cada columna

Encontraremos las estadísticas de todas las columnas utilizando el parámetro include.

import pandas as pd
dataframe=pd.DataFrame({'Attendance': {0: 60, 1: 100, 2: 80,3: 78,4: 95},
                        'Name': {0: 'Olivia', 1: 'John', 2: 'Laura',3: 'Ben',4: 'Kevin'},
                        'Obtained Marks': {0: 90, 1: 75, 2: 82, 3: 64, 4: 45}})
print("The Original Data frame is: \n")
print(dataframe)

dataframe1 = dataframe.describe(include='all')
print("Statistics are: \n")
print(dataframe1)

Producción:

The Original Data frame is: 

   Attendance    Name  Obtained Marks
0          60  Olivia              90
1         100    John              75
2          80   Laura              82
3          78     Ben              64
4          95   Kevin              45
Statistics are: 

        Attendance   Name  Obtained Marks
count     5.000000      5        5.000000
unique         NaN      5             NaN
top            NaN  Kevin             NaN
freq           NaN      1             NaN
mean     82.600000    NaN       71.200000
std      15.773395    NaN       17.484279
min      60.000000    NaN       45.000000
25%      78.000000    NaN       64.000000
50%      80.000000    NaN       75.000000
75%      95.000000    NaN       82.000000
max     100.000000    NaN       90.000000

La función ha devuelto el resumen de las estadísticas de todas las columnas del DataFrame.

Códigos de ejemplo: Método DataFrame.describe() para encontrar las estadísticas de las columnas numéricas

Ahora encontraremos las estadísticas de las columnas numéricas solamente usando el parámetro exclude.

import pandas as pd

dataframe=pd.DataFrame({'Attendance': {0: 60, 1: 100, 2: 80,3: 78,4: 95},
                        'Name': {0: 'Olivia', 1: 'John', 2: 'Laura',3: 'Ben',4: 'Kevin'},
                        'Obtained Marks': {0: 90, 1: 75, 2: 82, 3: 64, 4: 45}})
print("The Original Data frame is: \n")
print(dataframe)

dataframe1 = dataframe.describe(exclude=[object])
print("Statistics are: \n")
print(dataframe1)

Resultado:

The Original Data frame is: 

   Attendance    Name  Obtained Marks
0          60  Olivia              90
1         100    John              75
2          80   Laura              82
3          78     Ben              64
4          95   Kevin              45
Statistics are: 

       Attendance  Obtained Marks
count    5.000000        5.000000
mean    82.600000       71.200000
std     15.773395       17.484279
min     60.000000       45.000000
25%     78.000000       64.000000
50%     80.000000       75.000000
75%     95.000000       82.000000
max    100.000000       90.000000

Hemos excluido el tipo de datos object.

Artículo relacionado - Pandas DataFrame