Parcela Seaborn Box

Manav Narula 20 noviembre 2021
Parcela Seaborn Box

Se pueden crear diferentes gráficos y diagramas estadísticos utilizando el módulo seaborn en Python. Podemos crear un diagrama de caja usando la función seaborn.boxplot().

Los analistas y estadísticos utilizan con frecuencia un diagrama de caja para representar datos en diferentes niveles o categorías. La figura del diagrama de caja puede transmitir muchos valores estadísticos. La siguiente figura explica esto.

Información del diagrama de caja

La función boxplot() funciona de manera eficiente al trazar valores categóricos de un conjunto de datos y también puede trabajar con listas únicas o vectores de array. Es muy similar a la trama del violín.

En el siguiente ejemplo, trazamos un diagrama de caja para una sola distribución para tener una idea de la figura final.

import random
import numpy as np
import seaborn as sns

n = random.sample(range(0, 50), 30)
arr = np.array(n)
sns.boxplot(n)

diagrama de caja para una sola variable

También podemos trazar un diagrama de dispersión sobre el diagrama de caja. Le dará una mejor comprensión de la distribución trazada y la figura final.

Usaremos la función seaborn.stripplot() para trazar el gráfico de dispersión. Por ejemplo,

import random
import numpy as np
import seaborn as sns

n = random.sample(range(0, 50), 30)
arr = np.array(n)
sns.boxplot(n)
sns.stripplot(n, color="red")

stripplot en diagrama de caja

El diagrama de caja se puede utilizar de manera eficiente para trazar las variables categóricas y simplificar su comparación. En el siguiente código, trazaremos el diagrama de caja para múltiples categorías.

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

df = pd.DataFrame(
    {
        "Quantity": [5, 6, 7, 8, 5, 6, 7, 8, 5, 6, 7, 8, 5, 6, 7, 8],
        "Price": [9, 10, 15, 16, 13, 14, 15, 18, 11, 12, 14, 15, 16, 17, 18, 19],
        "Day": [1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2],
        "Product": [
            "A",
            "A",
            "A",
            "A",
            "B",
            "B",
            "B",
            "B",
            "A",
            "A",
            "A",
            "A",
            "B",
            "B",
            "B",
            "B",
        ],
    }
)

sns.boxplot(data=df, y="Price", x="Quantity")

diagrama de caja para datos categóricos

Observe cómo en el conjunto de datos anterior, podemos comparar fácilmente el precio en diferentes cantidades. También podemos agregar el parámetro hue y establecer su valor como la variable Product. De esta forma, podremos trazar diferentes cajas para diferentes productos.

Podemos usar matplotlib.pyplot.ylim() y matplotlib.pyplot.xlim() para establecer los límites en x y el eje y del gráfico.

Podemos usar muchos más parámetros para modificar el gráfico final. El parámetro linewidth se puede utilizar para aumentar el grosor de los bordes del diagrama de caja. Podemos personalizar los colores para diferentes categorías usando el parámetro palette. La orientación se puede cambiar mediante el argumento orient. Hay muchos más argumentos de este tipo que se pueden utilizar.

Consulte el código a continuación para comprender la aplicación de algunos de estos parámetros.

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

df = pd.DataFrame(
    {
        "Quantity": [5, 6, 7, 8, 5, 6, 7, 8, 5, 6, 7, 8, 5, 6, 7, 8],
        "Price": [9, 10, 15, 16, 13, 14, 15, 18, 11, 12, 14, 15, 16, 17, 18, 19],
        "Day": [1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2],
        "Product": [
            "A",
            "A",
            "A",
            "A",
            "B",
            "B",
            "B",
            "B",
            "A",
            "A",
            "A",
            "A",
            "B",
            "B",
            "B",
            "B",
        ],
    }
)

sns.boxplot(
    data=df, y="Price", x="Quantity", hue="Product", linewidth=2.5, palette="Set2"
)

diagrama de caja para varias columnas con argumentos

También podemos usar la función catplot() para crear un diagrama de caja. La función catplot() funciona muy bien para trazar valores categóricos. Para crear un diagrama de caja usando esta función, necesitamos especificar el valor del parámetro kind en la función catplot() como box.

Manav Narula avatar Manav Narula avatar

Manav is a IT Professional who has a lot of experience as a core developer in many live projects. He is an avid learner who enjoys learning new things and sharing his findings whenever possible.

LinkedIn