Intervalo de confianza en Numpy

Vaibhhav Khetarpal 30 enero 2023
  1. Intervalo de confianza
  2. Use la distribución T para calcular los intervalos de confianza en Python
  3. Use la distribución normal para calcular los intervalos de confianza en Python
Intervalo de confianza en Numpy

Un intervalo de confianza para una media es una parte esencial de las estadísticas ampliamente utilizadas en los campos de análisis de datos. Python es uno de los lenguajes de programación más populares utilizados por los profesionales en el campo del análisis de datos y permite la implementación de intervalos de confianza en matrices.

Este tutorial analiza el intervalo de confianza y demuestra los diferentes enfoques disponibles para implementarlo en Python.

Intervalo de confianza

Un intervalo de confianza para una media se puede definir como un rango de valores para los cuales anticipamos calcular el valor capaz de reflejar con precisión a la población.

La fórmula para calcular el Intervalo de Confianza se puede ver a continuación.

Confidence Interval =  x̄  +/-  t*(s/√n)

Los parámetros de esta fórmula se explican a continuación.

  1. - La media de los datos de la muestra.
  2. t - El valor t correspondiente al nivel de confianza.
  3. s - Desviación estándar para los datos de la muestra.
  4. n - El tamaño de los datos de la muestra.

Pasemos ahora a los diversos enfoques que se pueden utilizar para calcular los intervalos de confianza en Python. Se pueden utilizar dos métodos principales, ambos necesitan funciones provenientes de la biblioteca SciPy en Python.

La biblioteca SciPy en Python es una abreviatura de Scientific Python y se utiliza para proporcionar varias funciones que ayudan con la informática técnica y científica. El submódulo SciPy.stats de la biblioteca proporciona una amplia variedad de funciones que se ocupan de las estadísticas en Python.

Use la distribución T para calcular los intervalos de confianza en Python

La biblioteca SciPy.stats proporciona una función t.interval() que se puede utilizar para calcular los intervalos de confianza utilizando el enfoque de distribución t.

El enfoque de distribución t se puede utilizar cuando se trata de conjuntos de datos más pequeños, generalmente cuando los datos tienen menos de 30 elementos (n<30).

La sintaxis y la descripción de los parámetros de la función t.interval() se describen a continuación.

scipy.stats.t.interval(alpha, length, loc, scale)
  1. alpha - Define la probabilidad de obtener una variable aleatoria del rango seleccionado.
  2. length: representa la longitud del conjunto de datos dado.
  3. loc - Representa el valor del parámetro de ubicación.
  4. scale - Representa el valor del parámetro de escala.

El siguiente código toma los goles marcados por 20 futbolistas en un año calendario y calcula los intervalos de confianza del 90% para los datos proporcionados con la ayuda del enfoque de distribución t.

import numpy as np
import scipy.stats as st

# data of goals scored by 20 footballers in a calendar year
fb_data = [10, 11, 10, 14, 16, 24, 10, 6, 8, 10, 11, 27, 28, 21, 13, 10, 6, 7, 8, 10]
# create 90% confidence interval
print(
    st.t.interval(
        alpha=0.90, df=len(fb_data) - 1, loc=np.mean(fb_data), scale=st.sem(fb_data)
    )
)

El código anterior proporciona el siguiente resultado.

(10.395704943723088, 15.60429505627691)

Use la distribución normal para calcular los intervalos de confianza en Python

La misma biblioteca SciPy.stats también proporciona una función norm.interval() que se puede utilizar para calcular los intervalos de confianza utilizando el enfoque de distribución normal.

Este enfoque generalmente se utiliza en los casos en que el conjunto de datos es comparativamente más grande; es decir, el número de elementos es superior a 30 (n>30).

La sintaxis y la descripción de los parámetros de la función norm.interval() se describen a continuación.

scipy.stats.norm.interval(alpha, loc, scale)
  1. alfa - Define la probabilidad de obtener una variable aleatoria del rango seleccionado.
  2. loc - Representa el valor del parámetro de ubicación.
  3. escala - Representa el valor del parámetro de escala.

El siguiente código toma un ejemplo de un conjunto de datos de 80 elementos y calcula los intervalos de confianza del 90% con la ayuda del enfoque de distribución normal.

import numpy as np
import scipy.stats as st

fb_data = np.random.randint(15, 20, 80)
# create 90% confidence interval
print(st.norm.interval(alpha=0.90, loc=np.mean(fb_data), scale=st.sem(fb_data)))

El código anterior proporciona el siguiente resultado.

(16.763325839308074, 17.286674160691923)
Vaibhhav Khetarpal avatar Vaibhhav Khetarpal avatar

Vaibhhav is an IT professional who has a strong-hold in Python programming and various projects under his belt. He has an eagerness to discover new things and is a quick learner.

LinkedIn