Intervalle de confiance Numpy

Vaibhhav Khetarpal 18 aout 2022
  1. Intervalle de confiance
  2. Utiliser la distribution T pour calculer les intervalles de confiance en Python
  3. Utiliser la distribution normale pour calculer les intervalles de confiance en Python
Intervalle de confiance Numpy

Un intervalle de confiance pour une moyenne est une partie essentielle des statistiques largement utilisées sur les données dans les domaines de l’analyse des données. Python est l’un des langages de programmation les plus populaires utilisés par les professionnels dans le domaine de l’analyse de données et permet la mise en œuvre d’intervalles de confiance sur des tableaux.

Ce didacticiel traite de l’intervalle de confiance et illustre les différentes approches disponibles pour l’implémenter dans Python.

Intervalle de confiance

Un intervalle de confiance pour une moyenne peut être défini comme une plage de valeurs pour laquelle nous prévoyons de déterminer la valeur capable de refléter avec précision la population.

La formule de calcul de l’intervalle de confiance peut être consultée ci-dessous.

Confidence Interval =  x̄  +/-  t*(s/√n)

Les paramètres de cette formule sont expliqués ci-dessous.

  1. - La moyenne des données de l’échantillon.
  2. t - La valeur t correspondante pour le niveau de confiance.
  3. s - écart type pour les données d’échantillon.
  4. n - La taille des données d’échantillon.

Passons maintenant aux différentes approches qui peuvent être utilisées pour calculer les intervalles de confiance en Python. Deux méthodes principales peuvent être utilisées, toutes deux nécessitant des fonctions issues de la bibliothèque SciPy en Python.

La bibliothèque SciPy en Python est une abréviation de Scientific Python et est utilisée pour fournir plusieurs fonctions qui aident au calcul technique et scientifique. Le sous-module SciPy.stats de la bibliothèque fournit une grande variété de fonctions traitant des statistiques en Python.

Utiliser la distribution T pour calculer les intervalles de confiance en Python

La bibliothèque SciPy.stats fournit une fonction t.interval() qui peut être utilisée pour calculer les intervalles de confiance en utilisant l’approche de distribution t.

L’approche de distribution t peut être utilisée lorsqu’il s’agit de petits ensembles de données, généralement lorsque les données ont moins de 30 éléments (n<30).

La syntaxe et la description des paramètres de la fonction t.interval() ont été décrites ci-dessous.

scipy.stats.t.interval(alpha, length, loc, scale)
  1. alpha - Il définit la probabilité d’obtenir une variable aléatoire de la plage sélectionnée.
  2. longueur - Il représente la longueur de l’ensemble de données donné.
  3. loc - Il représente la valeur du paramètre de localisation.
  4. échelle - Il représente la valeur du paramètre d’échelle.

Le code suivant prend en compte les buts marqués par 20 footballeurs au cours d’une année civile et calcule les intervalles de confiance à 90 % pour les données données à l’aide de l’approche de distribution t.

import numpy as np
import scipy.stats as st

# data of goals scored by 20 footballers in a calendar year
fb_data = [10, 11, 10, 14, 16, 24, 10, 6, 8, 10, 11, 27, 28, 21, 13, 10, 6, 7, 8, 10]
# create 90% confidence interval
print(
    st.t.interval(
        alpha=0.90, df=len(fb_data) - 1, loc=np.mean(fb_data), scale=st.sem(fb_data)
    )
)

Le code ci-dessus fournit la sortie suivante.

(10.395704943723088, 15.60429505627691)

Utiliser la distribution normale pour calculer les intervalles de confiance en Python

La même bibliothèque SciPy.stats fournit également une fonction norm.interval() qui peut être utilisée pour calculer les intervalles de confiance en utilisant l’approche de distribution normale.

Cette approche est généralement utilisée dans les cas où l’ensemble de données est comparativement plus grand ; c’est-à-dire que le nombre d’éléments est supérieur à 30 (n>30).

La syntaxe et la description des paramètres de la fonction norm.interval() sont décrites ci-dessous.

scipy.stats.norm.interval(alpha, loc, scale)
  1. alpha - Il définit la probabilité d’obtenir une variable aléatoire de la plage sélectionnée.
  2. loc - Il représente la valeur du paramètre de localisation.
  3. échelle - Il représente la valeur du paramètre d’échelle.

Le code suivant prend un exemple d’un ensemble de données de 80 éléments et calcule les intervalles de confiance à 90 % à l’aide de l’approche de distribution normale.

import numpy as np
import scipy.stats as st

fb_data = np.random.randint(15, 20, 80)
# create 90% confidence interval
print(st.norm.interval(alpha=0.90, loc=np.mean(fb_data), scale=st.sem(fb_data)))

Le code ci-dessus fournit la sortie suivante.

(16.763325839308074, 17.286674160691923)
Vaibhhav Khetarpal avatar Vaibhhav Khetarpal avatar

Vaibhhav is an IT professional who has a strong-hold in Python programming and various projects under his belt. He has an eagerness to discover new things and is a quick learner.

LinkedIn