Regresión OLS en Pandas

Fariba Laiq 15 febrero 2024
  1. Marcos de datos de pandas
  2. Ejecute una regresión OLS en Pandas DataFrame
Regresión OLS en Pandas

La regresión OLS, o regresión de Mínimos cuadrados ordinarios, es esencialmente una forma de estimar el valor de los coeficientes de las ecuaciones de regresión lineal. Este método reduce la suma de las diferencias al cuadrado entre los valores reales y predichos de los datos.

En este artículo, exploraremos cómo podemos aplicar técnicas de regresión OLS con la ayuda de Pandas Data Frame en Python.

Marcos de datos de pandas

La biblioteca Pandas en Python proporciona varias herramientas y tecnologías para manipular y analizar datos. Los marcos de datos son una de esas herramientas.

Un marco de datos en Pandas es esencialmente una estructura de datos bidimensional con las etiquetas correspondientes. Es una estructura que almacena datos en forma tabular.

Para que podamos realizar una técnica de regresión OLS en un DataFrame, primero necesitaremos crear un DataFrame de prueba. La forma de hacerlo es muy sencilla.

Primero, cubrimos la instalación de todas nuestras bibliotecas de requisitos previos. En este caso se trata de Pandas y statsmodels.

pip install pandas
pip install statsmodels

Ejecutamos los comandos anteriores en la terminal de nuestra elección, e instalará los módulos Pandas y statsmodels si aún no están instalados.

Eso es prácticamente todo en la instalación del frente de requisitos previos. Ahora podemos comenzar a crear nuestro marco de datos.

El siguiente marco de datos contiene lo siguiente:

  1. Los nombres de los estudiantes.
  2. Los países a los que pertenecen.
  3. Sus calificaciones en tres materias de 100.

Código de ejemplo:

import pandas as pd

data = {
    "Student_Name": ["Anil", "Suharwardy", "Fatina", "John", "Karen"],
    "Country": ["India", "India", "Pakistan", "America", "America"],
    "Biology": [68, 73, 87, 58, 78],
    "Physics": [83, 53, 93, 87, 78],
    "Chemistry": [78, 98, 89, 73, 87],
}
data_frame = pd.DataFrame(data=data)
print(data_frame)

Producción:

marco de datos

Es importante tener en cuenta que debemos usar datos con ocho o más valores para obtener resultados de regresión OLS profesionales y precisos. Acortamos la lista de este artículo para que sea más fácil de seguir.

Ejecute una regresión OLS en Pandas DataFrame

Ahora que tenemos nuestro marco de datos, comprendamos el enfoque que debemos seguir. Usando las técnicas y métodos de regresión OLS, estaremos prediciendo los resultados de las calificaciones de los estudiantes en Biología usando sus calificaciones en Física y Química.

Usaremos el módulo statsmodels de esta técnica para realizar las operaciones OLS en nuestro marco de datos definido. Mire el código a continuación para observar cómo logramos esto.

import pandas as pd
import statsmodels.formula.api as sm

data = {
    "Student_Name": ["Anil", "Suharwardy", "Fatina", "John", "Karen"],
    "Country": ["India", "India", "Pakistan", "America", "America"],
    "Biology": [68, 73, 87, 58, 78],
    "Physics": [83, 53, 93, 87, 78],
    "Chemistry": [78, 98, 89, 73, 87],
}
data_frame = pd.DataFrame(data=data)
response = sm.ols(formula="Biology~Physics+Chemistry", data=data_frame).fit()
print(response.summary())

Producción:

regresión de mínimos cuadrados

Como se observa, derivamos una fórmula para predecir las marcas de Biología, la alimentamos al método ols() y luego imprimimos el resumen de los resultados.

Así es como podemos usar las bibliotecas statsmodels y Pandas para realizar una operación de regresión OLS sencilla en un marco de datos de Pandas. ¡Espero que hayas disfrutado la lectura!

Fariba Laiq avatar Fariba Laiq avatar

I am Fariba Laiq from Pakistan. An android app developer, technical content writer, and coding instructor. Writing has always been one of my passions. I love to learn, implement and convey my knowledge to others.

LinkedIn