OLS-Regression bei Pandas

Fariba Laiq 15 Februar 2024
  1. Pandas-Datenrahmen
  2. Führen Sie eine OLS-Regression auf Pandas DataFrame aus
OLS-Regression bei Pandas

Die OLS-Regression oder Ordinary Least Squares-Regression ist im Wesentlichen eine Möglichkeit, den Wert der Koeffizienten linearer Regressionsgleichungen zu schätzen. Dieses Verfahren reduziert die Summe der quadrierten Differenzen zwischen den tatsächlichen und vorhergesagten Werten der Daten.

In diesem Artikel werden wir untersuchen, wie wir OLS-Regressionstechniken mit Hilfe des Pandas Data Frame in Python anwenden können.

Pandas-Datenrahmen

Die Pandas-Bibliothek in Python bietet verschiedene Tools und Technologien zum Bearbeiten und Analysieren von Daten. Datenrahmen sind ein solches Werkzeug.

Ein Datenrahmen in Pandas ist im Wesentlichen eine zweidimensionale Datenstruktur mit entsprechenden Labels. Es ist eine Struktur, die Daten in tabellarischer Form speichert.

Damit wir eine OLS-Regressionstechnik auf einem DataFrame durchführen können, müssen wir zuerst einen Test DataFrame erstellen. Der Weg, dies zu tun, ist in der Tat sehr einfach.

Zunächst behandeln wir die Installation aller unserer vorausgesetzten Bibliotheken. In diesem Fall sind es Pandas und statsmodels.

pip install pandas
pip install statsmodels

Wir führen die obigen Befehle im Terminal unserer Wahl aus und es installiert die Module Pandas und statsmodels, falls sie noch nicht installiert sind.

Das ist so ziemlich alles bei der Installation der Voraussetzungsfront. Jetzt können wir mit der Erstellung unseres Datenrahmens beginnen.

Der folgende Datenrahmen enthält Folgendes:

  1. Die Namen der Studenten.
  2. Die Länder, denen sie angehören.
  3. Ihre Noten in drei von 100 Fächern.

Beispielcode:

import pandas as pd

data = {
    "Student_Name": ["Anil", "Suharwardy", "Fatina", "John", "Karen"],
    "Country": ["India", "India", "Pakistan", "America", "America"],
    "Biology": [68, 73, 87, 58, 78],
    "Physics": [83, 53, 93, 87, 78],
    "Chemistry": [78, 98, 89, 73, 87],
}
data_frame = pd.DataFrame(data=data)
print(data_frame)

Ausgang:

Datenrahmen

Es ist wichtig zu beachten, dass wir Daten mit acht oder mehr Werten verwenden müssen, um professionelle und genaue OLS-Regressionsergebnisse zu erhalten. Wir haben die Liste für diesen Artikel gekürzt, damit sie leichter zu verfolgen ist.

Führen Sie eine OLS-Regression auf Pandas DataFrame aus

Nachdem wir nun unseren Datenrahmen haben, wollen wir den Ansatz verstehen, dem wir folgen sollen. Unter Verwendung der OLS-Regressionstechniken und -methoden werden wir die Ergebnisse für die Noten der Schüler in Biologie anhand ihrer Noten in Physik und Chemie vorhersagen.

Wir werden das statsmodels-Modul dieser Technik verwenden, um die OLS-Operationen auf unserem definierten Datenrahmen auszuführen. Sehen Sie sich den folgenden Code an, um zu sehen, wie wir dies erreichen.

import pandas as pd
import statsmodels.formula.api as sm

data = {
    "Student_Name": ["Anil", "Suharwardy", "Fatina", "John", "Karen"],
    "Country": ["India", "India", "Pakistan", "America", "America"],
    "Biology": [68, 73, 87, 58, 78],
    "Physics": [83, 53, 93, 87, 78],
    "Chemistry": [78, 98, 89, 73, 87],
}
data_frame = pd.DataFrame(data=data)
response = sm.ols(formula="Biology~Physics+Chemistry", data=data_frame).fit()
print(response.summary())

Ausgang:

alte Regression

Wie bereits erwähnt, leiten wir eine Formel zur Vorhersage der Biologienoten ab, speisen sie in die ols()-Methode ein und drucken später die Zusammenfassung der Ergebnisse aus.

So können wir die statsmodels- und Pandas-Bibliotheken verwenden, um eine einfache OLS-Regressionsoperation für einen Pandas-Datenrahmen durchzuführen. Ich hoffe, Sie haben die Lektüre genossen!

Fariba Laiq avatar Fariba Laiq avatar

I am Fariba Laiq from Pakistan. An android app developer, technical content writer, and coding instructor. Writing has always been one of my passions. I love to learn, implement and convey my knowledge to others.

LinkedIn