Leer SAS en Pandas

Abid Ullah 21 junio 2023
  1. ¿Qué son los archivos SAS?
  2. Abrir archivos .SAS en Python
  3. Leer archivo SAS usando Pandas en Python
  4. Lea columnas específicas del archivo SAS en Python
  5. Guarde los archivos SAS en CSV en Python
Leer SAS en Pandas

Python es un lenguaje de programación que es muy útil para realizar análisis de datos, modelado de datos y visualización. Sin embargo, el almacenamiento de datos con Python puede ser bastante tedioso a veces.

En este artículo, nos enfocaremos en entender cómo abrir y usar archivos .SAS en Python usando Pandas. También discutiremos cómo podemos leer datos de archivos .SAS, cómo escribimos en archivos .SAS y cómo el uso de archivos .SAS es útil para cálculos más rápidos en Python.

¿Qué son los archivos SAS?

SAS significa Sistema de Análisis Estadístico, e incluye estadísticas y datos. Estos archivos pueden ser útiles al realizar análisis de datos, inteligencia empresarial, análisis predictivo, análisis computacional y gestión de datos.

En la mayoría de los casos, los archivos .SAS tienen las extensiones .sas7bdat y .sas7bcat.

Abrir archivos .SAS en Python

Para abrir un archivo .SAS en Python, tenemos 2 métodos diferentes. En el primer método, usamos pyreadstat, que nos permite abrir nuestros archivos .SAS en Python.

El segundo método para hacer lo mismo es usar un marco de datos de Pandas. Si usamos un marco de datos de Pandas, usaremos el método read_sas, que nos ayudará a abrir archivos SAS en nuestro cuaderno de Python.

Primero, necesitamos instalar Pyreadstat ejecutando el siguiente comando.

pip install pyreadstat

Una vez que el paquete está instalado, podemos cargar archivos SAS en nuestro cuaderno de Python.

En el siguiente paso, importaremos el Pyreadstat que acabamos de instalar.

import pyreadstat

Esto importará el paquete pyreadstat y estará listo para usar.

Ahora, para abrir el archivo SAS con la extensión .sas7bdat, necesitamos usar read_sas7bdat.

Consideremos que queremos leer un archivo que se llama gold.sas7bdat; el siguiente código nos ayudará a importar el archivo. Usaremos marcos de datos aquí.

df, meta = pyreadstat.read_sas7bdat("/gold.sas7bdat")

Ahora que ya hemos cargado el archivo usando pyreadstat, se podrá ubicar en los directorios de trabajo. Para verificar el tipo de la variable df creada, debemos escribir la siguiente línea.

type(df)

Producción:

La salida de tipo df

Ahora que sabemos que es un marco de datos de Python, ahora podremos usar todos los métodos disponibles para los objetos del marco de datos de Python. Queremos imprimir las primeras cinco entradas en el archivo.

El siguiente código podrá mostrar la salida deseada.

df.head()

Producción:

La salida del cabezal DF

Leer archivo SAS usando Pandas en Python

Esta sección nos ayudará a comprender cómo cargar el mismo archivo que se usó anteriormente usando Pandas.

En el primer paso, importaremos pandas. Esto se puede hacer con el siguiente código.

import pandas as pd

Este código importará la biblioteca de Panda a nuestro libro de trabajo.

Este paso importará el archivo a nuestro cuaderno utilizando el método read_sas de Pandas.

geturl = "/gold.sas7bdat"
df = pd.read_sas(geturl)

Este código importará el archivo a nuestro cuaderno. Ahora, imprimamos los primeros cinco registros del archivo como lo hicimos con pyreadstat.

df.head()

Producción:

La salida de la cabeza Pandas DF

Lea columnas específicas del archivo SAS en Python

Si estamos interesados en obtener columnas específicas para el archivo en cuestión, usaremos el argumento en pyreadstat por usecols. El siguiente código nos ayudará a entender mejor el concepto.

columns = ["YEAR"]
df, meta = pyreadstat.read_sas7bdat("/airline.sas7bdat", usecols=columns)
df.head()

Producción:

La salida del código usando usecols

Guarde los archivos SAS en CSV en Python

Para guardar cualquier archivo con la extensión .sas7bdat en CSV, debemos asegurarnos del uso correcto del método to_csv. El siguiente código convertirá el archivo a CSV para el marco de datos creado anteriormente.

df.to_csv("ourdatafile.csv", index=False)

El código anterior guardará el archivo de extensión .SAS existente en formato CSV utilizando marcos de datos.

Esperamos que este artículo le resulte útil para aprender a usar archivos SAS con Python.

Autor: Abid Ullah
Abid Ullah avatar Abid Ullah avatar

My name is Abid Ullah, and I am a software engineer. I love writing articles on programming, and my favorite topics are Python, PHP, JavaScript, and Linux. I tend to provide solutions to people in programming problems through my articles. I believe that I can bring a lot to you with my skills, experience, and qualification in technical writing.

LinkedIn