Obtenga la subcadena de una columna en Pandas

Preet Sanghavi 21 junio 2023
  1. Obtenga la subcadena de una columna en Pandas
  2. Utilice la función str.slice() para obtener la subcadena de una columna en Pandas
  3. Use corchetes para obtener la subcadena de una columna en Pandas
  4. Utilice la función str.extract() para obtener la subcadena de una columna en Pandas
Obtenga la subcadena de una columna en Pandas

En este tutorial, aprenderemos cómo obtener la subcadena de la columna en Pandas.

Obtenga la subcadena de una columna en Pandas

Esta extracción puede ser útil en muchos escenarios cuando se trabaja con datos. Por ejemplo, considere un caso en el que queremos crear un nombre de usuario a partir del nombre de pila del usuario.

Usaremos múltiples enfoques para realizar esto.

Para empezar, vamos a crear un marco de datos de Pandas en el que trabajaremos a lo largo de nuestro tutorial. Incluiremos una columna de nombre en nuestro marco de datos y nuestro objetivo será extraer un nombre de usuario de esa columna.

Código:

import pandas as pd

dict = {"Name": ["Shivesh Jha", "Sanay Shah", "Rutwik Sonawane"]}
df = pd.DataFrame.from_dict(dict)

Echemos un vistazo a nuestro marco de datos.

print(df)

Producción :

              Name
0      Shivesh Jha
1       Sanay Shah
2  Rutwik Sonawane

Veamos ahora varias formas que podemos emplear para obtener una subcadena de la columna.

Utilice la función str.slice() para obtener la subcadena de una columna en Pandas

En este enfoque, utilizaremos la función str.slice() para obtener los primeros tres caracteres de la columna name y utilizarlos como nombre de usuario para un usuario en particular. En la función slice(), necesitamos pasar los índices de inicio y final de la cadena que queremos extraer.

Usaremos el siguiente código para realizar esta función.

df["UserName"] = df["Name"].str.slice(0, 3)
print(df)

Veamos ahora nuestro marco de datos actualizado donde tenemos una nueva columna de nombre de usuario que contiene los primeros tres caracteres de la columna nombre.

Producción :

              Name UserName
0      Shivesh Jha      Shi
1       Sanay Shah      San
2  Rutwik Sonawane      Rut

Podemos ver en el resultado que extrajimos con éxito los primeros tres caracteres de nuestra columna nombre y los usamos en la nueva columna nombre de usuario.

Use corchetes para obtener la subcadena de una columna en Pandas

Usamos los corchetes para acceder a la cadena y obtener los caracteres que deseamos extraer en este enfoque. Usamos el siguiente código para realizar esta acción.

df["UserName"] = df["Name"].str[:3]

Producción :

              Name UserName
0      Shivesh Jha      Shi
1       Sanay Shah      San
2  Rutwik Sonawane      Rut

Podemos ver en este código que hemos obtenido la nueva columna con los primeros 3 caracteres de la columna existente.

Utilice la función str.extract() para obtener la subcadena de una columna en Pandas

Este enfoque extraerá el apellido del usuario del nombre. Usaremos la función str.extract() para implementar esto.

Código:

df["LastName"] = df.Name.str.extract(r"\b(\w+)$", expand=True)

Ahora, verifiquemos el marco de datos actualizado.

print(df)

Producción :

              Name  LastName
0      Shivesh Jha       Jha
1       Sanay Shah      Shah
2  Rutwik Sonawane  Sonawane

Como se ha visto anteriormente, hemos obtenido con éxito los resultados deseados. Por lo tanto, podemos obtener la subcadena de una columna en Pandas utilizando las técnicas anteriores.

Preet Sanghavi avatar Preet Sanghavi avatar

Preet writes his thoughts about programming in a simplified manner to help others learn better. With thorough research, his articles offer descriptive and easy to understand solutions.

LinkedIn GitHub

Artículo relacionado - Pandas DataFrame Column