Pandas elimina las filas duplicadas

Suraj Joshi 30 enero 2023 Pandas Pandas DataFrame Row

DataFrame.drop_duplicates() Sintaxis
Eliminar filas duplicadas con el método DataFrame.drop_duplicates()
Establezca keep='last' en el método drop_duplicates()

Este tutorial explica cómo podemos eliminar todas las filas duplicadas de un DataFrame de Pandas utilizando el método DataFrame.drop_duplicates().

`DataFrame.drop_duplicates()` Sintaxis

DataFrame.drop_duplicates(subset=None, keep="first", inplace=False, ignore_index=False)

Devuelve un DataFrame eliminando todas las filas repetidas en el DataFrame.

Eliminar filas duplicadas con el método `DataFrame.drop_duplicates()`

import pandas as pd

df_with_duplicates = pd.DataFrame(
    {
        "Id": [302, 504, 708, 103, 303, 302],
        "Name": ["Watch", "Camera", "Phone", "Shoes", "Watch", "Watch"],
        "Cost": ["300", "400", "350", "100", "300", "300"],
    }
)

df_without_duplicates = df_with_duplicates.drop_duplicates()

print("DataFrame with duplicates:")
print(df_with_duplicates, "\n")

print("DataFrame without duplicates:")
print(df_without_duplicates, "\n")

Producción :

DataFrame with duplicates:
    Id    Name Cost
0  302   Watch  300
1  504  Camera  400
2  708   Phone  350
3  103   Shoes  100
4  303   Watch  300
5  302   Watch  300 

DataFrame without duplicates:
    Id    Name Cost
0  302   Watch  300
1  504  Camera  400
2  708   Phone  350
3  103   Shoes  100
4  303   Watch  300

Elimina las filas que tienen los mismos valores para todas las columnas. Por defecto, sólo las filas que tienen los mismos valores para cada columna en el DataFrame son consideradas como duplicadas. En el DataFrame df_with_duplicates, la primera y la quinta fila tienen los mismos valores para todas las columnas, por lo que se elimina la quinta fila.

Establezca el parámetro `subset` para eliminar los duplicados basándose sólo en columnas específicas

import pandas as pd

df_with_duplicates = pd.DataFrame(
    {
        "Id": [302, 504, 708, 103, 303, 302],
        "Name": ["Watch", "Camera", "Phone", "Shoes", "Watch", "Watch"],
        "Cost": ["300", "400", "350", "100", "300", "300"],
    }
)

df_without_duplicates = df_with_duplicates.drop_duplicates(subset=["Name"])

print("DataFrame with duplicates:")
print(df_with_duplicates, "\n")

print("DataFrame without duplicates:")
print(df_without_duplicates, "\n")

Resultado:

DataFrame with duplicates:
    Id    Name Cost
0  302   Watch  300
1  504  Camera  400
2  708   Phone  350
3  103   Shoes  100
4  303   Watch  300
5  302   Watch  300 

DataFrame without duplicates:
    Id    Name Cost
0  302   Watch  300
1  504  Camera  400
2  708   Phone  350
3  103   Shoes  100

Aquí, pasamos Name como argumento subset al método drop_duplicates(). Las filas cuarta y quinta son eliminadas ya que tienen el mismo valor de la columna Name que la primera columna.

Establezca `keep='last'` en el método `drop_duplicates()`

import pandas as pd

df_with_duplicates = pd.DataFrame(
    {
        "Id": [302, 504, 708, 103, 303, 302],
        "Name": ["Watch", "Camera", "Phone", "Shoes", "Watch", "Watch"],
        "Cost": ["300", "400", "350", "100", "300", "300"],
    }
)

df_without_duplicates = df_with_duplicates.drop_duplicates(subset=["Name"], keep="last")

print("DataFrame with duplicates:")
print(df_with_duplicates, "\n")

print("DataFrame without duplicates:")
print(df_without_duplicates, "\n")

Resultado:

DataFrame with duplicates:
    Id    Name Cost
0  302   Watch  300
1  504  Camera  400
2  708   Phone  350
3  103   Shoes  100
4  303   Watch  300
5  302   Watch  300 

DataFrame without duplicates:
    Id    Name Cost
1  504  Camera  400
2  708   Phone  350
3  103   Shoes  100
5  302   Watch  300

Elimina todas las filas excepto la última que tiene el mismo valor de la columna Name.

Establecemos keep=False para eliminar todas las filas que tengan el mismo valor de cualquier columna.

import pandas as pd

df_with_duplicates = pd.DataFrame(
    {
        "Id": [302, 504, 708, 103, 303, 302],
        "Name": ["Watch", "Camera", "Phone", "Shoes", "Watch", "Watch"],
        "Cost": ["300", "400", "350", "100", "300", "300"],
    }
)

df_without_duplicates = df_with_duplicates.drop_duplicates(subset=["Name"], keep=False)

print("DataFrame with duplicates:")
print(df_with_duplicates, "\n")

print("DataFrame without duplicates:")
print(df_without_duplicates, "\n")

Producción :

DataFrame with duplicates:
    Id    Name Cost
0  302   Watch  300
1  504  Camera  400
2  708   Phone  350
3  103   Shoes  100
4  303   Watch  300
5  302   Watch  300 

DataFrame without duplicates:
    Id    Name Cost
1  504  Camera  400
2  708   Phone  350
3  103   Shoes  100

Elimina la primera, quinta y sexta fila ya que todas tienen el mismo valor de la columna Name.

¿Disfrutas de nuestros tutoriales? Suscríbete a DelftStack en YouTube para apoyarnos en la creación de más guías en vídeo de alta calidad. Suscríbete

Autor: Suraj Joshi

Suraj Joshi is a backend software engineer at Matrice.ai.

DataFrame.drop_duplicates() Sintaxis

Eliminar filas duplicadas con el método DataFrame.drop_duplicates()

Establezca el parámetro subset para eliminar los duplicados basándose sólo en columnas específicas

Establezca keep='last' en el método drop_duplicates()

Artículo relacionado - Pandas DataFrame Row

`DataFrame.drop_duplicates()` Sintaxis

Eliminar filas duplicadas con el método `DataFrame.drop_duplicates()`

Establezca el parámetro `subset` para eliminar los duplicados basándose sólo en columnas específicas

Establezca `keep='last'` en el método `drop_duplicates()`