R 中按列删除重复行

Jinku Hu 2023年1月30日 R R Data Frame

使用 dplyr 包的 distinct 函数按列删除 R 中的重复行
在 R 中使用 group_by、filter 和 duplicated 函数按列删除重复行
在 R 中使用 group_by 和 slice 函数按列删除重复行

本文将介绍如何在 R 中逐列删除重复行。

使用 `dplyr` 包的 `distinct` 函数按列删除 R 中的重复行

dplyr 包提供了 distinct 函数，这是 R 语言中最常用的数据操作库之一。distinct 在给定的数据框中选择唯一的行。它将数据框作为第一个参数，然后是选择过程中需要考虑的变量。可以提供多个列变量来过滤唯一行，但在以下代码片段中，我们演示了单个变量示例。第三个参数是可选的，具有默认值 - FALSE，但如果用户明确传递 TRUE，该函数将在过滤后保留数据框中的所有变量。请注意，dplyr 使用名为管道的运算符函数 - %>%，它被解释为提供左变量作为右函数的第一个参数。即，x %?% f(y) 符号变为 f(x, y)。

library(dplyr)

df1 <- data.frame(id = c(1, 2, 2, 3, 3, 4, 5, 5),
                 gender = c("F", "F", "M", "F", "B", "B", "F", "M"),
                 variant = c("a", "b", "c", "d", "e", "f", "g", "h"))

t1 <- df1 %>% distinct(id, .keep_all = TRUE)
t2 <- df1 %>% distinct(gender, .keep_all = TRUE)
t3 <- df1 %>% distinct(variant, .keep_all = TRUE)

df2 <- mtcars

tmp1 <- df2 %>% distinct(cyl, .keep_all = TRUE)
tmp2 <- df2 %>% distinct(mpg, .keep_all = TRUE)

在 R 中使用 `group_by`、`filter` 和 `duplicated` 函数按列删除重复行

按列值删除重复行的另一种解决方案是将数据框与列变量分组，然后使用 filter 和 duplicated 函数过滤元素。第一步是使用 group_by 函数完成的，该函数是 dplyr 包的一部分。接下来，前一个操作的输出被重定向到 filter 函数以消除重复的行。

library(dplyr)

df1 <- data.frame(id = c(1, 2, 2, 3, 3, 4, 5, 5),
                 gender = c("F", "F", "M", "F", "B", "B", "F", "M"),
                 variant = c("a", "b", "c", "d", "e", "f", "g", "h"))

t1 <- df1 %>% group_by(id) %>% filter (! duplicated(id))
t2 <- df1 %>% group_by(gender) %>% filter (! duplicated(gender))
t3 <- df1 %>% group_by(variant) %>% filter (! duplicated(variant))

df2 <- mtcars

tmp3 <- df2 %>% group_by(cyl) %>% filter (! duplicated(cyl))
tmp4 <- df2 %>% group_by(mpg) %>% filter (! duplicated(mpg))

在 R 中使用 `group_by` 和 `slice` 函数按列删除重复行

或者，可以将 group_by 函数与 slice 一起使用，以按列值删除重复的行。slice 也是 dplyr 包的一部分，它按索引选择行。有趣的是，当数据框被分组时，slice 将选择每个组中给定索引上的行，如以下示例代码所示。

library(dplyr)

df1 <- data.frame(id = c(1, 2, 2, 3, 3, 4, 5, 5),
                 gender = c("F", "F", "M", "F", "B", "B", "F", "M"),
                 variant = c("a", "b", "c", "d", "e", "f", "g", "h"))

t1 <- df1 %>% group_by(id) %>% slice(1)
t2 <- df1 %>% group_by(gender) %>% slice(1)
t3 <- df1 %>% group_by(variant) %>% slice(1)

df2 <- mtcars

tmp5 <- df2 %>% group_by(cyl) %>% slice(1)
tmp6 <- df2 %>% group_by(mpg) %>% slice(1)

Enjoying our tutorials? Subscribe to DelftStack on YouTube to support us in creating more high-quality video guides. Subscribe

作者： Jinku Hu

DelftStack.com 创始人。Jinku 在机器人和汽车行业工作了8多年。他在自动测试、远程测试及从耐久性测试中创建报告时磨练了自己的编程技能。他拥有电气/电子工程背景，但他也扩展了自己的兴趣到嵌入式电子、嵌入式编程以及前端和后端编程。

LinkedIn Facebook

使用 dplyr 包的 distinct 函数按列删除 R 中的重复行

在 R 中使用 group_by、filter 和 duplicated 函数按列删除重复行

在 R 中使用 group_by 和 slice 函数按列删除重复行

相关文章 - R Data Frame

使用 `dplyr` 包的 `distinct` 函数按列删除 R 中的重复行

在 R 中使用 `group_by`、`filter` 和 `duplicated` 函数按列删除重复行

在 R 中使用 `group_by` 和 `slice` 函数按列删除重复行