Modo de localização de um vetor em R

Jinku Hu 30 janeiro 2023
  1. Use a função personalizada para encontrar o modo de um vetor R
  2. Use map_dbl para aplicar a função FindMode a cada coluna de quadro de dados em R
Modo de localização de um vetor em R

Este artigo irá explicar vários métodos de como encontrar um modo de um vetor em R.

Use a função personalizada para encontrar o modo de um vetor R

Modo é um dos conceitos estatísticos mais básicos que denota o valor máximo de ocorrência em um conjunto de valores. Como resultado, pode ser observado em diferentes tipos de dados, como numéricos ou baseados em caracteres. A linguagem R não possui uma função embutida para calcular o modo, mas podemos implementá-la usando as funções: unique, which.max, tabulate e match. Definimos uma função chamada FindMode que leva um argumento denotado como x. A princípio, a função unique é chamada em x e armazenada em um objeto separado. unique extrai valores não duplicados do conjunto. Ele pode ter um objeto vetorial, quadro de dados ou um array como o primeiro argumento.

Então, temos várias funções encadeadas começando com match que pega dois vetores e retorna um vetor de correspondências de posição a partir deles. A função tabulate conta e retorna o número de vezes que cada inteiro aparece em um vetor. Observe que o vetor retornado contém uma contagem para cada inteiro que é menor ou igual ao inteiro máximo no vetor de argumento. Finalmente, a função which.max encontra o índice do elemento máximo no vetor inteiro. Podemos invocar a função FindMode em cada coluna do quadro de dados usando a função apply. Neste caso, declaramos um vetor inteiro simples armazenado como um quadro de dados e então passado para a função apply para calcular a média.

library(purrr)

FindMode <- function(x) {
  u <- unique(x)
  u[which.max(tabulate(match(x, u)))]
}

x <- c(12, 44, 3, -4.2, 3, 3.2, 54, 4, -11, -8, 2.5)
df <- data.frame(x)
apply(df, 2, FindMode)

Resultado:

x
3

Alternativamente, podemos chamar a função FindMode diretamente no quadro de dados. O código de exemplo a seguir demonstra o uso com o conjunto de dados cars incluído no pacote datasets.

library(purrr)

FindMode <- function(x) {
  u <- unique(x)
  u[which.max(tabulate(match(x, u)))]
}

apply(cars, 2, FindMode)

Resultado:

speed  dist
   20    26

Use map_dbl para aplicar a função FindMode a cada coluna de quadro de dados em R

Outra função útil para encontrar a média de cada coluna de um determinado quadro de dados é map_dbl, que faz parte do pacote purrr incluído no tidyverse. Observe que esses métodos não devem ser chamados nos objetos vetoriais.

library(purrr)

FindMode <- function(x) {
  u <- unique(x)
  u[which.max(tabulate(match(x, u)))]
}
x <- c(12, 44, 3, -4.2, 3, 3.2, 54, 4, -11, -8, 2.5)
df <- data.frame(x)

map_dbl(df, FindMode)
map_dbl(cars, FindMode)

Resultado:

x
3
speed  dist
   20    26
Autor: Jinku Hu
Jinku Hu avatar Jinku Hu avatar

Founder of DelftStack.com. Jinku has worked in the robotics and automotive industries for over 8 years. He sharpened his coding skills when he needed to do the automatic testing, data collection from remote servers and report creation from the endurance test. He is from an electrical/electronics engineering background but has expanded his interest to embedded electronics, embedded programming and front-/back-end programming.

LinkedIn Facebook