Calcule a distância de Mahalanobis em Python

Muhammad Maisam Abbas 30 janeiro 2023
  1. Calcule a distância de Mahalanobis com a função cdist() na biblioteca scipy.spatial.distance em Python
  2. Calcule a distância de Mahalanobis com o método numpy.einsum() em Python
Calcule a distância de Mahalanobis em Python

Este tutorial irá apresentar os métodos para encontrar a distância Mahalanobis entre dois arrays NumPy em Python.

Calcule a distância de Mahalanobis com a função cdist() na biblioteca scipy.spatial.distance em Python

A distância de Mahalanobis é a medida da distância entre um ponto e uma distribuição. Se quisermos encontrar a distância Mahalanobis entre dois arrays, podemos usar a função cdist() dentro da biblioteca scipy.spatial.distance em Python. A função cdist() calcula a distância entre duas coleções. Podemos especificar mahalanobis nos parâmetros de entrada para encontrar a distância de Mahalanobis. Veja o seguinte exemplo de código.

import numpy as np
from scipy.spatial.distance import cdist

x = np.array([[[1, 2, 3], [3, 4, 5], [5, 6, 7]], [[5, 6, 7], [7, 8, 9], [9, 0, 1]]])

i, j, k = x.shape

xx = x.reshape(i, j * k).T


y = np.array([[[8, 7, 6], [6, 5, 4], [4, 3, 2]], [[4, 3, 2], [2, 1, 0], [0, 1, 2]]])


yy = y.reshape(i, j * k).T

results = cdist(xx, yy, "mahalanobis")

results = np.diag(results)
print(results)

Resultado:

[3.63263583 2.59094773 1.97370848 1.97370848 2.177978   3.04256456
 3.04256456 1.54080605 2.58298363]

Calculamos e armazenamos a distância de Mahalanobis entre as matrizes x e y com a função cdist() no código acima. Primeiro criamos os dois arrays com a função np.array(). Em seguida, remodelamos ambas as matrizes e salvamos a transposição nas novas matrizes xx e yy. Em seguida, passamos essas novas matrizes para a função cdist() e especificamos mahalanobis nos parâmetros com cdist(xx,yy,'mahalanobis').

Calcule a distância de Mahalanobis com o método numpy.einsum() em Python

Também podemos calcular a distância de Mahalanobis entre duas matrizes usando o método numpy.einsum(). O método numpy.einsum() é usado para avaliar a convenção de soma de Einstein nos parâmetros de entrada.

import numpy as np

x = np.array([[[1, 2, 3], [3, 4, 5], [5, 6, 7]], [[5, 6, 7], [7, 8, 9], [9, 0, 1]]])
i, j, k = x.shape

xx = x.reshape(i, j * k).T


y = np.array([[[8, 7, 6], [6, 5, 4], [4, 3, 2]], [[4, 3, 2], [2, 1, 0], [0, 1, 2]]])


yy = y.reshape(i, j * k).T

X = np.vstack([xx, yy])
V = np.cov(X.T)
VI = np.linalg.inv(V)
delta = xx - yy
results = np.sqrt(np.einsum("nj,jk,nk->n", delta, VI, delta))
print(results)

Resultado:

[3.63263583 2.59094773 1.97370848 1.97370848 2.177978   3.04256456
 3.04256456 1.54080605 2.58298363]

Passamos matrizes para a função np.vstack() e armazenamos o valor dentro de X. Depois disso, passamos a transposição de X para a função np.cov() e armazenamos o resultado dentro de V. Em seguida, calculamos o inverso multiplicativo do array V e armazenamos o resultado em VI. Calculamos a diferença entre xx e yy e armazenamos os resultados em delta. No final, calculamos e armazenamos a distância de Mahalanobis entre x e y com results = np.sqrt(np.einsum('nj,jk,nk->n', delta, VI, delta)).

Muhammad Maisam Abbas avatar Muhammad Maisam Abbas avatar

Maisam is a highly skilled and motivated Data Scientist. He has over 4 years of experience with Python programming language. He loves solving complex problems and sharing his results on the internet.

LinkedIn

Artigo relacionado - Python NumPy