만사경영(샤인피플)

마할라노비스 거리란? 유클리드, 맨하탄 거리와 비교하고 공분산과 상관계수를 활용하는 법까지 완벽 정리! 🚀 본문

경영/AI 솔루션(HR)

마할라노비스 거리란? 유클리드, 맨하탄 거리와 비교하고 공분산과 상관계수를 활용하는 법까지 완벽 정리! 🚀

샤인피플 2025. 2. 4. 17:21
반응형

1. 거리 계산, 왜 중요할까?

우리 일상에서 거리(distance) 개념은 아주 중요한 역할을 한다.
🚕 택시를 탈 때, 🗺 지도 앱이 최단 경로를 찾아줄 때, 📊 데이터 분석을 할 때도 우리는 거리를 계산한다.

하지만 거리 계산에도 여러 방식이 있다.

유클리드 거리: 두 점 사이의 직선 거리
맨하탄 거리: 격자형(직각 이동) 거리
마할라노비스 거리: 변수 간의 관계를 반영한 거리

이 중에서도 마할라노비스 거리(Mahalanobis Distance) 는 다차원 데이터 분석에서 강력한 도구다.
특히, 공분산(Covariance)상관 계수(Correlation Coefficient) 를 활용하여 데이터의 분포를 고려한 거리를 계산한다.

그렇다면 마할라노비스 거리는 어떤 경우에 유용할까?
그리고 상관 계수는 마할라노비스 거리와 어떻게 연결될까?
이 글에서 자세히 알아보자! 🚀


2. 유클리드 거리 vs. 맨하탄 거리 vs. 마할라노비스 거리

유클리드 거리 (Euclidean Distance)

유클리드 거리는 가장 기본적인 거리 개념이다.
두 점 (x₁, y₁)과 (x₂, y₂) 사이의 직선 거리(최단 거리) 를 계산하는 방식이다.

📌 공식:

DE=(x2−x1)2+(y2−y1)2D_E = \sqrt{(x_2 - x_1)^2 + (y_2 - y_1)^2}

예제:
(1, 2)와 (4, 6) 사이의 유클리드 거리

DE=(4−1)2+(6−2)2=9+16=25=5D_E = \sqrt{(4 - 1)^2 + (6 - 2)^2} = \sqrt{9 + 16} = \sqrt{25} = 5

하지만 현실에서는 직선으로 이동할 수 없는 경우가 많다.
🛣 도로가 곡선일 수도 있고, 🚧 장애물이 있을 수도 있다!


맨하탄 거리 (Manhattan Distance)

맨하탄 거리는 X축과 Y축을 따라 직각으로만 이동 하는 거리 계산법이다.
뉴욕 맨해튼처럼 격자형 도로에서 사용하기 적합하다.

📌 공식:

DM=∣x2−x1∣+∣y2−y1∣D_M = |x_2 - x_1| + |y_2 - y_1|

예제:
(1, 2)와 (4, 6) 사이의 맨하탄 거리

DM=∣4−1∣+∣6−2∣=3+4=7D_M = |4 - 1| + |6 - 2| = 3 + 4 = 7

📌 특징:

  • 🚖 택시가 블록 단위로 이동할 때 유용
  • 📍 격자형 도로를 따라 이동하는 경우 최적의 거리 계산법

마할라노비스 거리 (Mahalanobis Distance)

마할라노비스 거리는 단순한 거리 개념이 아니다!
변수 간의 상관관계를 고려하여 거리를 측정하는 방식으로, 데이터의 분포를 반영한 거리 계산법이다.

📌 공식:

DM=(X−μ)TS−1(X−μ)D_M = \sqrt{(X - \mu)^T S^{-1} (X - \mu)}

설명:

  • XX : 데이터 포인트 벡터
  • μ\mu : 평균 벡터
  • SS : 공분산 행렬 (Covariance Matrix)
  • S−1S^{-1} : 공분산 행렬의 역행렬

예제:
평균 키가 175cm, 평균 몸무게가 70kg인 그룹이 있다고 하자.
한 사람이 키 190cm, 몸무게 90kg이라면?
유클리드 거리로 보면 멀어 보이지만, 마할라노비스 거리로 보면 그룹 내에서 정상적인 값일 수 있다!

📌 특징:

  • 📊 데이터가 얼마나 정상적인지(이상치 탐지)에 활용
  • 🤖 머신러닝과 데이터 분석에서 다차원 거리 계산에 필수

3. 마할라노비스 거리에서 상관 계수는 어떤 역할을 할까?

마할라노비스 거리 자체는 상관 계수를 직접 사용하지 않는다.
하지만 마할라노비스 거리 계산의 핵심인 공분산 행렬(Covariance Matrix) 이 상관 계수의 영향을 받는다!

즉, 데이터의 상관 계수를 분석하면, 마할라노비스 거리를 사용할 필요가 있는지 판단할 수 있다.

공분산(Covariance)와 상관 계수(Correlation Coefficient)의 관계

공분산 행렬 SS 는 다음과 같이 정의된다.

S=[Var(X)Cov(X,Y)Cov(Y,X)Var(Y)]S = \begin{bmatrix} Var(X) & Cov(X, Y) \\ Cov(Y, X) & Var(Y) \end{bmatrix}

이를 표준화하면 상관 계수 행렬 RR 이 된다.

R=[1ρXYρXY1]R = \begin{bmatrix} 1 & \rho_{XY} \\ \rho_{XY} & 1 \end{bmatrix}

여기서 ρXY\rho_{XY}피어슨 상관 계수(Pearson Correlation Coefficient) 로, 두 변수 간의 선형 관계를 나타낸다.

즉, 마할라노비스 거리 계산 시 사용되는 공분산 행렬이 상관 계수의 영향을 받기 때문에, 데이터의 상관 계수를 분석하면 마할라노비스 거리 사용 여부를 결정할 수 있다.


4. 언제 마할라노비스 거리를 사용할까?

상관 계수가 높다면 → 마할라노비스 거리 사용 권장

  • 변수가 서로 강한 상관 관계(ρ>0.8\rho > 0.8)를 가진다면, 유클리드 거리(Euclidean Distance) 를 사용하면 왜곡될 수 있음
  • 마할라노비스 거리는 상관 관계를 보정하여 거리 계산을 수행하기 때문에 적합함

상관 계수가 낮다면 → 유클리드 거리로 충분할 수도 있음

  • 변수가 독립적이거나 상관 계수가 낮다면, 마할라노비스 거리와 유클리드 거리의 차이가 크지 않음
  • 이 경우, 유클리드 거리(Euclidean Distance) 를 사용해도 충분할 가능성이 높음

5. 예제: 유클리드 거리 vs. 마할라노비스 거리 비교

(1) 상관 계수가 높은 경우

📌 키(cm)와 몸무게(kg)의 관계

키(cm)몸무게(kg)

160 50
165 55
170 60
175 65
180 70

✔ 키와 몸무게는 강한 양의 상관 관계를 가지므로, 유클리드 거리만으로는 제대로 구별하기 어려움 → 마할라노비스 거리 사용 권장 ✅

(2) 상관 계수가 낮은 경우

📌 키(cm)와 IQ의 관계

키(cm)IQ

160 110
165 108
170 105
175 112
180 107

✔ 키와 IQ는 거의 상관이 없으므로, 단순한 거리 계산(유클리드 거리)으로 충분할 가능성이 높음 → 마할라노비스 거리 불필요 ❌


6. 결론 🚀

마할라노비스 거리 사용 여부를 결정할 때, 상관 계수가 중요한 기준이 된다! 🚀

반응형