만사경영(샤인피플)
회귀분석을 수행할 때 반드시 고려해야 할 7가지 핵심 가정 본문
회귀분석을 할 때 가장 중요한 것은 분석 결과가 신뢰할 만한가다. 데이터를 아무리 예쁘게 정리하고, 복잡한 수식을 적용해도 가정이 충족되지 않으면 엉뚱한 결론이 나올 수 있다. 제대로 된 회귀분석을 위해 반드시 점검해야 할 7가지 기본 가정을 살펴보자.
---
1. 선형성(Linearity) - 관계가 곧아야 한다!
회귀분석은 기본적으로 "X와 Y는 선형적인 관계를 가진다"는 가정 아래에서 진행된다. 쉽게 말해, X가 증가할 때 Y도 일정한 비율로 증가(또는 감소)해야 한다는 것이다.
하지만 현실에서는 X가 변할 때 Y가 비선형적인 곡선을 그리며 변화할 수도 있다. 예를 들어, 커피를 처음 마시면 집중력이 올라가지만, 너무 많이 마시면 오히려 집중력이 떨어지는 경우처럼.
이런 경우에는 산점도를 확인하고, 선형성이 위배된다면 다항 회귀나 로그 변환 같은 방법을 고려해야 한다.
---
2. 독립성(Independence) - 데이터끼리 서로 영향을 주면 안 된다!
회귀분석에서는 각 데이터가 독립적이어야 한다. 즉, 한 데이터가 다른 데이터에 영향을 주면 안 된다.
하지만 시계열 데이터나 패널 데이터처럼 시간적 순서나 그룹 간의 의존성이 있는 경우에는 문제가 발생할 수 있다. 예를 들어, 주식 가격 예측을 할 때 과거 가격이 현재 가격에 영향을 미친다면, 단순 선형 회귀모델은 적절하지 않을 수 있다.
이럴 때는 Durbin-Watson 검정을 이용해 잔차의 자기상관 여부를 확인하고, 문제가 있다면 시계열 분석 기법을 사용하는 것이 좋다.
---
3. 등분산성(Homoscedasticity) - 잔차의 분포가 일정해야 한다!
잔차(Residuals)의 분산이 일정해야 한다. 쉽게 말해, 회귀선과 실제 데이터 간의 오차 크기가 일정해야 한다는 것이다.
하지만 현실에서는 특정 구간에서만 오차가 커지거나 작아지는 경우가 많다. 예를 들어, 소득과 소비 관계를 분석할 때, 소득이 낮은 사람들의 소비 패턴은 비교적 일정하지만, 소득이 높아질수록 소비의 변동성이 커지는 경우가 있다.
이럴 때는 잔차 대 예측값 산점도를 확인하여 점들이 부채꼴 모양으로 퍼져 있다면 가중 최소제곱법 같은 방법을 고려해야 한다.
---
4. 정규성(Normality of Residuals) - 잔차가 정규분포를 따라야 한다!
회귀분석에서는 종속 변수(Y) 자체가 아니라, 잔차(Residuals)가 정규분포를 따라야 한다는 것이 중요하다.
잔차가 정규성을 따르지 않으면 t-검정이나 F-검정의 결과가 신뢰할 수 없게 되므로 반드시 점검해야 한다.
이를 확인하는 방법으로는
Q-Q Plot을 그려보거나
Shapiro-Wilk Test나 Kolmogorov-Smirnov Test 같은 정규성 검정을 수행하면 된다.
만약 정규성이 위배된다면, 로그 변환이나 Box-Cox 변환을 고려해볼 수 있다.
---
5. 다중공선성 없음(No Multicollinearity) - 독립 변수들끼리 너무 친하면 안 된다!
회귀모형에서 독립 변수(X)들이 서로 강한 상관관계를 가지면 다중공선성 문제가 발생할 수 있다. 쉽게 말해, X 변수들끼리 너무 비슷한 정보라면, 회귀모형이 헷갈려서 엉뚱한 결과를 내놓을 수도 있다는 것이다.
이를 확인하는 가장 일반적인 방법은
VIF(Variance Inflation Factor, 분산팽창계수)를 확인하는 것이다.
보통 VIF 값이 10 이상이면 다중공선성이 심하다고 판단한다.
이 경우, 변수를 줄이거나(Lasso 회귀), 주성분 분석(PCA) 등을 고려해야 한다.
---
6. 독립 변수의 측정 오류 없음 - 데이터는 정확해야 한다!
독립 변수(X)의 값이 정확해야 한다. 만약 측정 과정에서 오류가 발생하면, 회귀계수의 신뢰성이 떨어지고 예측력이 약해질 수 있다.
예를 들어, 온도 데이터를 활용하는 연구에서 온도를 섭씨(°C)와 화씨(°F)로 혼용해서 입력했다면? 회귀 분석의 결과는 당연히 이상해진다.
데이터를 수집할 때는 정확한 측정 단위를 유지하고, 데이터 정제 과정에서 오류를 검출하는 것이 중요하다.
---
7. 모형의 적합성(Model Specification) - 필요한 변수는 빠짐없이, 불필요한 변수는 제외!
마지막으로, 모델이 적절하게 구성되었는지 확인해야 한다.
변수가 너무 적으면 중요한 요소가 빠져서 모형이 단순해지고 예측력이 낮아질 수 있다(언더피팅).
반대로, 불필요한 변수를 너무 많이 포함하면 모델이 복잡해지고 해석이 어려워질 수 있다(오버피팅).
이를 방지하기 위해
변수 선택법(예: 단계적 선택법, Lasso, Ridge 등)을 사용하거나
Adjusted R²(수정 결정계수)를 확인하여 모델의 적합도를 평가하는 것이 좋다.
---
마무리하며 – 회귀 분석이 신뢰롭기 위해서는?
위의 7가지 가정을 충족하면, 회귀 분석의 신뢰도가 올라가고 해석이 의미 있는 결과를 제공할 수 있다. 하지만 현실에서는 모든 가정을 완벽하게 충족하는 경우가 드물다.
따라서, 분석을 진행할 때는 각 가정이 얼마나 충족되는지 확인하고, 위배되는 경우 적절한 조치를 취하는 것이 중요하다.
회귀분석을 할 때는 단순히 수식만 돌리는 것이 아니라, "이 분석이 정말 의미 있는 결과를 내고 있는가?"라는 질문을 던지며 꼼꼼하게 검토하는 습관을 들여야 한다.
'경영' 카테고리의 다른 글
📊 통계적 가설검정 완전 정복! (feat. HR 데이터 분석) (7) | 2025.01.30 |
---|---|
PT 잘하는 법: 모든 이를 위한 프레젠테이션 기본 가이드 (0) | 2024.07.19 |
기업의 위험 헤징 방법(전환사채, 선물상품) (2) | 2024.05.30 |
데이터 애널리틱스- 마케팅과 HR (2) | 2024.02.21 |