만사경영(샤인피플)

데이터의 흩어짐을 잡아라: 분산과 표준편차 완전 정복 본문

빅데이터 분석

데이터의 흩어짐을 잡아라: 분산과 표준편차 완전 정복

샤인피플 2024. 8. 7. 15:02
반응형

안녕하세요, 여러분! 오늘은 우리의 일상 속에 숨어있는 통계의 세계로 여러분을 초대하려고 해요. 특히 '산포도'라는 개념에 대해 이야기해볼 건데요, 어렵게 들리시나요? 걱정 마세요. 제가 쉽고 재미있게 설명해 드릴게요!

1. 산포도란 뭘까요?

먼저 '산포도'라는 단어를 들으면 뭐가 떠오르시나요? 저는 처음에 '산에 포도가 열렸다'고 잘못 이해했답니다. (웃음) 하지만 실제로는 전혀 다른 의미예요.

산포도는 쉽게 말해 '데이터가 얼마나 널리 퍼져있는지'를 나타내는 척도입니다. 우리 주변의 예로 한번 생각해볼까요?

  • 여러분 반 친구들의 키
  • 동네 부동산의 집값
  • 편의점에서 파는 과자들의 가격

이런 데이터들이 서로 얼마나 다른지, 얼마나 고르게 분포되어 있는지를 나타내는 게 바로 산포도예요.

 

2. 분산: 데이터의 흩어짐을 숫자로 표현하기

자, 이제 본격적으로 '분산'에 대해 알아볼까요? 분산은 산포도를 나타내는 대표적인 지표 중 하나입니다.

2.1 분산의 정의

분산은 간단히 말해 '평균으로부터 데이터가 얼마나 떨어져 있는지'를 나타내요. 조금 더 자세히 설명하자면, 각 데이터가 평균에서 얼마나 떨어져 있는지 제곱한 값들의 평균이에요.

어렵나요? 걱정 마세요. 예를 들어 설명해 드릴게요!

2.2 분산 계산하기: 실생활 예시

우리 동네 작은 분식집의 떡볶이 판매량을 예로 들어볼게요. 일주일간의 판매량이 이렇다고 해봅시다:

  • 월요일: 50인분
  • 화요일: 45인분
  • 수요일: 55인분
  • 목요일: 48인분
  • 금요일: 60인분
  • 토요일: 70인분
  • 일요일: 52인분

1단계: 평균 구하기

먼저 평균을 구해볼까요? (50 + 45 + 55 + 48 + 60 + 70 + 52) ÷ 7 = 54.28인분

2단계: 각 데이터와 평균의 차이 구하기

이제 각 날의 판매량이 평균과 얼마나 차이 나는지 볼까요?

  • 월요일: 50 - 54.28 = -4.28
  • 화요일: 45 - 54.28 = -9.28
  • 수요일: 55 - 54.28 = 0.72
  • 목요일: 48 - 54.28 = -6.28
  • 금요일: 60 - 54.28 = 5.72
  • 토요일: 70 - 54.28 = 15.72
  • 일요일: 52 - 54.28 = -2.28

3단계: 차이의 제곱 구하기

자, 이제 이 차이들을 제곱해볼게요. (왜 제곱하냐고요? 잠시 후에 설명드릴게요!)

  • 월요일: (-4.28)² = 18.32
  • 화요일: (-9.28)² = 86.12
  • 수요일: (0.72)² = 0.52
  • 목요일: (-6.28)² = 39.44
  • 금요일: (5.72)² = 32.72
  • 토요일: (15.72)² = 247.12
  • 일요일: (-2.28)² = 5.20

4단계: 제곱한 값들의 평균 구하기

마지막으로 이 제곱한 값들의 평균을 구하면 그게 바로 분산이에요! (18.32 + 86.12 + 0.52 + 39.44 + 32.72 + 247.12 + 5.20) ÷ 7 = 61.35

따라서 우리 동네 분식집 떡볶이 판매량의 분산은 61.35(인분²)입니다.

 

2.3 분산, 왜 제곱을 사용할까?

"잠깐만요! 왜 갑자기 제곱을 하는 거죠?" 좋은 질문이에요!

제곱을 하는 이유는 크게 두 가지예요:

  1. 양수와 음수 상쇄 방지: 평균과의 차이를 그냥 더하면 양수와 음수가 서로 상쇄돼서 실제 흩어진 정도를 제대로 반영하지 못해요.
  2. 큰 차이에 더 큰 가중치 부여: 제곱을 하면 평균에서 많이 벗어난 값에 더 큰 가중치를 줄 수 있어요.

예를 들어, 평균과 5 차이 나는 값과 10 차이 나는 값이 있다고 해봐요. 그냥 더하면 15지만, 제곱해서 더하면 25 + 100 = 125가 되죠. 이렇게 더 벗어난 값의 영향을 크게 반영할 수 있어요.

3. 표준편차: 분산의 친구

자, 이제 분산의 단짝 친구인 '표준편차'를 소개할 차례예요!

3.1 표준편차란?

표준편차는 간단히 말해 분산의 제곱근이에요. 왜 갑자기 또 제곱근을 씌우냐고요? 아주 좋은 질문이에요!

  1. 원래 단위로 돌아가기: 분산을 구할 때 제곱을 했잖아요? 그래서 단위도 제곱이 되었어요 (우리 예시에서는 인분²).
    제곱근을 씌우면 원래 단위(인분)로 돌아갈 수 있어요.
  2. 해석의 용이성: 제곱근을 씌운 값이 실제 데이터와 비슷한 크기를 가져서 해석하기 더 쉬워요.

3.2 표준편차 계산하기

앞서 계산한 분산을 이용해 표준편차를 구해볼까요?

표준편차 = √분산 = √61.35 ≈ 7.83

따라서 우리 동네 분식집 떡볶이 판매량의 표준편차는 약 7.83인분입니다.

3.3 표준편차의 의미

표준편차 7.83은 무슨 뜻일까요? 간단히 말해, 평균적으로 각 날의 판매량이 평균에서 약 7.83인분 정도 차이 난다는 뜻이에요.

이를 이용해 우리는 이런 해석을 할 수 있어요:

  • 대부분의 날(약 68%)에는 판매량이 54.28 ± 7.83, 즉 46.45 ~ 62.11 인분 사이일 것이다.
  • 거의 모든 날(약 95%)에는 판매량이 54.28 ± (7.83 × 2), 즉 38.62 ~ 69.94 인분 사이일 것이다.

4. 분산과 표준편차의 활용

자, 이제 분산과 표준편차를 배웠는데요. 이걸 어디에 쓸 수 있을까요?

4.1 품질 관리

예를 들어, 과자 공장에서 과자 무게의 표준편차를 체크한다고 해봐요. 표준편차가 크면 과자들의 무게가 일정하지 않다는 뜻이겠죠? 이런 경우 생산 과정에 문제가 있을 수 있어요.

4.2 투자 위험 평가

주식 투자를 할 때도 표준편차를 많이 활용해요. 수익률의 표준편차가 크면 위험도 높지만 큰 수익을 볼 가능성도 있다는 뜻이에요.

4.3 기상 예측

일 년 동안의 기온 표준편차를 보면 그 지역의 기후를 이해하는 데 도움이 돼요. 표준편차가 작으면 일 년 내내 비슷한 기온을 유지하는 곳이겠죠?

 

 

5. 마무리: 우리 주변의 분산과 표준편차

자, 여기까지 분산과 표준편차에 대해 알아봤는데요. 어떠셨나요? 처음에는 어려워 보였지만, 우리 일상 속 예시로 보니 조금은 친숙해지셨나요?

사실 우리 주변에는 분산과 표준편차가 숨어있는 곳이 정말 많아요.

  • 학교에서 시험 점수의 분포를 볼 때
  • 회사에서 직원들의 업무 성과를 평가할 때
  • 병원에서 환자들의 혈압이나 콜레스테롤 수치를 분석할 때

이 모든 곳에서 분산과 표준편차가 중요한 역할을 하고 있답니다.

다음에 길거리에서 사람들의 키를 본다든지, 마트에서 과일 가격을 볼 때, 한번 머릿속으로 "음, 이 데이터의 분산은 얼마일까?" 하고 생각해보는 건 어떨까요?

통계, 생각보다 우리 가까이에 있답니다. 여러분의 일상에서 숨어있는 통계의 세계를 발견하는 재미를 느껴보세요!

반응형