본문 바로가기
DataScience/Statistics

Effect size

by jusep 2022. 5. 23.

1. Introduction

두 집단의 평균 차이 검증에 T-test가 일반적으로 많이 사용된다. 두 표본의 평균 차이가 모집단 차원에서도 있는 것인지 아니면 표본에서만 우연히 차이가 있는지 검증하는 방법이다. 이 검증 방법은 포본이 충분히 크면 대부분 통계적으로 유의하다고 나온다. 그래서 통계적 유의성 뿐만 아니라 효과 크기(effect size)값도 함께 제시하는 것이 좋다. 

 

2. 효과 크기 (effect size)

효과 크기 값은 cohen's D라고 부르며 공식은 다음과 같다.

효과크기 d = 두 표본 집단의 평균 차이 / 추정된 표준편차

 

3. 효과 크기의 의미

두 모집단의 분포 형태

빨간색 화살표는 표준편차의 크기이다.

따라서

  • 효과크기(d)의 값이 크면, 두 집단이 겹치는 부분이 작아 두 집단은 많이 다른 것이고
  • 효과크기(d)의 값이 작으면, 두 집단이 겹치는 부분이 많아서 두 집단은 많이 비슷하다는 의미이다.

일반적으로 d<0.2 : 작은 효과, 0.2<d<0.5 : 중간 효과, 0.8<d : 큰 효과라고 말한다. 

 

표본이 많으면 통계적 유의성은 쉽게 획득할 수 있다. 그런데 실제 현실에서는 평균의 차이가 있다는 사실 자체가 중요한 것이 아니라 그 차이가 맥락상 얼마나 의미있게 큰지가 중요하다. 

'DataScience > Statistics' 카테고리의 다른 글

비모수 검정  (1) 2022.05.23
유사도(Similarity)  (1) 2021.01.20

댓글