DataScience/Statistics3 비모수 검정 1. 비모수 통계학 모수 통계학은 모집단이 정규분포라는 가정이 필요하지만, 비모수 통계학은 분포에 대한 가정없이 가설검정을 할 수 있다. 모수 데이터 : 알려진 확률분포를 지닌 모집단에서 나온 데이터 비모수 데이터 : 확인되지 않은 확률분호를 지닌 모집단에서 나온 데이터 모수 통계학에서는 평균이 중요하고, 비모수 통계학에서는 median이 중요하다. 검정하는 내용도 둘 이상의 데이터셋이 같은 평균을 가지는지 확인하는 모수 통계학과는 달리, 비모수 통계학에서는 둘 이상의 데이터셋의 중심 위치가 같은지를 검정한다. 데이터가 먼저 정규분포를 따르는지 확인하고 따르지 않으면 비모수 통계학의 방법을 사용하면 된다. 2. 정규성 확인 먼저 데이터가 정규분포를 따르는지 확인해야 한다. 확인하는 방법에는 여러가지가 있.. 2022. 5. 23. Effect size 1. Introduction 두 집단의 평균 차이 검증에 T-test가 일반적으로 많이 사용된다. 두 표본의 평균 차이가 모집단 차원에서도 있는 것인지 아니면 표본에서만 우연히 차이가 있는지 검증하는 방법이다. 이 검증 방법은 포본이 충분히 크면 대부분 통계적으로 유의하다고 나온다. 그래서 통계적 유의성 뿐만 아니라 효과 크기(effect size)값도 함께 제시하는 것이 좋다. 2. 효과 크기 (effect size) 효과 크기 값은 cohen's D라고 부르며 공식은 다음과 같다. 효과크기 d = 두 표본 집단의 평균 차이 / 추정된 표준편차 3. 효과 크기의 의미 빨간색 화살표는 표준편차의 크기이다. 따라서 효과크기(d)의 값이 크면, 두 집단이 겹치는 부분이 작아 두 집단은 많이 다른 것이고 효과.. 2022. 5. 23. 유사도(Similarity) 1. 자카드 유사도 - Jaccard Similarity- 집합의 개념을 이용한 유사도 계산- 집합 A와 B사이의 유사도는 얼마나 많은 아이템(element)이 겹치는지로 판단- 전체집합과 교집합 사이의 비율로 유사도 계산- 공통 아이템이 없으면 0, 모두 겹치면 1- 주로 여러 단어로 구성된 문서 또는 문장이 유사한지 판단할 때 사용 2. 피어슨 유사도 - Pearson Similarity- Vector X, Y사이의 상관관계를 계산(=피어슨 상관계수)- 각 Vector의 표본평균으로 각 vector를 정규화하고, 코사인 유사도를 구한다. - 1은 양의 상관관계, -1은 음의 상관관계, 0은 상관관계 없을 나타낸다. 2021. 1. 20. 이전 1 다음