1. 자카드 유사도 - Jaccard Similarity
- 집합의 개념을 이용한 유사도 계산
- 집합 A와 B사이의 유사도는 얼마나 많은 아이템(element)이 겹치는지로 판단
- 전체집합과 교집합 사이의 비율로 유사도 계산
- 공통 아이템이 없으면 0, 모두 겹치면 1
- 주로 여러 단어로 구성된 문서 또는 문장이 유사한지 판단할 때 사용
2. 피어슨 유사도 - Pearson Similarity
- Vector X, Y사이의 상관관계를 계산(=피어슨 상관계수)
- 각 Vector의 표본평균으로 각 vector를 정규화하고, 코사인 유사도를 구한다.
- 1은 양의 상관관계, -1은 음의 상관관계, 0은 상관관계 없을 나타낸다.
'DataScience > Statistics' 카테고리의 다른 글
비모수 검정 (1) | 2022.05.23 |
---|---|
Effect size (3) | 2022.05.23 |
댓글