본문 바로가기
DataScience/Statistics

유사도(Similarity)

by jusep 2021. 1. 20.

1. 자카드 유사도 - Jaccard Similarity

- 집합의 개념을 이용한 유사도 계산

- 집합 A와 B사이의 유사도는 얼마나 많은 아이템(element)이 겹치는지로 판단

- 전체집합과 교집합 사이의 비율로 유사도 계산

- 공통 아이템이 없으면 0, 모두 겹치면 1

- 주로 여러 단어로 구성된 문서 또는 문장이 유사한지 판단할 때 사용

 

2. 피어슨 유사도 - Pearson Similarity

- Vector X, Y사이의 상관관계를 계산(=피어슨 상관계수)

- 각 Vector의 표본평균으로 각 vector를 정규화하고, 코사인 유사도를 구한다. 

- 1은 양의 상관관계, -1은 음의 상관관계, 0은 상관관계 없을 나타낸다. 

'DataScience > Statistics' 카테고리의 다른 글

비모수 검정  (1) 2022.05.23
Effect size  (3) 2022.05.23

댓글