Skip to content

hotire/spring-similarity

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

19 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Similarity

Hamming distance

같은 길이를 가진 두 개의 문자열에서 같은 위치에 있지만 서로 다른 문자의 개수이다. 즉, 한 문자열을 다른 문자열로 바꾸기 위해서 몇글자를 바꾸어야 하는지를 나타낸 것이다.

'1011101'과 '1001001'사이의 해밍 거리는 2이다. (1011101, 1001001) '2143896'과 '2233796'사이의 해밍 거리는 3이다. (2143896, 2233796) "toned"와 "roses"사이의 해밍 거리는 3이다. (toned, roses)

Jaccard similarity

자카드 지수(Jaccard index)는 두 집합 사이의 유사도를 측정하는 방법 중 하나이다. 자카드 계수(Jaccard coefficient) 또는 자카드 유사도(Jaccard similarity)라고도 한다. 자카드 지수는 0과 1 사이의 값을 가지며, 두 집합이 동일하면 1의 값을 가지고, 공통의 원소가 하나도 없으면 0의 값을 가진다. 자카드 지수는 아래의 식으로 정의된다.

Simhash

https://matpalm.com/resemblance/simhash/

Releases

No releases published

Packages

No packages published

Languages