-
문서 유사도 측정_cosine similarity matrixText-mining 2020. 1. 8. 15:01
문서 유사도 측정에는 여러가지 방법이 존재한다.
대표적으로
1. common features model
2. ratio model
3. simple matching coefficient
4. jaccard smiliarity
5. overlap similarity
6. cosine similarity
문서 유사도 측정 방법에 대한 더 자세한 내용은 아래를 참고
ratsgo's blog https://ratsgo.github.io/from%20frequency%20to%20semantics/2017/04/20/docsim/
문서 유사도 측정 · ratsgo's blog
이번 글에서는 문서 유사도를 측정하는 몇 가지 지표에 대해 살펴보도록 하겠습니다. 이번 글 역시 고려대 강필성 교수님 강의를 정리했음을 먼저 밝힙니다. 그럼 시작하겠습니다. 유사도(similarity)란 비슷한 정도를 나타내는 지표를 뜻합니다. 하지만 ‘비슷하다’는 단어의 어감에서도 알 수 있듯 굉장히 주관적인 지표입니다. 이를 정량화하는 노력이 필요한데요. 자연언어처리(Natural Language Processing) 분야에서 정의하는 유사도 지표의
ratsgo.github.io
Network를 그리기 위해 python으로 문서유사도 matrix 만들기cosine_similarity
cosincosine_similaritye_similaritycosine_similarity
1) 먼저 tf-idf matrix를 생성
2) cosine_similarity 함수를 통하여 cosine similarity matrix를 생성