-
문서 유사도 측정_cosine similarity matrixText-mining 2020. 1. 8. 15:01
문서 유사도 측정에는 여러가지 방법이 존재한다. 대표적으로 1. common features model 2. ratio model 3. simple matching coefficient 4. jaccard smiliarity 5. overlap similarity 6. cosine similarity 문서 유사도 측정 방법에 대한 더 자세한 내용은 아래를 참고 ratsgo's blog https://ratsgo.github.io/from%20frequency%20to%20semantics/2017/04/20/docsim/ 문서 유사도 측정 · ratsgo's blog 이번 글에서는 문서 유사도를 측정하는 몇 가지 지표에 대해 살펴보도록 하겠습니다. 이번 글 역시 고려대 강필성 교수님 강의를 정리했음을 먼..
-
[pandas] DataFrame 원하는 컬럼 추출, astype(),groupby() 사용하기pandas & numpy 2019. 5. 10. 23:02
data 기본 구조 및 정보 파악하기 (*데이터 출처: SKT big data hub http://www.bigdatahub.co.kr) - data.info()는 데이터의 기본 정보를 나타냄 - data.describe()는 숫자값을 가지는 컬럼별로 count, mean,std,min, Q1,median,Q3,max 값의 정보를 알려줌 - 개별컬럼의 summary를 보고 싶다면 data.컬럼명.describe() 컬럼명(column name)바꾸기 원하는 column만 추출하기 - 한 개의 column만 추출 할 때에는 data['컬럼명'] - 두 개 이상의 column을 추출 할 때에는 data[['컬럼명1','컬럼명2',...]] data type 바꾸기 - astype()은 어떤 type이던지 원..