텍스트마이닝 3

Word Embedding_Word2Vec

참고1: 메타코드M https://www.youtube.com/watch?v=TZaeSgAWXL8 참고2: https://www.goldenplanet.co.kr/our_contents/blog?number=859&pn=1 GoldenPlanet | 빅데이터 공부 한 걸음: Word2Vec 이란? Go Beyond Data! 골든플래닛 goldenplanet.co.kr Word Embedding - 기존 정수 인코딩의 한계: 단어 사이의 연관성을 알기 어려움 - 원핫인코딩의 한계: 메모리 (희소표현_0이 많은 메트릭스), 연관성 알기 어려움 따라서, 밀집 표현(Dense Representation) 적용해보자 - One-hot encoding의 희소 문제를 보완할 수 있다 - 벡터의 차원을 원하는 대로 ..

자연어 처리 유사도 분석 정리

참고: 메가코드M https://www.youtube.com/watch?v=9ea7Ja52ezQ 단어와 단어 사이에 문장과 문장 사이의 관계가 얼마나 비슷한가? 벡터의 유사도가 중요하다!! *(기본) 코사인 유사도를 알아보자 직접 코사인 세타를 구해보자 (내적 = 길이 *길이 * cos세타) 본격적으로 유사도 분석 유형을 알아보자 1) Bag of words 1) I love apple. (Norm: root 2) 2) Apple is delicious which I love too. (Norm: root 3) 3) I want a delicious food, but an apple. (Norm: root 3) 4) Deep learning is difficult. (Norm: root 1) 각 문장의 ..

RNN 작동원리

참고: 메가코드M https://www.youtube.com/watch?v=Hn3GHHOXKCE RNN이란? 시계열 데이터를 처리하기에 좋은 뉴럴 네트워크 종류 First Order System - 현재 시간의 상태가 이전 시간의 상태와 관련이 있다고 가정 - 아래 그림을 보면 외부 입력 없이 자기 혼자 돌아가는 autonomous system(함수)으로 볼 수 있다. - 또한 현재 시간의 상태가 이전시간의 상태 + 현재의 입력에 관계가 있는 경우도 존재한다 (외부 입력이 존재하는 경우) State-Space Model 1차원 시스템의 모형 Q. 그렇다면 시간 t에서 모든 상태(x_t)가 관측 가능한가? A. 불가능하다. 예측 불가능한 변수들이 존재할 수 있다. 따라서 x_t의 일부만 관측이 가능하다. ..