머신러닝 스터디/텍스트마이닝 6

토픽모델링

LDA 수행 순서 1. 하이퍼파라미터 K 선택 2. 모든 단어를 k개 중 하나의 토픽에 할당 3. 모든 문서의 모든 단어에 대해서 아래 사항을 반복 p(topic t | document d): 문서 d의 단어들 중 토픽 t에 해당하는 단어들의 비율 p(word w | topic t): 단어 w를 갖고 있는 모든 문서들 중 토픽 t가 할당된 비율 참고문헌: http://contents2.kocw.or.kr/KOCW/data/document/2020/edu1/bdu/kimjunhee1118/133.pdf Top2vec 수행 순서 1. 임베딩된 문서 벡터와 워드 벡터를 만든다(Doc2vec, Universal Sentence Encoder, Bert Sentence Transformer 선택 가능). 2. 문..

Word Embedding_Word2Vec

참고1: 메타코드M https://www.youtube.com/watch?v=TZaeSgAWXL8 참고2: https://www.goldenplanet.co.kr/our_contents/blog?number=859&pn=1 GoldenPlanet | 빅데이터 공부 한 걸음: Word2Vec 이란? Go Beyond Data! 골든플래닛 goldenplanet.co.kr Word Embedding - 기존 정수 인코딩의 한계: 단어 사이의 연관성을 알기 어려움 - 원핫인코딩의 한계: 메모리 (희소표현_0이 많은 메트릭스), 연관성 알기 어려움 따라서, 밀집 표현(Dense Representation) 적용해보자 - One-hot encoding의 희소 문제를 보완할 수 있다 - 벡터의 차원을 원하는 대로 ..

자연어 전처리 과정

참고: https://www.youtube.com/watch?v=Rf7wvs8ZbP4 # 자연어 전처리 과정 컴퓨터 및 컴퓨터 언어에서 자연어를 효과적으로 처리할 수 있도록 전처리 과정을 거쳐야한다. 1. 토큰화 ( I/ love/ you) 2. 정제 및 추출(중요한 단어만 남긴다) 3. 인코딩 (0,1로만 이루어진 코딩: 원핫인코딩 OR 정수로 인코딩) # 언어의 형태소는 중요하다! # 언어의 전처리 과정 1) 토큰화: 주어진 문장에서 "의미 부여"가 가능한 단위를 찾는다 ex. 어제 삼성 라이온즈가 기아 타이거즈를 5:3으로 꺾고 위닝 시리즈를 거두었습니다. Q: 5:3을 어떻게 인코딩 할 것 인가? 따로 예외 처리를 해서 수동으로 인코딩을 매겨줘야한다. 5:3으로 묶을 수도 있고, 아니면 콜론을 제..

RNN 단점 보완! GRU/LSTM

참고: 메타코드M https://www.youtube.com/watch?v=rbk9XFaoCEE&lis RNN의 단점 - Exploding gradient / Vanishing gradient가 발생된다 - W_xx를 계속해서 곱해주니까 RNN: Exploding Gradient - 학습 도중 loss가 inf 뜰 경우 학습이 더 이상 진행 불가능 - 해결책? Gradient clipping : gradient를 구획 안에 가둬 놓는 것 RNN: Vanishing Gradient - 학습 종료됨..과연 이것이 vanishing문제인가? 아니면 학습이 잘 끝난 것인가? - 해결책? 초기화를 간결하게 해주는 방법이 존재하지만..다른 네트워크 구조를 쓰는것이 좋을 것이다 따라서 수도꼭지처럼 열고 닫고 할 수 ..

자연어 처리 유사도 분석 정리

참고: 메가코드M https://www.youtube.com/watch?v=9ea7Ja52ezQ 단어와 단어 사이에 문장과 문장 사이의 관계가 얼마나 비슷한가? 벡터의 유사도가 중요하다!! *(기본) 코사인 유사도를 알아보자 직접 코사인 세타를 구해보자 (내적 = 길이 *길이 * cos세타) 본격적으로 유사도 분석 유형을 알아보자 1) Bag of words 1) I love apple. (Norm: root 2) 2) Apple is delicious which I love too. (Norm: root 3) 3) I want a delicious food, but an apple. (Norm: root 3) 4) Deep learning is difficult. (Norm: root 1) 각 문장의 ..

RNN 작동원리

참고: 메가코드M https://www.youtube.com/watch?v=Hn3GHHOXKCE RNN이란? 시계열 데이터를 처리하기에 좋은 뉴럴 네트워크 종류 First Order System - 현재 시간의 상태가 이전 시간의 상태와 관련이 있다고 가정 - 아래 그림을 보면 외부 입력 없이 자기 혼자 돌아가는 autonomous system(함수)으로 볼 수 있다. - 또한 현재 시간의 상태가 이전시간의 상태 + 현재의 입력에 관계가 있는 경우도 존재한다 (외부 입력이 존재하는 경우) State-Space Model 1차원 시스템의 모형 Q. 그렇다면 시간 t에서 모든 상태(x_t)가 관측 가능한가? A. 불가능하다. 예측 불가능한 변수들이 존재할 수 있다. 따라서 x_t의 일부만 관측이 가능하다. ..