머신러닝 스터디/텍스트마이닝

토픽모델링

hozy연 2023. 11. 5. 18:15

LDA

 

 

 

수행 순서

1. 하이퍼파라미터 K 선택

2. 모든 단어를 k개 중 하나의 토픽에 할당

3. 모든 문서의 모든 단어에 대해서 아래 사항을 반복

p(topic t | document d): 문서 d의 단어들 중 토픽 t에 해당하는 단어들의 비율
p(word w | topic t): 단어 w를 갖고 있는 모든 문서들 중 토픽 t가 할당된 비율 
 

참고문헌: http://contents2.kocw.or.kr/KOCW/data/document/2020/edu1/bdu/kimjunhee1118/133.pdf

 

 

 

 

 

Top2vec

 

수행 순서

1. 임베딩된 문서 벡터와 워드 벡터를 만든다(Doc2vec, Universal Sentence Encoder, Bert Sentence Transformer 선택 가능).

2. 문서 벡터의 중심점을 Topic Vector로 둔다.

3. Topic Vector 주변에 가장 가까운 vector n개가 Topic words가 된다. 

--> 자동으로 outlier를 만들 수 있기 때문에 전처리가 필요하지 않다는 점이 가장 매력적~~

 

'머신러닝 스터디 > 텍스트마이닝' 카테고리의 다른 글

Word Embedding_Word2Vec  (0) 2023.04.28
자연어 전처리 과정  (0) 2023.04.28
RNN 단점 보완! GRU/LSTM  (0) 2023.04.22
자연어 처리 유사도 분석 정리  (0) 2023.04.22
RNN 작동원리  (0) 2023.04.22