머신러닝 스터디 19

토픽모델링

LDA 수행 순서 1. 하이퍼파라미터 K 선택 2. 모든 단어를 k개 중 하나의 토픽에 할당 3. 모든 문서의 모든 단어에 대해서 아래 사항을 반복 p(topic t | document d): 문서 d의 단어들 중 토픽 t에 해당하는 단어들의 비율 p(word w | topic t): 단어 w를 갖고 있는 모든 문서들 중 토픽 t가 할당된 비율 참고문헌: http://contents2.kocw.or.kr/KOCW/data/document/2020/edu1/bdu/kimjunhee1118/133.pdf Top2vec 수행 순서 1. 임베딩된 문서 벡터와 워드 벡터를 만든다(Doc2vec, Universal Sentence Encoder, Bert Sentence Transformer 선택 가능). 2. 문..

Word Embedding_Word2Vec

참고1: 메타코드M https://www.youtube.com/watch?v=TZaeSgAWXL8 참고2: https://www.goldenplanet.co.kr/our_contents/blog?number=859&pn=1 GoldenPlanet | 빅데이터 공부 한 걸음: Word2Vec 이란? Go Beyond Data! 골든플래닛 goldenplanet.co.kr Word Embedding - 기존 정수 인코딩의 한계: 단어 사이의 연관성을 알기 어려움 - 원핫인코딩의 한계: 메모리 (희소표현_0이 많은 메트릭스), 연관성 알기 어려움 따라서, 밀집 표현(Dense Representation) 적용해보자 - One-hot encoding의 희소 문제를 보완할 수 있다 - 벡터의 차원을 원하는 대로 ..

자연어 전처리 과정

참고: https://www.youtube.com/watch?v=Rf7wvs8ZbP4 # 자연어 전처리 과정 컴퓨터 및 컴퓨터 언어에서 자연어를 효과적으로 처리할 수 있도록 전처리 과정을 거쳐야한다. 1. 토큰화 ( I/ love/ you) 2. 정제 및 추출(중요한 단어만 남긴다) 3. 인코딩 (0,1로만 이루어진 코딩: 원핫인코딩 OR 정수로 인코딩) # 언어의 형태소는 중요하다! # 언어의 전처리 과정 1) 토큰화: 주어진 문장에서 "의미 부여"가 가능한 단위를 찾는다 ex. 어제 삼성 라이온즈가 기아 타이거즈를 5:3으로 꺾고 위닝 시리즈를 거두었습니다. Q: 5:3을 어떻게 인코딩 할 것 인가? 따로 예외 처리를 해서 수동으로 인코딩을 매겨줘야한다. 5:3으로 묶을 수도 있고, 아니면 콜론을 제..

RNN 단점 보완! GRU/LSTM

참고: 메타코드M https://www.youtube.com/watch?v=rbk9XFaoCEE&lis RNN의 단점 - Exploding gradient / Vanishing gradient가 발생된다 - W_xx를 계속해서 곱해주니까 RNN: Exploding Gradient - 학습 도중 loss가 inf 뜰 경우 학습이 더 이상 진행 불가능 - 해결책? Gradient clipping : gradient를 구획 안에 가둬 놓는 것 RNN: Vanishing Gradient - 학습 종료됨..과연 이것이 vanishing문제인가? 아니면 학습이 잘 끝난 것인가? - 해결책? 초기화를 간결하게 해주는 방법이 존재하지만..다른 네트워크 구조를 쓰는것이 좋을 것이다 따라서 수도꼭지처럼 열고 닫고 할 수 ..

자연어 처리 유사도 분석 정리

참고: 메가코드M https://www.youtube.com/watch?v=9ea7Ja52ezQ 단어와 단어 사이에 문장과 문장 사이의 관계가 얼마나 비슷한가? 벡터의 유사도가 중요하다!! *(기본) 코사인 유사도를 알아보자 직접 코사인 세타를 구해보자 (내적 = 길이 *길이 * cos세타) 본격적으로 유사도 분석 유형을 알아보자 1) Bag of words 1) I love apple. (Norm: root 2) 2) Apple is delicious which I love too. (Norm: root 3) 3) I want a delicious food, but an apple. (Norm: root 3) 4) Deep learning is difficult. (Norm: root 1) 각 문장의 ..

RNN 작동원리

참고: 메가코드M https://www.youtube.com/watch?v=Hn3GHHOXKCE RNN이란? 시계열 데이터를 처리하기에 좋은 뉴럴 네트워크 종류 First Order System - 현재 시간의 상태가 이전 시간의 상태와 관련이 있다고 가정 - 아래 그림을 보면 외부 입력 없이 자기 혼자 돌아가는 autonomous system(함수)으로 볼 수 있다. - 또한 현재 시간의 상태가 이전시간의 상태 + 현재의 입력에 관계가 있는 경우도 존재한다 (외부 입력이 존재하는 경우) State-Space Model 1차원 시스템의 모형 Q. 그렇다면 시간 t에서 모든 상태(x_t)가 관측 가능한가? A. 불가능하다. 예측 불가능한 변수들이 존재할 수 있다. 따라서 x_t의 일부만 관측이 가능하다. ..

이중 분류

#1. non-linear activation 이진 분류 (unit step function ) 단점: 미분 불가능, 직선 형태이기 때문에 엄격하게 구분 단점을 해결해 줄 다른 수식이 필요함. 그것이 시그모이드! #2. sigmoid 장점: 전 구간에서 미분 가능, 곡선이기 때문에 조금 덜 엄격함, 확률로 표현가능 --> 1과 0으로 가장 잘 나눠주는 선(결정경계)을 만들어서 출력값을 반환 *그렇다면 예시를 보자, 강아지 그림(확률 q) =1 고양이 그림(확률 1-q)=0 따라서 강아지의 확률을 높이려면 q를 최대화 해야하며, 고양이 확률을 높이려면 1-q를 최대화 해야한다. 즉, 간단한 식으로 보면 아래와 같다. 자 그러면 사건 하나하나를 넣어서 확률을 구해보자. 사건은 독립시행이기 때문에 곱으로 표현..

꼭 알아야할 수학(6)_정보이론

# 1 정보이론이란? * 정보 이론이란, 최대한 많은 데이터를 매체에 저장하거나 채널을 통해 통신하기 위해 데이터를 정량화하는 응용 수학의 한 분야이다.(위키백과) ex. Bits (이진수, 모스부호) - 랜덤한 정보를 최대한 효율적으로 표현하기 위해서는 높은 확률로 나오는 글자는 간결하게 낮은 확률로 나오는 글자는 보다 길게 코딩하는 것이 좋을 것. (아래의 식을 최소화하는 것이 목표) 그렇다면 어떻게 효율적인 코드 길이를 알 수 있나? 그 수치는 무엇인가? --> 엔트로피! # 2 엔트로피 (Entropy) * 엔트로피 공식은 아래와 같다. -log를 취한 이유는 언급한 확률이 클수록 길이(y)를 작게 반환하는 그래프이기 때문이다. 예시>> ** 균등 분포일때가 가장 최악의 상황이 나온다. why? ..

꼭 알아야할 수학(5)_확률

#4 최대 우도 추정 MLP (Maximum Likelihood Estimation) * 간단하게 말해 사건을 보고 확률을 추론하는 방법 (조건부 확률값이지만, 확률 분포는 아님. why? 확률의 합이 1이 아니기 때문) 아래의 예시에서 검은 공이 나올 최대의 확률을 구하는 것이 목표가 됨.! (검은 공이 A주머니에서 나왔을까 B에서 나왔을까? 어떤 주머니에서 골랐을지 그 확률을 구하는것) (vs. 조건부확률의 경우, A라는 상자를 골랐을떄 검은 공이 나올 확률을 구하는 것) 예시>> x 사건을 구해야한다고 할때 Z1, Z2 라는 예측 분포가 주어진다면 1) x+n1 = Z1 (n~N(0,표준편차)) 2) x+n2 =Z2 Z1과 Z2를 독립이라고 가정하고 x를 예측해보자, 정규분포(가우시안 분포)를 따른..

꼭 알아야할 수학(4)_확률

본 포스팅은 혁펜하임 [AI를 위한 수학] 딥린이를 위한 필수 수학 패키지를 참고하였습니다. https://www.youtube.com/watch?v=frkVgBvp850 #1 랜덤 변수와 확률 분포 * 확률 함수란? 입력: 사건 --> 출력: 확률 즉, 확률 함수로 랜덤 변수의 확률 분포를 나타냄. [확률 분포의 종류] 1. 확률 질량 함수 (Probability Mass Function): class O (ex. 동전의 확률, 주사위 확률) 예시>> - 동전: p(x=0)=1/2 - 주사위: p(x=5)=1/6 따라서, 0과 1사이의 값을 갖는 양수이며, 합이 1이 된다. 2. 확률 밀도 함수 (Probability Density Function): class X (ex. 평균 한국 남자의 키) 예시..