머신러닝 스터디 19

꼭 알아야할 수학(3)_미분심화

본 포스팅은 혁펜하임 [AI를 위한 수학] 딥린이를 위한 필수 수학 패키지를 참고하였습니다. https://www.youtube.com/watch?v=frkVgBvp850 #10 벡터를 벡터로 미분하기 *벡터 입력 --> 벡터 출력 (여러개 들어가서 여러개 나오는 경우) * 스칼라를 벡터로 미분 공식 (이전 포스트에서 도출된 공식을 바탕으로.. 벡터를 벡터로 미분해보겠음) *문제: f([x1, x2]) = [X1x2^2 , X1+X2]를 미분해보면, * 연쇄법칙 미분 적용 가능>> Y=XA , Z=YB * X-->Y(X로 미분)-->Z(Y로 미분) : 결국은 단계별로 미분하는 것과 Z를 X로 미분하는 값과 똑같음 # 11 스칼라를 행렬로 미분 * 행렬 입력 --> 스칼라 출력 *문제: f(x)=tr(xA..

꼭 알아야할 수학(2)_미분

본 포스팅은 혁펜하임 [AI를 위한 수학] 딥린이를 위한 필수 수학 패키지를 참고하였습니다. https://www.youtube.com/watch?v=frkVgBvp850 # 4 극한 * x가 a에 제일 가까운 값일때 f(x)는 무엇인가 * 극한 값이 존재해야 미분이 가능해짐! # 5 연쇄법칙 * 함수를 조각조각 미분해서 쉽게 구하자! 예시>> # 6 편미분 = 그라디언트 * f(x,y)=yx^2 와 같은 여러개의 변수로 이루어진 함수를 미분할때 각각에 대해서 미분하는 것을 말함. 즉, x에 대한 미분과 y에 대한 미분 (이때, 다른 변수는 상수로 취급하고 미분해주면 됨) # 7 Maclaurin 급수/ Taylor 급수 * 어떤 임의의 함수를 다항함수로 나타내는 것 (미분이 불가능한 함수를 다항함수로 ..

꼭 알아야할 수학(1)_로그/행렬/벡터

본 포스팅은 혁펜하임 [AI를 위한 수학] 딥린이를 위한 필수 수학 패키지를 참고하였습니다. https://www.youtube.com/watch?v=frkVgBvp850 #1 log (로그) *로그의 밑이 클수록 그래프가 더 눞는다. #2 행렬 *여러 식을 한번에, 단순하게, 간단하게 표시 밑 계산할 수 있는 장점 *단 AB!=BA * 전치 행렬 #3 벡터 * 스칼라는 숫자 1개, 벡터(좌표점을 생각하기)는 숫자 여러개로 생각하면 된다..! * 벡터는 크기와 방향이 같으면 시점이 달라도 같은 벡터 * 벡터의 크기(norm) 1) L2 norm --> 피타고라스 정리 생각하기 2) L1 norm --> 절댓값 참고: https://sooho-kim.tistory.com/85 l1-norm과 l2-norm..

인공신경망 (Artificial Neural Network, ANN)_(3)

용어 정리 DNN (Deep Neural Network) : 깊은 인공 신경망 FC (Fully-Connected Layer): 노드끼리 싹다 연결된 층 Perceptron: unit step function(계단 함수)을 활성화 함수로 사용하는 인공 신경을 의미 MLP (Multilayer Perceptron): 모든 layer가 FC layer인 신경망으로 임의의 활성화 함수를 사용하는 인공 신경망을 의미한다. 딥러닝의 목표!! loss(=cost)를 최소화하는 weight와 bias 찾기 * loss란? 내가 풀고 싶은 문제에 맞게 잘 정의하는 것 (ex. 머신의 예측값 - 실제 값) >> linear regression에서 loss를 어떻게 계산할 수 있을까? 하지만, 양수값과 음수값이 동시에 존..

군집 분석

# 1. 군집화란? - 복잡한 데이터의 구조에 대하여 알 수 있는 방법 제공 - 군집화 알고리즘은 특정 유사도(similarity) 척도에 의존함 - 무방향성 지식 발견 도구(특정 목표변수 없음, 사전에 분류된 데이터도 없고, 독립변수 종속변수의 구분 역시 없음) - 비슷한 레코드의 군집을 찾음 (marketing-segment라고 부름) - 자동 군집 탐지는 혼자서는 거의 쓰이지 않는 데이터마이닝 기법임 (군집을 찾는 것이 궁극적인 목표가 아님) * 자동 군집 탐지 알고리즘 1. K- 평균 알고리즘 2. 가우스 혼합 모형 3. 응집 군집화 4. 분할 군집화 5. 자기 조직화 지도 (SOM)- 신경망 # 2. 차원이란? - 어떤 것을 설명하기 위해 독립적으로 측정되어야 할 것들 - dimension/fe..

장바구니 분석과 연관규칙

# 장바구니 분석(Market Basket Analysis)이란? - 어떤 물품들이 함께 구매되는 경향이 있는지 분석 & 고객에 대한 이해를 도와줌 - 이러한 정보는 쉽게 행동에 옮기기 가능 (Actionable) Ex. 새로운 상점의 상품 배치, 특정 상품에 대한 행사 여부, 쿠폰 발행 시점 등 - 장바구니 데이터 1. 고객 2. 주문 (구매 또는 장바구니, item set) 3. 물품 # 연관규칙이란? - 어떤 물품들이 같이 팔리는지에 대한 분석 - 특정한 목표 없이 데이터의 패턴을 발견. 즉 무방향성 데이터 마이닝 (방향성은 목표변수가 존재하는지 존재하지 않는지에 따라 방향성이 있는지 없는지를 나눌 수 있음) - 패턴들이 잘 맞는지에 대한 판단은 사람의 해석에 달려있음 Ex. Pos(Point-of..

인공신경망 (Artificial Neural Network, ANN)_(2)

# 신경망에서 노드 갯수, 훈련 데이터 크기 1) 적절한 은닉층 갯수는? 답은 없음.! 사용자가 임의로 정해줘야함. 요즘은 최적의 노드수를 정해주는 알고리즘이 존재 2) 훈련 데이터 세트의 크기? A = H(hidden layer)*(input node 갯수+1)+H+1개의 가중치가 존재 따라서, 여기에 100을 곱한 A*100개의 데이터셋이 필요함. **너무 적은 숫자로 인공신경망 구조를 학습하는 것은 나쁨 (의사결정나무의 경우 훈련데이터의 크기는 상관이 없음) # 중요 파라미터 1) 모멘텀: 방향성 2) 학습률: 새로운 정보 학습 비율 # 특성 (Feature) - 특성의 수(노드 수)가 많을 경우 신경망에 영향을 미친다 1) 과적합의 위험이 커짐 (훈련데이터의 크기도 커져야 함) 2) 시간이 많이 ..

인공신경망 (Artificial Neural Network, ANN)_(1)

#1. 인공신경망이란? - 추정, 예측을 위한 데이터 마이닝 도구로서 인간의 두뇌 속 뉴런의 작용을 본떠 패턴을 구성한 컴퓨팅 시스템의 일종 - 분류에서도 사용가능 Ex) Som 알고리즘: self organizing map이라고 부르는 다른 형태의 인공신경망 *장점: 경험을 통한 일반화 능력 ( Rule based approach와 반대) *단점: black box approach 1) 내부에서 일어나는 일들을 설명하지 X 2) 결론에 도달한 이유를 설명하지 못함 * 인공신경망을 적용하기 좋은 문제의 특징 - input이 잘 이해된 상태 - output이 잘 이해가 된 상태 - 경험 사용이 가능한 상태(과거의 사례가 존재해야함) #2. 인공신경망의 History - XOR로직 (값이 같은면 False ..

의사결정나무(Decision Tree)

#1. 의사결정나무란? 어떤 레코드 집합이 있을때, 이레코드들을 작은 소수의 homogeneous한 그룹으로 나누는 트리 목표변수 측면에서 부모노드보다 더 순수도가 높은 자식노드들이 되도록, 데이터를 반복적으로 더 작은 집단으로 나눔 예를 들어, 스무고개! 앞선 질문에 따라 답이 달라지고, 루트노드로 부터 시작해서 계속적인 질문들이 나오게 되고 자식노드로 이어짐 마지막 말단노드는 특정 분류값을 가지는 class를 가지게 됨 * 의사결정나무는 목표변수가 이산형인 1)분류나무와 목표변수가 연속형인 2)회귀나무로 분류됨 1) 분류나무 (이산형) - 이진트리 vs. 다진트리 - 집단을 나누는 기준(순수도)은 Gini 척도, 정보이익, 카이제곱 값을 기준으로 나뉨 2) 회귀나무 (연속형) - 집단의 평균을 이용하..