한양대학교 4

장바구니 분석과 연관규칙

# 장바구니 분석(Market Basket Analysis)이란? - 어떤 물품들이 함께 구매되는 경향이 있는지 분석 & 고객에 대한 이해를 도와줌 - 이러한 정보는 쉽게 행동에 옮기기 가능 (Actionable) Ex. 새로운 상점의 상품 배치, 특정 상품에 대한 행사 여부, 쿠폰 발행 시점 등 - 장바구니 데이터 1. 고객 2. 주문 (구매 또는 장바구니, item set) 3. 물품 # 연관규칙이란? - 어떤 물품들이 같이 팔리는지에 대한 분석 - 특정한 목표 없이 데이터의 패턴을 발견. 즉 무방향성 데이터 마이닝 (방향성은 목표변수가 존재하는지 존재하지 않는지에 따라 방향성이 있는지 없는지를 나눌 수 있음) - 패턴들이 잘 맞는지에 대한 판단은 사람의 해석에 달려있음 Ex. Pos(Point-of..

인공신경망 (Artificial Neural Network, ANN)_(2)

# 신경망에서 노드 갯수, 훈련 데이터 크기 1) 적절한 은닉층 갯수는? 답은 없음.! 사용자가 임의로 정해줘야함. 요즘은 최적의 노드수를 정해주는 알고리즘이 존재 2) 훈련 데이터 세트의 크기? A = H(hidden layer)*(input node 갯수+1)+H+1개의 가중치가 존재 따라서, 여기에 100을 곱한 A*100개의 데이터셋이 필요함. **너무 적은 숫자로 인공신경망 구조를 학습하는 것은 나쁨 (의사결정나무의 경우 훈련데이터의 크기는 상관이 없음) # 중요 파라미터 1) 모멘텀: 방향성 2) 학습률: 새로운 정보 학습 비율 # 특성 (Feature) - 특성의 수(노드 수)가 많을 경우 신경망에 영향을 미친다 1) 과적합의 위험이 커짐 (훈련데이터의 크기도 커져야 함) 2) 시간이 많이 ..

인공신경망 (Artificial Neural Network, ANN)_(1)

#1. 인공신경망이란? - 추정, 예측을 위한 데이터 마이닝 도구로서 인간의 두뇌 속 뉴런의 작용을 본떠 패턴을 구성한 컴퓨팅 시스템의 일종 - 분류에서도 사용가능 Ex) Som 알고리즘: self organizing map이라고 부르는 다른 형태의 인공신경망 *장점: 경험을 통한 일반화 능력 ( Rule based approach와 반대) *단점: black box approach 1) 내부에서 일어나는 일들을 설명하지 X 2) 결론에 도달한 이유를 설명하지 못함 * 인공신경망을 적용하기 좋은 문제의 특징 - input이 잘 이해된 상태 - output이 잘 이해가 된 상태 - 경험 사용이 가능한 상태(과거의 사례가 존재해야함) #2. 인공신경망의 History - XOR로직 (값이 같은면 False ..

의사결정나무(Decision Tree)

#1. 의사결정나무란? 어떤 레코드 집합이 있을때, 이레코드들을 작은 소수의 homogeneous한 그룹으로 나누는 트리 목표변수 측면에서 부모노드보다 더 순수도가 높은 자식노드들이 되도록, 데이터를 반복적으로 더 작은 집단으로 나눔 예를 들어, 스무고개! 앞선 질문에 따라 답이 달라지고, 루트노드로 부터 시작해서 계속적인 질문들이 나오게 되고 자식노드로 이어짐 마지막 말단노드는 특정 분류값을 가지는 class를 가지게 됨 * 의사결정나무는 목표변수가 이산형인 1)분류나무와 목표변수가 연속형인 2)회귀나무로 분류됨 1) 분류나무 (이산형) - 이진트리 vs. 다진트리 - 집단을 나누는 기준(순수도)은 Gini 척도, 정보이익, 카이제곱 값을 기준으로 나뉨 2) 회귀나무 (연속형) - 집단의 평균을 이용하..