머신러닝 스터디/머신러닝 3

군집 분석

# 1. 군집화란? - 복잡한 데이터의 구조에 대하여 알 수 있는 방법 제공 - 군집화 알고리즘은 특정 유사도(similarity) 척도에 의존함 - 무방향성 지식 발견 도구(특정 목표변수 없음, 사전에 분류된 데이터도 없고, 독립변수 종속변수의 구분 역시 없음) - 비슷한 레코드의 군집을 찾음 (marketing-segment라고 부름) - 자동 군집 탐지는 혼자서는 거의 쓰이지 않는 데이터마이닝 기법임 (군집을 찾는 것이 궁극적인 목표가 아님) * 자동 군집 탐지 알고리즘 1. K- 평균 알고리즘 2. 가우스 혼합 모형 3. 응집 군집화 4. 분할 군집화 5. 자기 조직화 지도 (SOM)- 신경망 # 2. 차원이란? - 어떤 것을 설명하기 위해 독립적으로 측정되어야 할 것들 - dimension/fe..

장바구니 분석과 연관규칙

# 장바구니 분석(Market Basket Analysis)이란? - 어떤 물품들이 함께 구매되는 경향이 있는지 분석 & 고객에 대한 이해를 도와줌 - 이러한 정보는 쉽게 행동에 옮기기 가능 (Actionable) Ex. 새로운 상점의 상품 배치, 특정 상품에 대한 행사 여부, 쿠폰 발행 시점 등 - 장바구니 데이터 1. 고객 2. 주문 (구매 또는 장바구니, item set) 3. 물품 # 연관규칙이란? - 어떤 물품들이 같이 팔리는지에 대한 분석 - 특정한 목표 없이 데이터의 패턴을 발견. 즉 무방향성 데이터 마이닝 (방향성은 목표변수가 존재하는지 존재하지 않는지에 따라 방향성이 있는지 없는지를 나눌 수 있음) - 패턴들이 잘 맞는지에 대한 판단은 사람의 해석에 달려있음 Ex. Pos(Point-of..

의사결정나무(Decision Tree)

#1. 의사결정나무란? 어떤 레코드 집합이 있을때, 이레코드들을 작은 소수의 homogeneous한 그룹으로 나누는 트리 목표변수 측면에서 부모노드보다 더 순수도가 높은 자식노드들이 되도록, 데이터를 반복적으로 더 작은 집단으로 나눔 예를 들어, 스무고개! 앞선 질문에 따라 답이 달라지고, 루트노드로 부터 시작해서 계속적인 질문들이 나오게 되고 자식노드로 이어짐 마지막 말단노드는 특정 분류값을 가지는 class를 가지게 됨 * 의사결정나무는 목표변수가 이산형인 1)분류나무와 목표변수가 연속형인 2)회귀나무로 분류됨 1) 분류나무 (이산형) - 이진트리 vs. 다진트리 - 집단을 나누는 기준(순수도)은 Gini 척도, 정보이익, 카이제곱 값을 기준으로 나뉨 2) 회귀나무 (연속형) - 집단의 평균을 이용하..