이제 곧 끝이 다가오고 있다. 매주 토요일 항상 정신없이 이 수업을 들으면서 복잡한 생각도 다 잊고 온전히 자기계발에만 집중할 수 있었는데,, 수다도 떨고 정말 재미있었는데~ 끝나는게 아쉬운 수업이다.
Comento 가 아니었다면 이런 온라인 사수를 만나볼 수 있었을까? 지금은 회사에서 혼자 일하다싶이 하는데, 나도 같이 일할 수 있는 동료가 있었으면 좋겠다.
[5주차] - 고객 세분화로 인사이트 도출하기 01.고객 클러스터링을 위한 K-means기법 이해 -클러스터링의 개념 -K means 클러스터링 이론 확인 -Silhouette Coefficient / Elbow Method을 통한 클러스터링 최적화 -이외 클러스터링 기법 탐구 (Gaussian Mixture Model/ DBSCAN / Hierachical Clustering) 02.고객 세분화 및 인사이트 도출 - K-means 를 활용한 고객 클러스터링 기법 마케팅 캠페인 결과데이터를 활용한 고객 세분화 및 인사이트 도출 *과제 :고객 클러스터링 및 마케팅 인사이트 보고서 작성 - 이커머스 데이터 분석 및 고객 클러스터링 진행 - 고객 별 데이터 분석을 통한 인사이트 보고서 작성
comento 실무PT 마케터를 위한 파이썬 기초
오늘은 고객에 대해 분리하는 클러스터링의 종류와 분석 방법에 대해서 배웠다.
그리고 A/B 테스트와 표본추출법, 그리고 데이터 마이닝에 대해서도 알 수 있었다.
수업 전에는 역시나 전 주의 과제 피드백이 있었는데 그 때 내가 질문했던 데이터들을 통합하는 방법도 알려주셔서 몹시 도움이 많이 되었다 :)
[클러스터링(Clustering)] = 데이터에서 비슷한 그룹을 찾아 묶는 기법 (군집화, 사전훈련용 데이터가 없는 비지도학습)
STEP 1. 어떻게 그룹을 나눌 것인지 결정하여 군집화 :k-means-clustering(보편적인 클러스터링 기법) / 엘보우기법 (클러스터의 중심을 결정하는 법) STEP 2. 클러스터링이 얼마나 잘 되었는지, 어떤 그룹으로 얼마나 묶인 데이터들이 비슷한지 평가 :실루엣 기법 클러스터링 예시
1. K(중심의 수) 를 정하면 랜덤하게 센터포인트를 잡는다. 2. 각 Data point 는 Center point 끼리의 거리를 측정해서 분류된다. 3. 분류된 Data points 에 기반해 각 그룹 벡터의 평균(mean)을 구하는 것으로 그룹의 Center를 recompute한다 - 그래서 중심이 계속 바뀜 4. 이 과정을 그룹 Center가 그렇게 많이 바뀌지 않는 선에서 반복. Center를 랜덤하게 여러번 초기화하거나 가장 좋은 결과가 나오게 고를 수 있다 (엘보우 기법을 활용하여 최적화된 K값 선정 가능)
유-명한 K-means에 대해 조금 더 들어가보자
[군집분석의 종류]
계층적 군집분석 (hierarchical clustering) 계층적 군집분석은 순차적으로 그룹을 할당.
비계층적 군집분석 (K-means) 비계층적 군집분석은 랜덤하게 군집을 묶는다. -중심기반(center-based) : K-means #군집화에서 가장 일반적으로 사용되는 군집분석법(알고리즘) -밀도기반(density-based) : DBSCAN ps. K-means 는 유사한 데이터가 중심점 기반으로 분포할거라고 가정하고, DBSCAN 은 유사한 데이터가 서로 근접하게 분포할거라는 가정에 기반한다.
[K-means]
유사한 데이터는 중심점(centroid)을 기반으로 분포할 것이다
초기점 설정 ▷ 그룹부여 ▷ 중심점업데이트 ▷ 최적화
1. 엘보우기법 - 팔꿈치랑 비슷하게 생겨서 엘보우 기법 :) ㅎㅎ
축 : SSE (최소제곱값) & 클러스터개수 → K 숫자를 몇 개를 할지 결정하는데 도움을 주는 차트
# 꺾이는 구간이 가장 K 값으로 쓰기 적절한 값이다.
엘보우기법 그래프 (image1 K = 3 / image2 K = 5)
2. 실루엣 기법
클러스터 값이 3개면 y 값도 3개가 되는데 각 실루엣이 실루엣 계수를 넘는지 확인 필요
#클러스터 값으로 군집화가 잘 되었는지 확인하는 법. 마이너스 값으로가면 클러스터 값 다시 정해야 함.
Ex 이미지 :
1번이 가장 클러스터링 잘된 것, 끝에서 1~2개들은 군집화가 잘 안된 것