이번 주의 주제는 "고객 세그멘테이션, 클러스터링"
이제 곧 끝이 다가오고 있다. 매주 토요일 항상 정신없이 이 수업을 들으면서 복잡한 생각도 다 잊고 온전히 자기계발에만 집중할 수 있었는데,, 수다도 떨고 정말 재미있었는데~ 끝나는게 아쉬운 수업이다.
Comento 가 아니었다면 이런 온라인 사수를 만나볼 수 있었을까? 지금은 회사에서 혼자 일하다싶이 하는데, 나도 같이 일할 수 있는 동료가 있었으면 좋겠다.
[5주차] - 고객 세분화로 인사이트 도출하기
01.고객 클러스터링을 위한 K-means기법 이해
-클러스터링의 개념
-K means 클러스터링 이론 확인
-Silhouette Coefficient / Elbow Method을 통한 클러스터링 최적화
-이외 클러스터링 기법 탐구
(Gaussian Mixture Model/ DBSCAN / Hierachical Clustering)
02.고객 세분화 및 인사이트 도출
- K-means 를 활용한 고객 클러스터링 기법 마케팅 캠페인 결과데이터를 활용한 고객 세분화 및 인사이트 도출
*과제 : 고객 클러스터링 및 마케팅 인사이트 보고서 작성
- 이커머스 데이터 분석 및 고객 클러스터링 진행
- 고객 별 데이터 분석을 통한 인사이트 보고서 작성
오늘은 고객에 대해 분리하는 클러스터링의 종류와 분석 방법에 대해서 배웠다.
그리고 A/B 테스트와 표본추출법, 그리고 데이터 마이닝에 대해서도 알 수 있었다.
수업 전에는 역시나 전 주의 과제 피드백이 있었는데 그 때 내가 질문했던 데이터들을 통합하는 방법도 알려주셔서 몹시 도움이 많이 되었다 :)
언제까지 VOD 가 열려있을지 모르겠지만 꾸준히 복습을 해야겠다.. (복습할 것 산더미)
▶️ 5주차에 공부한 내용 간단히 정리⛳️
👇👇👇
[코멘토] "일 잘하는 마케터를 위한 파이썬 기초 분석 패키지" 바로가기
[클러스터링(Clustering)]
= 데이터에서 비슷한 그룹을 찾아 묶는 기법 (군집화, 사전훈련용 데이터가 없는 비지도학습)
STEP 1. 어떻게 그룹을 나눌 것인지 결정하여 군집화
: k-means-clustering(보편적인 클러스터링 기법) / 엘보우기법 (클러스터의 중심을 결정하는 법)
STEP 2. 클러스터링이 얼마나 잘 되었는지, 어떤 그룹으로 얼마나 묶인 데이터들이 비슷한지 평가
: 실루엣 기법
1. K(중심의 수) 를 정하면 랜덤하게 센터포인트를 잡는다.
2. 각 Data point 는 Center point 끼리의 거리를 측정해서 분류된다.
3. 분류된 Data points 에 기반해 각 그룹 벡터의 평균(mean)을 구하는 것으로 그룹의 Center를 recompute한다 - 그래서 중심이 계속 바뀜
4. 이 과정을 그룹 Center가 그렇게 많이 바뀌지 않는 선에서 반복. Center를 랜덤하게 여러번 초기화하거나 가장 좋은 결과가 나오게 고를 수 있다 (엘보우 기법을 활용하여 최적화된 K값 선정 가능)
유-명한 K-means에 대해 조금 더 들어가보자
[군집분석의 종류]
- 계층적 군집분석 (hierarchical clustering)
계층적 군집분석은 순차적으로 그룹을 할당. - 비계층적 군집분석 (K-means)
비계층적 군집분석은 랜덤하게 군집을 묶는다.
-중심기반(center-based) : K-means #군집화에서 가장 일반적으로 사용되는 군집분석법(알고리즘)
-밀도기반(density-based) : DBSCAN
ps. K-means 는 유사한 데이터가 중심점 기반으로 분포할거라고 가정하고, DBSCAN 은 유사한 데이터가 서로 근접하게 분포할거라는 가정에 기반한다.
[K-means]
초기점 설정 ▷ 그룹부여 ▷ 중심점업데이트 ▷ 최적화
1. 엘보우기법 - 팔꿈치랑 비슷하게 생겨서 엘보우 기법 :) ㅎㅎ
축 : SSE (최소제곱값) & 클러스터개수 → K 숫자를 몇 개를 할지 결정하는데 도움을 주는 차트
# 꺾이는 구간이 가장 K 값으로 쓰기 적절한 값이다.
2. 실루엣 기법
클러스터 값이 3개면 y 값도 3개가 되는데 각 실루엣이 실루엣 계수를 넘는지 확인 필요
#클러스터 값으로 군집화가 잘 되었는지 확인하는 법. 마이너스 값으로가면 클러스터 값 다시 정해야 함.
(참고링크)
https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html
[DBSCAN]
K-means가 중심기반이라면 DBSCAN은 밀도기반 비계층 군집분석
"유사한 데이터는 서로 근접하게 분포할 것이다" 라는 Density-based
하나라도 같은 값이 있으면 그걸 기준으로 비슷한 것은 합쳐버린다
2.밀도기반이라 밀도기반 기하학적 형태의 클러스터링 민감하게 반응 등등
[이외 클러스터링 기법 탐구]
* Hierarchical Clustering (계층적 클러스터링)
– decision tree 를 아래서부터 만들기 시작해서 비슷한 군집끼리 묶어가며 하나의 케이스가 될 때까지 군집을 묶음
[A/B TEST]
- AB테스트 = 실험군 대조군을 두고 비교하는 테스트 방식
- 증명을 하기위한 테스트 방식으로 단순히 AB테스트 뿐이 아니라 그래서 이 사람이 어떤 행동을 했는지, 더 성과가 좋았던 유저는 구매까지 이어지는지, 리텐션은 어땠는지 까지 봐야함
- AB테스트 방법 = 2가지
AB테스트는 보통 매체에서 추출을 해주기 때문에 표본을 추출하는 방법을 사람들이 잘 알고있지는 않지만 그 방법에는 2개가 있음.
- 확률 표본 추출 : 집락추출방법
- 비확률 표본 추출 방법 : 층화 추출방법. 이질적 원소들로 구성된 모집단. 고루 대표할 수 있는 표본을 추출한다. (이걸 잘 쓴다)
▶️ 출석률 & 누적환급액
현재까지 총 6만5000원 누적, 이번주차 챌린지까지 합하면 현재 7만 5000원 벌었다! 음음. 굳
이 챌린지 덕분에 블로그 쓰면서 내용도 복습하고, 나중에 복기하기도 수월하고 환급도 받고 일석 삼조다!
코멘토 사랑해, 특히 마케터를위한 파이썬 강사님 감사합니다 :) ♡