마케터노트/Python / / 2022. 4. 20. 20:54

[Python] 코멘토 실무PT 5주차 후기 - 일 잘하는 마케터를 위한 파이썬 분석 패키지

    반응형

    이번 주의 주제는 "고객 세그멘테이션, 클러스터링"

    이제 곧 끝이 다가오고 있다. 매주 토요일 항상 정신없이 이 수업을 들으면서 복잡한 생각도 다 잊고 온전히 자기계발에만 집중할 수 있었는데,, 수다도 떨고 정말 재미있었는데~ 끝나는게 아쉬운 수업이다.

    Comento 가 아니었다면 이런 온라인 사수를 만나볼 수 있었을까? 지금은 회사에서 혼자 일하다싶이 하는데, 나도 같이 일할 수 있는 동료가 있었으면 좋겠다.

     

    [5주차] - 고객 세분화로 인사이트 도출하기
    01.고객 클러스터링을 위한 K-means기법 이해
       -클러스터링의 개념
       -K means 클러스터링 이론 확인
       -Silhouette Coefficient / Elbow Method을 통한 클러스터링 최적화
       -이외 클러스터링 기법 탐구
        (Gaussian Mixture Model/ DBSCAN / Hierachical Clustering)
    02.고객 세분화 및 인사이트 도출
        - K-means 를 활용한 고객 클러스터링 기법 마케팅 캠페인 결과데이터를 활용한 고객 세분화 및 인사이트 도출
    *과제 : 고객 클러스터링 및 마케팅 인사이트 보고서 작성
    - 이커머스 데이터 분석 및 고객 클러스터링 진행
    - 고객 별 데이터 분석을 통한 인사이트 보고서 작성

     

    comento 실무PT 마케터를 위한 파이썬 기초

     

    오늘은 고객에 대해 분리하는 클러스터링의 종류와 분석 방법에 대해서 배웠다.

    그리고 A/B 테스트와 표본추출법, 그리고 데이터 마이닝에 대해서도 알 수 있었다.

    수업 전에는 역시나 전 주의 과제 피드백이 있었는데 그 때 내가 질문했던 데이터들을 통합하는 방법도 알려주셔서 몹시 도움이 많이 되었다 :)

    언제까지 VOD 가 열려있을지 모르겠지만 꾸준히 복습을 해야겠다.. (복습할 것 산더미)

     

    ▶️ 5주차에 공부한 내용 간단히 정리⛳️

    👇👇👇

    [코멘토] "일 잘하는 마케터를 위한 파이썬 기초 분석 패키지" 바로가기 

     

    [클러스터링(Clustering)]
    = 데이터에서 비슷한 그룹을 찾아 묶는 기법 (군집화, 사전훈련용 데이터가 없는 비지도학습)


    STEP 1. 어떻게 그룹을 나눌 것인지 결정하여 군집화
             : k-means-clustering(보편적인 클러스터링 기법) / 엘보우기법 (클러스터의 중심을 결정하는 법)
    STEP 2. 클러스터링이 얼마나 잘 되었는지, 어떤 그룹으로 얼마나 묶인 데이터들이 비슷한지 평가
             : 실루엣 기법
    클러스터링 예시

    1. K(중심의 수) 를 정하면 랜덤하게 센터포인트를 잡는다.
    2. 각 Data point 는 Center point 끼리의 거리를 측정해서 분류된다.
    3. 분류된 Data points 에 기반해 각 그룹 벡터의 평균(mean)을 구하는 것으로 그룹의 Center를 recompute한다 - 그래서 중심이 계속 바뀜
    4. 이 과정을 그룹 Center가 그렇게 많이 바뀌지 않는 선에서 반복. Center를 랜덤하게 여러번 초기화하거나 가장 좋은 결과가 나오게 고를 수 있다 (엘보우 기법을 활용하여 최적화된 K값 선정 가능)

     

    유-명한 K-means에 대해 조금 더 들어가보자

    [군집분석의 종류]

    • 계층적 군집분석 (hierarchical clustering)
      계층적 군집분석은 순차적으로 그룹을 할당.
    • 비계층적 군집분석 (K-means)
      비계층적 군집분석은 랜덤하게 군집을 묶는다.
      -중심기반(center-based) : K-means    #군집화에서 가장 일반적으로 사용되는 군집분석법(알고리즘)
      -밀도기반(density-based) : DBSCAN
      ps. K-means 는 유사한 데이터가 중심점 기반으로 분포할거라고 가정하고, DBSCAN 은 유사한 데이터가 서로 근접하게 분포할거라는 가정에 기반한다.

     

    [K-means]

    유사한 데이터는 중심점(centroid)을 기반으로 분포할 것이다

    초기점 설정 ▷ 그룹부여 ▷ 중심점업데이트 ▷ 최적화

     

    1. 엘보우기법 - 팔꿈치랑 비슷하게 생겨서 엘보우 기법 :) ㅎㅎ

    축 : SSE (최소제곱값) & 클러스터개수 → K 숫자를 몇 개를 할지 결정하는데 도움을 주는 차트

    # 꺾이는 구간이 가장 K 값으로 쓰기 적절한 값이다.

    엘보우기법 그래프 (image1 K = 3 / image2 K = 5)

    2. 실루엣 기법

    클러스터 값이 3개면 y 값도 3개가 되는데 각 실루엣이 실루엣 계수를 넘는지 확인 필요

    #클러스터 값으로 군집화가 잘 되었는지 확인하는 법. 마이너스 값으로가면 클러스터 값 다시 정해야 함.

    Ex 이미지 : 1번이 가장 클러스터링 잘된 것, 끝에서 1~2개들은 군집화가 잘 안된 것

    (참고링크)

    https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html

     

    sklearn.cluster.KMeans

    Examples using sklearn.cluster.KMeans: Release Highlights for scikit-learn 0.23 Release Highlights for scikit-learn 0.23, Demonstration of k-means assumptions Demonstration of k-means assumptions, ...

    scikit-learn.org

     

    [DBSCAN]

    K-means가 중심기반이라면 DBSCAN은 밀도기반 비계층 군집분석
    "유사한 데이터는 서로 근접하게 분포할 것이다" 라는 Density-based

    하나라도 같은 값이 있으면 그걸 기준으로 비슷한 것은 합쳐버린다

    1.클러스터 개수 정할 필요 없음
    2.밀도기반이라 밀도기반 기하학적 형태의 클러스터링 민감하게 반응 등등

     

     

    [이외 클러스터링 기법 탐구]

    * Hierarchical Clustering (계층적 클러스터링)

    – decision tree 를 아래서부터 만들기 시작해서 비슷한 군집끼리 묶어가며 하나의 케이스가 될 때까지 군집을 묶음

    계층적 클러스터링

     

     

    [A/B TEST]

    • AB테스트 = 실험군 대조군을 두고 비교하는 테스트 방식

    - 증명을 하기위한 테스트 방식으로 단순히 AB테스트 뿐이 아니라 그래서 이 사람이 어떤 행동을 했는지, 더 성과가 좋았던 유저는 구매까지 이어지는지, 리텐션은 어땠는지 까지 봐야함

     

    • AB테스트 방법 = 2가지

    AB테스트는 보통 매체에서 추출을 해주기 때문에 표본을 추출하는 방법을 사람들이 잘 알고있지는 않지만 그 방법에는 2개가 있음.

    - 확률 표본 추출 : 집락추출방법

    - 비확률 표본 추출 방법 : 층화 추출방법. 이질적 원소들로 구성된 모집단. 고루 대표할 수 있는 표본을 추출한다. (이걸 잘 쓴다)

    층화 추출방법 (비확률 표본 추출 방법. 대표할 수 있는 표본 각출하는 것)

     

    ▶️ 출석률 & 누적환급액

    현재까지 총 6만5000원 누적, 이번주차 챌린지까지 합하면 현재 7만 5000원 벌었다! 음음. 굳

    이 챌린지 덕분에 블로그 쓰면서 내용도 복습하고, 나중에 복기하기도 수월하고 환급도 받고 일석 삼조다!

    코멘토 사랑해, 특히 마케터를위한 파이썬 강사님 감사합니다 :) ♡

    한번도 빠짐없이 모두 잘 진행하고 있는중! 챌린지, 과제 모두 complete!!

     

    반응형