나홀로 데이터 분석가의 1인 연구실

[올리브영] 내 피부에 맞는 화장품 직접 찾아보자 - 4 본문

Personal Project/Long-Term Project

[올리브영] 내 피부에 맞는 화장품 직접 찾아보자 - 4

나홀로 데이터 분석가 2023. 1. 2. 10:44

0-1. 데이터 전처리

  • 전체 화장품 중 에센스와 세럼 제품만 추출 #내가 사야할 것
  • 분석에 사용할 열만 추출
  • 리뷰 데이터 셋과 제품 데이터 셋으로 분리
  • 데이터 타입 변경
  • 중복값 제거

 

<그림1> 제품 데이터 셋

 

<그림2> 리뷰 데이터 셋

 


1-1. 최소 조건 설정

  • 총 제품 개수: 270개 -> 49개

 

우선 제품에 따른 리뷰 개수가 어떠한 분포를 가지는 지 히스토그램을 그려보았다.

 

예상대로 상당수의 제품이 100개 이하의 리뷰를 가지고 있는 것을 확인했다.

<그림3> 제품 리뷰 개수에 대한 히스토그램
[표1] 평균평점 기술통계량

 


리뷰 수가 100개 미만일 경우 검증이 부족하다고 판단하여, 100개 미만인 제품은 구매고려대상에서 제외하였다.


 

 

1-2. 시각화 자료 기반 조건 설정

제품의 재구매 횟수, 평균평점 그리고 전체 리뷰 수를 기반으로 산점도를 그린 결과 <그림4>와 같다.

 

여기서 알 수 있듯이 전체 리뷰수(구매량)이 적을수록 평균평점의 분포가 다채롭고,

구매량이 많을수록 평균평점이 4.7 얹어리로 수렴하는 듯한 결과를 보인다.

 

또한, 당연하게도 구매량이 많을수록 재구매량도 많음을 알 수 있다.

<그림4> 재구매-평균평점 산점도

 


제품 구매시 단순히 절대값(총 리뷰 수, 재구매 수, 추천 수 등)을 고려할 경우 발매일자가 오래된 제품베스트 셀러 제품

유리할 것으로 판단되어, 비율을 고려하기로 함.


 

재구매 수가 아닌 재구매율을 고려할 경우 산점도는 <그림5>와 같다.

 

베스트 셀러 제품들의 재구매율이 10% 얹어리로 수렴하는 것을 알 수 있다.

 

<그림5> 재구매율-평균평점 산점도

 

추가로 제품 추천율을 고려한 경우에는 <그림6>과 같다. 

<그림6> 추천율-평균평점 산점도

 

위 시각화 자료에 나타나는 베스트 셀러 제품들을 기준으로 아래와 같은 조건을 잡았다.

  1. 재구매율이 10% 이상의 제품
  2. 추천율이 40% 이상의 제품
  3. 평균평점이 4.7이상의 제품
  4. 1-3번 조건이을 모두 달성한 경우에는 구매량이 가장 많은 제품

 

그 결과는 아래 [표2]와 같으며, 1위를 한 제품은 [A000000145860]이다.

[표2] 조건을 충족한 제품 목록

 

1-3. 사용자 리뷰를 통한 검증

위에서 나온 제품이 나에게 맞을지를 어떻게 하면 검증할 수 있을까를 고민하다가, 사용자 리뷰를 활용하기로 하였다.

 

내 피부 타입은 [건성]이기에, 사용자 리뷰에서 "건성" 혹은 "보습" 관련 키워드가 많을수록 나에게 적합할 것이라 판단하였다.

 

총 332개의 리뷰에 대한 키워드 분석을 진행하였고, 워드클라우드를 그린 결과 아래 <그림7>과 같다.

 

<그림7>&nbsp;A000000145860 제품 리뷰에 대한 워드클라우드
[표3]&nbsp;A000000145860 제품에 대한 키워드 빈도수

 


2. 구매

위 분석 결과를 종합한 결과, 나쁘지 않을 것 같아서 구매를 진행하였다.

 

<그림8> 분석을 토대로 구매 진행

 

Comments