나홀로 데이터 분석가의 1인 연구실
[올리브영] 내 피부에 맞는 화장품 직접 찾아보자 - 4 본문
0-1. 데이터 전처리
- 전체 화장품 중 에센스와 세럼 제품만 추출 #내가 사야할 것
- 분석에 사용할 열만 추출
- 리뷰 데이터 셋과 제품 데이터 셋으로 분리
- 데이터 타입 변경
- 중복값 제거


1-1. 최소 조건 설정
- 총 제품 개수: 270개 -> 49개
우선 제품에 따른 리뷰 개수가 어떠한 분포를 가지는 지 히스토그램을 그려보았다.
예상대로 상당수의 제품이 100개 이하의 리뷰를 가지고 있는 것을 확인했다.


리뷰 수가 100개 미만일 경우 검증이 부족하다고 판단하여, 100개 미만인 제품은 구매고려대상에서 제외하였다.
1-2. 시각화 자료 기반 조건 설정
제품의 재구매 횟수, 평균평점 그리고 전체 리뷰 수를 기반으로 산점도를 그린 결과 <그림4>와 같다.
여기서 알 수 있듯이 전체 리뷰수(구매량)이 적을수록 평균평점의 분포가 다채롭고,
구매량이 많을수록 평균평점이 4.7 얹어리로 수렴하는 듯한 결과를 보인다.
또한, 당연하게도 구매량이 많을수록 재구매량도 많음을 알 수 있다.

제품 구매시 단순히 절대값(총 리뷰 수, 재구매 수, 추천 수 등)을 고려할 경우 발매일자가 오래된 제품과 베스트 셀러 제품이
유리할 것으로 판단되어, 비율을 고려하기로 함.
재구매 수가 아닌 재구매율을 고려할 경우 산점도는 <그림5>와 같다.
베스트 셀러 제품들의 재구매율이 10% 얹어리로 수렴하는 것을 알 수 있다.

추가로 제품 추천율을 고려한 경우에는 <그림6>과 같다.

위 시각화 자료에 나타나는 베스트 셀러 제품들을 기준으로 아래와 같은 조건을 잡았다.
- 재구매율이 10% 이상의 제품
- 추천율이 40% 이상의 제품
- 평균평점이 4.7이상의 제품
- 1-3번 조건이을 모두 달성한 경우에는 구매량이 가장 많은 제품
그 결과는 아래 [표2]와 같으며, 1위를 한 제품은 [A000000145860]이다.

1-3. 사용자 리뷰를 통한 검증
위에서 나온 제품이 나에게 맞을지를 어떻게 하면 검증할 수 있을까를 고민하다가, 사용자 리뷰를 활용하기로 하였다.
내 피부 타입은 [건성]이기에, 사용자 리뷰에서 "건성" 혹은 "보습" 관련 키워드가 많을수록 나에게 적합할 것이라 판단하였다.
총 332개의 리뷰에 대한 키워드 분석을 진행하였고, 워드클라우드를 그린 결과 아래 <그림7>과 같다.


2. 구매
위 분석 결과를 종합한 결과, 나쁘지 않을 것 같아서 구매를 진행하였다.

'Personal Project > Long-Term Project' 카테고리의 다른 글
[네이버 영화] 관람객 Vs. 평론가, 의견차이 존재할까? (0) | 2023.01.09 |
---|---|
[네이버 영화] 영화 평점 분석을 위한 데이터 수집 (0) | 2023.01.04 |
[올리브영] 내 피부에 맞는 화장품 직접 찾아보자 - 3 (0) | 2022.12.27 |
[올리브영] 내 피부에 맞는 화장품 직접 찾아보자 - 2 (0) | 2022.12.27 |
[올리브영] 내 피부에 맞는 화장품 직접 찾아보자 - 1 (0) | 2022.12.26 |