목록데이터 프로젝트 (6)
나홀로 데이터 분석가의 1인 연구실
0-1. 데이터 전처리 전체 화장품 중 에센스와 세럼 제품만 추출 #내가 사야할 것 분석에 사용할 열만 추출 리뷰 데이터 셋과 제품 데이터 셋으로 분리 데이터 타입 변경 중복값 제거 1-1. 최소 조건 설정 총 제품 개수: 270개 -> 49개 우선 제품에 따른 리뷰 개수가 어떠한 분포를 가지는 지 히스토그램을 그려보았다. 예상대로 상당수의 제품이 100개 이하의 리뷰를 가지고 있는 것을 확인했다. 리뷰 수가 100개 미만일 경우 검증이 부족하다고 판단하여, 100개 미만인 제품은 구매고려대상에서 제외하였다. 1-2. 시각화 자료 기반 조건 설정 제품의 재구매 횟수, 평균평점 그리고 전체 리뷰 수를 기반으로 산점도를 그린 결과 와 같다. 여기서 알 수 있듯이 전체 리뷰수(구매량)이 적을수록 평균평점의 분..
0-1. 수집 데이터 정의 수집 대상 URL: 올리브영 스토어(www.oliveyoung.co.kr) 수집 대상: 스킨케어 제품에 대한 사용자 평가 및 정보 * 단 사용자의 피부 정보가 있는 경우에 한해서 수집 1-1. 데이터 수집 계획 수집 시기: 특정 불가 수집 대상: [표1] 수집대상 사용 소프트웨어: Python3(Webdriver) [표1] 수집 대상 사용자 정보 및 리뷰의 경우 버튼을 클릭과 같은 웹 페이지와의 상호작용이 필요합니다. 따라서 이번 크롤링에는 Requests가 아닌 Webdriver를 사용할 예정입니다. 1-2. 데이터 수집 Python 3.8.5 selenium 4.7.2 bs4 4.9.3 pandas 1.1.3 사용자의 피부 타입 정보를 추출하기 위해 [리뷰 검색 필터]를 사..
0-1. 문제 정의 인체에 직접 바르는 화장품의 특성상 알레르기 반응이 날 경우 불만족도가 크게 향상될 수 있음 평소 올리브영 방문 시 제품이 너무 많아 보통 베스트셀러에 의존하여 선택의 다양성이 제한됨 0-2. 프로젝트 목표 (주) 데이터에 기반하여 개인 맞춤형 화장품을 탐색 (부가) 베스트 셀러 화장품과 그렇지 않은 화장품 간의 차이를 탐색 0-3. 프로젝트 계획 올리브영 온라인 스토어 데이터 수집 데이터 가공 후 탐색적 데이터 분석 나를 위한 추천 시스템 설계 및 개발