목록올리브영 (4)
나홀로 데이터 분석가의 1인 연구실

0-1. 데이터 전처리 전체 화장품 중 에센스와 세럼 제품만 추출 #내가 사야할 것 분석에 사용할 열만 추출 리뷰 데이터 셋과 제품 데이터 셋으로 분리 데이터 타입 변경 중복값 제거 1-1. 최소 조건 설정 총 제품 개수: 270개 -> 49개 우선 제품에 따른 리뷰 개수가 어떠한 분포를 가지는 지 히스토그램을 그려보았다. 예상대로 상당수의 제품이 100개 이하의 리뷰를 가지고 있는 것을 확인했다. 리뷰 수가 100개 미만일 경우 검증이 부족하다고 판단하여, 100개 미만인 제품은 구매고려대상에서 제외하였다. 1-2. 시각화 자료 기반 조건 설정 제품의 재구매 횟수, 평균평점 그리고 전체 리뷰 수를 기반으로 산점도를 그린 결과 와 같다. 여기서 알 수 있듯이 전체 리뷰수(구매량)이 적을수록 평균평점의 분..

0-1. 수집 데이터 정의 수집 대상 URL: 올리브영 스토어(www.oliveyoung.co.kr) 수집 대상: 스킨케어 제품에 대한 사용자 평가 및 정보 * 단 사용자의 피부 정보가 있는 경우에 한해서 수집 1-1. 데이터 수집 계획 수집 시기: 특정 불가 수집 대상: [표1] 수집대상 사용 소프트웨어: Python3(Webdriver) [표1] 수집 대상 사용자 정보 및 리뷰의 경우 버튼을 클릭과 같은 웹 페이지와의 상호작용이 필요합니다. 따라서 이번 크롤링에는 Requests가 아닌 Webdriver를 사용할 예정입니다. 1-2. 데이터 수집 Python 3.8.5 selenium 4.7.2 bs4 4.9.3 pandas 1.1.3 사용자의 피부 타입 정보를 추출하기 위해 [리뷰 검색 필터]를 사..

0-1. 수집 데이터 정의 수집 대상 URL: 올리브영 스토어(www.oliveyoung.co.kr) 수집 대상: 스킨케어 제품에 대한 기본 정보 수집 대상을 스킨케어 제품으로 한정한 이유는 2가지이다. 스킨케어 제품은 대부분 무색무취이기에 색조나 피부톤에 대한 고려를 일부 배제할 수 있음. 매일 밤낮으로 사용하기에, 다른 뷰티제품 대비 사용빈도가 높음. 1-1. 데이터 수집 계획 수집 시기: 2022.12.24 수집 대상: 제품명, 브랜드, 제품 링크 사용 소프트웨어: Python3(Requests) 1-2. 데이터 수집 Python 3.8.5 Requests 2.24.0 bs4 4.9.3 pandas 1.1.3 # One Page Crawler Source def crawling_products(so..