목록Personal Project (8)
나홀로 데이터 분석가의 1인 연구실

0-1. 프로젝트 목표 대학생들이 강의평가를 할 때 중요시 하는 것이 무엇일지 탐색적 분석을 해보자. 0-2. 프로젝트 계획 에브티라임(대학생 커뮤니티) 내 최신 강의평 200개를 수집. 우호적인 강의평가와 부정적 강의평가의 차이를 확인. 부정적 강의평가의 원인을 탐색해봄. 1-1. 데이터 수집 기간 2023.01.02 - 2023.01.03 최근 강의평 수집 1-2. 데이터 정의서 데이터 형태: (259 x 4) 우선 본 분석에서는 테이블을 하나만 쓰기에 별다른 key값 없이 분석을 진행하였다. 2-1. [평가 점수]의 분포도 평가 점수 분포표를 보면 긍정 평가가 부정 평가 보다 높은 것을 알 수 있다. 이러한 현상은 거의 대부분의 평가 데이터에서 보여준다. 2-2. [평가 점수]와 [리뷰 길이]간의 ..

0-1. 데이터 전처리 전체 화장품 중 에센스와 세럼 제품만 추출 #내가 사야할 것 분석에 사용할 열만 추출 리뷰 데이터 셋과 제품 데이터 셋으로 분리 데이터 타입 변경 중복값 제거 1-1. 최소 조건 설정 총 제품 개수: 270개 -> 49개 우선 제품에 따른 리뷰 개수가 어떠한 분포를 가지는 지 히스토그램을 그려보았다. 예상대로 상당수의 제품이 100개 이하의 리뷰를 가지고 있는 것을 확인했다. 리뷰 수가 100개 미만일 경우 검증이 부족하다고 판단하여, 100개 미만인 제품은 구매고려대상에서 제외하였다. 1-2. 시각화 자료 기반 조건 설정 제품의 재구매 횟수, 평균평점 그리고 전체 리뷰 수를 기반으로 산점도를 그린 결과 와 같다. 여기서 알 수 있듯이 전체 리뷰수(구매량)이 적을수록 평균평점의 분..

0-1. 수집 데이터 정의 수집 대상 URL: 올리브영 스토어(www.oliveyoung.co.kr) 수집 대상: 스킨케어 제품에 대한 사용자 평가 및 정보 * 단 사용자의 피부 정보가 있는 경우에 한해서 수집 1-1. 데이터 수집 계획 수집 시기: 특정 불가 수집 대상: [표1] 수집대상 사용 소프트웨어: Python3(Webdriver) [표1] 수집 대상 사용자 정보 및 리뷰의 경우 버튼을 클릭과 같은 웹 페이지와의 상호작용이 필요합니다. 따라서 이번 크롤링에는 Requests가 아닌 Webdriver를 사용할 예정입니다. 1-2. 데이터 수집 Python 3.8.5 selenium 4.7.2 bs4 4.9.3 pandas 1.1.3 사용자의 피부 타입 정보를 추출하기 위해 [리뷰 검색 필터]를 사..