목록시각화 (3)
나홀로 데이터 분석가의 1인 연구실

0-1. 도입 개인적으로 시각화를 할 때 가장 많이 사용해온 matplotlib의 공통 파라미터들을 정리하고자 합니다. matplotplib은 기본적으로 도화지 위에 그림을 쌓는 개념이라고 생각하시면 됩니다. import matplotlib.pyplot as plt %matplotlib inline %matplotlib inline: 시각화 자료를 현재 코드 안에서 바로 출력하게 해주는 명령어 matplotlib에서 가장 많이 사용하는 요인은 과 같습니다. 0-2. 학습 환경 matplotlib: 3.3.4 seaborn: 0.11.1 금일 학습에는 seaborn 라이브러리에서 제공하는 penguins 데이터를 사용하고자 합니다. seaborn에서 제공하는 다른 데이터셋은 '.get_dataset_nam..

0. 학습 환경 matplotlib: 3.3.4 seaborn: 0.11.1 금일 학습에는 seaborn 라이브러리에서 제공하는 iris 데이터를 사용하고자 합니다. seaborn에서 제공하는 다른 데이터셋은 '.get_dataset_names()'를 통해 확인이 가능합니다. import seaborn as sns sns.load_dataset('iris') #다른 데이터셋을 확인하고자 할 때 sns.get_dataset_names() 1-1. 기본 산점도 우선 산점도는 불연속값(x,y)을 표시하는 데 주로 사용합니다. 기본적인 활용은 아래와 같이 x와 y값을 넣어주는 것으로 시각화가 가능합니다. #도화지 사이즈 설정 plt.figure(figsize=(12,12)) #도화지 위에 산점도를 그리기 plt..

0-1. 데이터 전처리 전체 화장품 중 에센스와 세럼 제품만 추출 #내가 사야할 것 분석에 사용할 열만 추출 리뷰 데이터 셋과 제품 데이터 셋으로 분리 데이터 타입 변경 중복값 제거 1-1. 최소 조건 설정 총 제품 개수: 270개 -> 49개 우선 제품에 따른 리뷰 개수가 어떠한 분포를 가지는 지 히스토그램을 그려보았다. 예상대로 상당수의 제품이 100개 이하의 리뷰를 가지고 있는 것을 확인했다. 리뷰 수가 100개 미만일 경우 검증이 부족하다고 판단하여, 100개 미만인 제품은 구매고려대상에서 제외하였다. 1-2. 시각화 자료 기반 조건 설정 제품의 재구매 횟수, 평균평점 그리고 전체 리뷰 수를 기반으로 산점도를 그린 결과 와 같다. 여기서 알 수 있듯이 전체 리뷰수(구매량)이 적을수록 평균평점의 분..