목록python (13)
나홀로 데이터 분석가의 1인 연구실
0-1. 사용 데이터 수집 대상 사이트: https://movie.naver.com 수집 기준 기간: 2023.01.04 영화 데이터셋: 리뷰 데이터셋 관련 영화 정보(899개) * 데이터 관련은 아래 링크를 참조 2023.01.04 - [Personal Project/Long-Term Project] - [네이버 영화] 관람객 Vs. 평론가, 의견차이에 대한 탐색 [네이버 영화] 관람객 Vs. 평론가, 의견차이에 대한 탐색 0-1. 프로젝트 목표 영화를 비롯한 멀티 미디어 콘텐츠 사용 시 전문가와 일반 사용자 간의 의견 차이가 종종 발생하여, 이러한 현상에 대해 탐구해보고자 한다. 0-2. 프로젝트 계획 네이버 영화에 scent-of-light.tistory.com 1-1. 히스토그램 우선 899개의 ..
0-1. 프로젝트 목표 영화를 비롯한 멀티 미디어 콘텐츠 사용 시 전문가와 일반 사용자 간의 의견 차이가 종종 발생하여, 이러한 현상에 대해 탐구해보고자 한다. 0-2. 프로젝트 계획 네이버 영화에 존재하는 최근 리뷰와 영화 정보를 수집함. 관람객과 평론가 간의 평점 차이를 확인함. 평점 차이가 많이 나는 영화는 어떠한 특성을 지닌지 탐색함. 인구통계학적으로 평론가와 가장 유사한 관람객 집단은 어디인지 탐색함. 1-1. 데이터 수집 정보 수집 대상 사이트: https://movie.naver.com 수집 기준 기간: 2023.01.04 리뷰 데이터셋: 최근 작성 리뷰(10,000개) 영화 데이터셋: 리뷰 데이터셋 관련 영화 정보(899개) * Null값 제거 1-2. 데이터 정의서 평균 평점 데이터셋 형..
0-1. 도입 개인적으로 시각화를 할 때 가장 많이 사용해온 matplotlib의 공통 파라미터들을 정리하고자 합니다. matplotplib은 기본적으로 도화지 위에 그림을 쌓는 개념이라고 생각하시면 됩니다. import matplotlib.pyplot as plt %matplotlib inline %matplotlib inline: 시각화 자료를 현재 코드 안에서 바로 출력하게 해주는 명령어 matplotlib에서 가장 많이 사용하는 요인은 과 같습니다. 0-2. 학습 환경 matplotlib: 3.3.4 seaborn: 0.11.1 금일 학습에는 seaborn 라이브러리에서 제공하는 penguins 데이터를 사용하고자 합니다. seaborn에서 제공하는 다른 데이터셋은 '.get_dataset_nam..