나홀로 데이터 분석가의 1인 연구실

[네이버 영화] 영화 평점 분석을 위한 데이터 수집 본문

Personal Project/Long-Term Project

[네이버 영화] 영화 평점 분석을 위한 데이터 수집

나홀로 데이터 분석가 2023. 1. 4. 16:01

0-1. 프로젝트 목표

  • 영화를 비롯한 멀티 미디어 콘텐츠 사용 시 전문가와 일반 사용자 간의 의견 차이가 종종 발생하여, 이러한 현상에 대해 탐구해보고자 한다.

0-2. 프로젝트 계획

  • 네이버 영화에 존재하는 최근 리뷰와 영화 정보를 수집함.
  • 관람객과 평론가 간의 평점 차이를 확인함.
  • 평점 차이가 많이 나는 영화는 어떠한 특성을 지닌지 탐색함.
  • 인구통계학적으로 평론가와 가장 유사한 관람객 집단은 어디인지 탐색함.

 


 

1-1. 데이터 수집 정보

  • 수집 대상 사이트: https://movie.naver.com
  • 수집 기준 기간: 2023.01.04
  • 리뷰 데이터셋: 최근 작성 리뷰(10,000개)
  • 영화 데이터셋: 리뷰 데이터셋 관련 영화 정보(899개) * Null값 제거

<그림1> 네이버 영화 홈페이지

 

1-2. 데이터 정의서

  • 평균 평점 데이터셋 형태: (10000, 7)
  • 영화 정보 데이터셋 형태: (899, 8)

<그림2> 최근 평점 데이터셋 정의서
<그림3> 영화 정보 데이터셋 정의서


<그림4> 최근 평점 데이터셋 샘플
<그림5> 영화 정보 데이터셋 샘플

Comments