나홀로 데이터 분석가의 1인 연구실

[네이버 영화] 관람객 Vs. 평론가, 의견차이 존재할까? 본문

Personal Project/Long-Term Project

[네이버 영화] 관람객 Vs. 평론가, 의견차이 존재할까?

나홀로 데이터 분석가 2023. 1. 9. 15:28

0-1. 사용 데이터

  • 수집 대상 사이트: https://movie.naver.com
  • 수집 기준 기간: 2023.01.04
  • 영화 데이터셋: 리뷰 데이터셋 관련 영화 정보(899개) * 데이터 관련은 아래 링크를 참조

2023.01.04 - [Personal Project/Long-Term Project] - [네이버 영화] 관람객 Vs. 평론가, 의견차이에 대한 탐색

 

[네이버 영화] 관람객 Vs. 평론가, 의견차이에 대한 탐색

0-1. 프로젝트 목표 영화를 비롯한 멀티 미디어 콘텐츠 사용 시 전문가와 일반 사용자 간의 의견 차이가 종종 발생하여, 이러한 현상에 대해 탐구해보고자 한다. 0-2. 프로젝트 계획 네이버 영화에

scent-of-light.tistory.com

 


1-1. 히스토그램

우선 899개의 영화에 매겨진 네티즌 평균평점과 평론가 평균평점의 차이는 <그림1>, [표1]과 같다.

 

평균적으로 1.67점의 차이가 네티즌과 평론가 평균평점 사이에 존재하였으며, 분포도에서도 1-2점 사이가 가장 많은 것을 알 수 있다.

 

<그림1> 네티즌-평론가 평균평점 차이에 대한 분포도

 

[표1] 네티즌-평론가 평균평점 차이에 대한 기술통계량

 

1-2. 산점도

위 결과만을 토대로 네티즌과 평론가의 평점은 다르다고 확정할 수는 없다.

 

따라서 이번에는 시각적으로 둘간의 차이를 보기위해 산점도를 그려보았고, 결과는 아래 <그림2>와 같다.

 

<그림2>에서 알 수 있듯이 네티즌의 평점8-10점 사이에 평점이 많이 분포되어 있는 반면, 평론가6-8점 사이에 평점이 많이 분포되어 있다고 추청된다.

<그림2> 네티즌과 평론가의 평점 산점도(개별)

 

 

보다 자세한 비교를 위해 같은 공간에 이 둘을 합쳐보았다.

 

<그림3>에서 알 수 있듯이 분명 산점도 상에서 둘의 평점 분포가 차이를 보이고 있다.

 

<그림3> 네티즌과 평론가의 평점 산점도(동시)

 

1-3. KDE(Kernel Density Estimation)

위 산점도에 대하여 밀도(확률) 추정을 시각화한 결과, 두 집단 간의 차이가 보다 뚜렷하게 보였다.

<그림4> 네티즌과 평론가의 평점에 대한 KDE

 

하지만 이 또한, 두 집단 간의 차이가 있다고 말하기에는 다소 부족하다.

 

1-4. 독립표본 T-Test

두 집단 간의 차이를 검증할 수 있는 가장 좋은 방법은 통계적 방법을 쓰는 것이다.

 

이러한 상황에서는 독립표본 T-Test를 진행하는 것이 적합해보인다.

 

 

이에 앞서 두 집단의 동분산 검정(Levene)을 진행하였고, 결과는 아래와 같다.

  • 통계량: 0.81739703306081,
  • P-value: 0.36606356485498337
  • 결과: 유의수준 0.05 기준으로 귀무가설(두 집단의 분산은 동일하다) 채택

 

 

이러한 결과를 토대로 독립표본 T-Test를 진행하였고, 그 결과는 아래와 같다.

  • 통계량: -25.39368975021673,
  • P-value: 8.317019530714502e-122
  • 결과: 유의수준 0.05 기준으로 귀무가설(두 집단의 평균은 동일하다) 기각

 


 

2. 분석을 마치며.

위 분석을 토대로 네티즌과 평론가의 평점 차이는 통계적으로 유의미하다 라고 결론 지을 수는 없다.

 

위 결과는 단순히 899개의 최신 영화에만 한정되어 있기 때문이다.

 

899개는 극소수의 데이터이기에 통계적 실험 결과를 일반화하기에는 매우 위험하다.

Comments