나홀로 데이터 분석가의 1인 연구실

[네이버 영화] 영화 리뷰에 대한 성별, 연령대 차이는 얼마나 존재할까? 본문

Personal Project/Long-Term Project

[네이버 영화] 영화 리뷰에 대한 성별, 연령대 차이는 얼마나 존재할까?

나홀로 데이터 분석가 2023. 1. 16. 16:02

0-1. 사용 데이터

  • 수집 대상 사이트: https://movie.naver.com
  • 수집 기준 기간: 2023.01.04
  • 영화 데이터셋: 리뷰 데이터셋 관련 영화 정보(899개) * 데이터 관련은 아래 링크를 참조

2023.01.04 - [Personal Project/Long-Term Project] - [네이버 영화] 관람객 Vs. 평론가, 의견차이에 대한 탐색

 

[네이버 영화] 관람객 Vs. 평론가, 의견차이에 대한 탐색

0-1. 프로젝트 목표 영화를 비롯한 멀티 미디어 콘텐츠 사용 시 전문가와 일반 사용자 간의 의견 차이가 종종 발생하여, 이러한 현상에 대해 탐구해보고자 한다. 0-2. 프로젝트 계획 네이버 영화에

scent-of-light.tistory.com

 


1-1. 성별 간의 평점 차이

영화를 평가할 때 남녀간의 차이가 있는 지 알기 위해 우선 KDE를 그려보았다.

 

아래 <그림1>과 같이 남녀 간의 평균평점 분포는 상당 부분 겹치는 것으로 보인다.

하지만 옆에 기술통계량을 보면 평균의 차이가 0.8점으로, 두 집단 간의 큰 차이가 존재함을 알 수 있다.

 

<그림1> 성별에 따른 평균평점 분포

 

보다 정확한 차이를 보이기 위해 T-Test를 진행하였고 결과는 아래와 같다.

  • 등분산 검정: '두 집단은 등분산이다' 라는 귀무가설을 기각함(P-Value: 3.470e-05)
  • T-Test: '두 집단의 평균은 동일하다' 라는 귀무가설을 기각함(P-Value: 2.415e-36)

결과적으로 남성과 여성의 평균평점은 통계적으로 차이가 있음을 유추할 수 있다.

(단, 본 실험의 데이터 셋이 매우 희소하기 단정 지을 수 없음)

 


 

추가로, 평론가와의 평균평점 분포의 차이는 <그림2>와 같다.

<그림2>만 본다면, 남성이 여성보다 평론가와 평균평점이 유사할 가능성이 높은 것으로 유추할 수 있다.

<그림2> 성별과 평론가의 평평점 분포

 


2-1. 연령대 간의 평점 차이

연령대 별로 평균평점의 차이가 존재하는 지 알기위해 각 연령별 히스토그램을 그려보았다.

 

<그림3>을 보면 다른 연령대에 비해 10대가 도드라지는 특징을 보이고 있다.

  1. 9-10점 사이의 빈도가 다른 구간에 비해 가장 높은 유일한 연령대이다.
  2. 모든 연령대에서 0-1점, 1-2점 사이의 빈도가 가장 높은 연령대이다.

이를 토대로 10대가 다른 연령대에 비해 좋고 싫음이 상대적으로 뚜렷한 연령대라고 볼 수 있다.

<그림3> 연령별 평균평점에 대한 히스토그램


<그림4> 연령별 평균평점에 대한 박스플롯

 

<그림4>를 보면, 모든 연령대에서 10대의 수염(Whisker)이 가장 긴 것을 알 수 있다.

또한, 박스(25%-75%) 또한 연령대 중 가장 길다.

 

이를 토대로 10대는 다른 연령대에 비해 호불호가 분명하고, 그 안에서 정도의 차이가 고르게 존재한다고 볼 수 있을 것 같다.

즉, 좋다고 무조건 10점이 아닌, '매우 좋다', '조금 덜 좋다', '그냥 나쁘지 않다'와 같이 정도의 차이가 상대적으로 고르게 존재한다.

 

 


3. 분석을 마치며.

성별간의 평균평점의 차이는 어느정도 존재할 것으로 예상했다.

하지만 10대와 다른 연령대와의 차이가 생각보다 뚜렷하여 다소 놀랐다.

 

이러한 10대들의 소비자로서의 영향력은 현재 미비하지만, 몇년 안에 이들은 주류 소비자로 성장할 것이다.

따라서 기업은 소비자들의 특성 변화에 민감하게 반응하고, 이를 사전적으로 대응할 필요가 있어보인다.

Comments