Original size 1140x1600

IMDb Top 1000: что движет рейтингами фильмов?

PROTECT STATUS: not protected
The project is taking part in the competition

Глубокий анализ данных о кино — от жанров до популярности.

big
Original size 1503x784

IMDb Top 1000

Кино принято обсуждать эмоционально. «Этот фильм великий», «тот переоценён», «раньше снимали лучше». Но если отложить споры и посмотреть на данные, возникает вопрос: можно ли увидеть закономерности в зрительских оценках?

В этом проекте я анализирую датасет IMDb Top 1000 — выборку из фильмов с самыми высокими пользовательскими рейтингами на платформе IMDb — чтобы понять, как жанры, время и популярность связаны с восприятием качества кино.

Используемые графики: 01 — гистограмма 02 — bar chart 03 — линейный график 04 — scatter plot 05 — boxplot

Почему изучать IMDb-рейтинги важно?

Глобальные рейтинги отражают не только вкусы зрителей, но и культурные ожидания, жанровые особенности, тренды во времени.

Ключевые вопросы: Насколько различается рейтинг между жанрами?

Есть ли связь между рейтингом и популярностью (голосами)?

Как менялись рейтинги с годами?

Original size 1200x1500

IMDb Top Horror

«Рейтинг — это не просто число. Это коллективное восприятие целой аудитории.» (Pull-quote)

IMDb — одна из крупнейших платформ пользовательских оценок фильмов. Рейтинг здесь формируется не экспертами, а массовой аудиторией, что делает его интересным объектом анализа: это не канон, а коллективное мнение миллионов зрителей.

Однако рейтинг — это не просто число. За ним скрываются жанровые предпочтения, культурный контекст, эффект времени и разница между массовой популярностью и художественной ценностью.

IMDb Top 1000: структура данных

Original size 628x100

01 — код

Для анализа был использован датасет «IMDb Top 1000 Movies в формате CSV.»

Он содержит информацию примерно о тысяче фильмов, включая:

год выпуска жанры рейтинг IMDb количество голосов продолжительность валовую выручку

Эти данные позволяют рассматривать кино одновременно как культурный продукт и объект массового потребления.

Приведение данных к анализу

Original size 1054x76

02 — код

Перед анализом данные были очищены: удалены пропуски в ключевых полях, год выпуска приведён к числовому формату, а жанры — нормализованы. Это важно, потому что один фильм может относиться сразу к нескольким жанрам, и без корректной обработки статистика искажается.

Единый визуальный язык

Original size 959x630

#0b1c2d // #e63746 // #f4d35d // #f9fafb

Тёмно-синий цвет используется для текста и осей, акцентный розово-красный — для ключевых элементов, жёлтый — для вторичных акцентов. Фон остаётся светлым, чтобы визуализация была читабельной и не перегруженной.

Все параметры оформления задавались программно, без ручной постобработки. Это принципиально важно: стиль — часть анализа, а не декоративное дополнение.

Как оценивают фильмы в выборке

Original size 571x455

01 — гистограмма

Гистограмма показывает, что большинство фильмов в выборке имеют рейтинг от 7.5 до 8.5. Это ожидаемо: датасет уже представляет собой отбор «лучших» фильмов, поэтому низкие оценки почти отсутствуют.

Тем не менее, даже внутри этой элитной группы заметен разброс, что говорит о различиях в восприятии качества.

Какие жанры любимы зрителями

Original size 554x513

02 — bar chart

Для каждого жанра был рассчитан средний рейтинг. Результаты показывают, что жанры различаются не случайно: документальные, военные и биографические фильмы в среднем оцениваются выше, чем более массовые жанры.

Это может говорить о том, что зрители склонны оценивать выше фильмы, которые воспринимаются как «серьёзные» или социально значимые.

Как менялись рейтинги во времени

Original size 567x455

03 — линейный график

Фильмы прошлых десятилетий часто имеют более высокие оценки, чем современные. При этом современные фильмы демонстрируют большую стабильность: разброс рейтингов у них меньше.

Это может быть связано с эффектом времени: остаются только те старые фильмы, которые «прошли проверку временем», тогда как новые ещё не прошли культурный отбор.

Популярность и качество

Original size 576x455

04 — scatter plot

Диаграмма рассеяния, показывающая связь между количеством голосов и рейтингом, демонстрирует слабую зависимость. Фильмы с высоким рейтингом могут иметь как огромное, так и относительно небольшое количество голосов.

Это подчёркивает важную мысль: массовая популярность не равна воспринимаемому качеству.

Более глубокий взгляд на жанры

Original size 592x445

05 — boxplot

Boxplot по популярным жанрам позволяет сравнить не только медиану рейтинга, но и разброс оценок. Например, жанр «драма» демонстрирует высокую вариативность: внутри него есть как очень высоко оценённые фильмы, так и более спорные.

Это указывает на жанровую неоднородность и подтверждает, что среднее значение не всегда достаточно для анализа.

Корреляционный анализ

Original size 1704x107

01 — таблица

Для количественной оценки связи между рейтингом и популярностью был рассчитан коэффициент корреляции.

Результат показывает слабую корреляцию, что статистически подтверждает наблюдение: количество голосов не определяет рейтинг напрямую.

Следовательно, зрительская оценка качества и массовое внимание — это связанные, но разные измерения.

Итоги исследования

Анализ IMDb Top 1000 показывает, что:

жанры фильмов заметно различаются по уровню и разбросу рейтингов

популярность не является надёжным индикатором качества

фильмы прошлых десятилетий часто оцениваются выше из-за эффекта культурного отбора

объясняющая визуализация помогает увидеть закономерности, которые неочевидны в таблицах

Проект демонстрирует, как с помощью Pandas и визуализации можно перейти от сырых данных к осмысленным выводам о зрительском восприятии кино.

Original size 1127x569
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more