
Глубокий анализ данных о кино — от жанров до популярности.

IMDb Top 1000
Кино принято обсуждать эмоционально. «Этот фильм великий», «тот переоценён», «раньше снимали лучше». Но если отложить споры и посмотреть на данные, возникает вопрос: можно ли увидеть закономерности в зрительских оценках?
В этом проекте я анализирую датасет IMDb Top 1000 — выборку из фильмов с самыми высокими пользовательскими рейтингами на платформе IMDb — чтобы понять, как жанры, время и популярность связаны с восприятием качества кино.
Используемые графики: 01 — гистограмма 02 — bar chart 03 — линейный график 04 — scatter plot 05 — boxplot
Почему изучать IMDb-рейтинги важно?
Глобальные рейтинги отражают не только вкусы зрителей, но и культурные ожидания, жанровые особенности, тренды во времени.
Ключевые вопросы: Насколько различается рейтинг между жанрами?
Есть ли связь между рейтингом и популярностью (голосами)?
Как менялись рейтинги с годами?
IMDb Top Horror
«Рейтинг — это не просто число. Это коллективное восприятие целой аудитории.» (Pull-quote)
IMDb — одна из крупнейших платформ пользовательских оценок фильмов. Рейтинг здесь формируется не экспертами, а массовой аудиторией, что делает его интересным объектом анализа: это не канон, а коллективное мнение миллионов зрителей.
Однако рейтинг — это не просто число. За ним скрываются жанровые предпочтения, культурный контекст, эффект времени и разница между массовой популярностью и художественной ценностью.
IMDb Top 1000: структура данных
01 — код
Для анализа был использован датасет «IMDb Top 1000 Movies в формате CSV.»
Он содержит информацию примерно о тысяче фильмов, включая:
год выпуска жанры рейтинг IMDb количество голосов продолжительность валовую выручку
Эти данные позволяют рассматривать кино одновременно как культурный продукт и объект массового потребления.
Приведение данных к анализу
02 — код
Перед анализом данные были очищены: удалены пропуски в ключевых полях, год выпуска приведён к числовому формату, а жанры — нормализованы. Это важно, потому что один фильм может относиться сразу к нескольким жанрам, и без корректной обработки статистика искажается.
Единый визуальный язык
#0b1c2d // #e63746 // #f4d35d // #f9fafb
Тёмно-синий цвет используется для текста и осей, акцентный розово-красный — для ключевых элементов, жёлтый — для вторичных акцентов. Фон остаётся светлым, чтобы визуализация была читабельной и не перегруженной.
Все параметры оформления задавались программно, без ручной постобработки. Это принципиально важно: стиль — часть анализа, а не декоративное дополнение.
Как оценивают фильмы в выборке
01 — гистограмма
Гистограмма показывает, что большинство фильмов в выборке имеют рейтинг от 7.5 до 8.5. Это ожидаемо: датасет уже представляет собой отбор «лучших» фильмов, поэтому низкие оценки почти отсутствуют.
Тем не менее, даже внутри этой элитной группы заметен разброс, что говорит о различиях в восприятии качества.
Какие жанры любимы зрителями
02 — bar chart
Для каждого жанра был рассчитан средний рейтинг. Результаты показывают, что жанры различаются не случайно: документальные, военные и биографические фильмы в среднем оцениваются выше, чем более массовые жанры.
Это может говорить о том, что зрители склонны оценивать выше фильмы, которые воспринимаются как «серьёзные» или социально значимые.
Как менялись рейтинги во времени
03 — линейный график
Фильмы прошлых десятилетий часто имеют более высокие оценки, чем современные. При этом современные фильмы демонстрируют большую стабильность: разброс рейтингов у них меньше.
Это может быть связано с эффектом времени: остаются только те старые фильмы, которые «прошли проверку временем», тогда как новые ещё не прошли культурный отбор.
Популярность и качество
04 — scatter plot
Диаграмма рассеяния, показывающая связь между количеством голосов и рейтингом, демонстрирует слабую зависимость. Фильмы с высоким рейтингом могут иметь как огромное, так и относительно небольшое количество голосов.
Это подчёркивает важную мысль: массовая популярность не равна воспринимаемому качеству.
Более глубокий взгляд на жанры
05 — boxplot
Boxplot по популярным жанрам позволяет сравнить не только медиану рейтинга, но и разброс оценок. Например, жанр «драма» демонстрирует высокую вариативность: внутри него есть как очень высоко оценённые фильмы, так и более спорные.
Это указывает на жанровую неоднородность и подтверждает, что среднее значение не всегда достаточно для анализа.
Корреляционный анализ
01 — таблица
Для количественной оценки связи между рейтингом и популярностью был рассчитан коэффициент корреляции.
Результат показывает слабую корреляцию, что статистически подтверждает наблюдение: количество голосов не определяет рейтинг напрямую.
Следовательно, зрительская оценка качества и массовое внимание — это связанные, но разные измерения.
Итоги исследования
Анализ IMDb Top 1000 показывает, что:
жанры фильмов заметно различаются по уровню и разбросу рейтингов
популярность не является надёжным индикатором качества
фильмы прошлых десятилетий часто оцениваются выше из-за эффекта культурного отбора
объясняющая визуализация помогает увидеть закономерности, которые неочевидны в таблицах
Проект демонстрирует, как с помощью Pandas и визуализации можно перейти от сырых данных к осмысленным выводам о зрительском восприятии кино.