Original size 1140x1600

Топ фильмов IMDb

PROTECT STATUS: not protected
The project is taking part in the competition

Киноиндустрия занимает важное место в мировой индустрии развлечений и продолжает активно развиваться. Успех фильмов формируется под влиянием различных факторов, таких как жанр, продолжительность, возрастная классификация, режиссёр, актёрский состав, а также отклик аудитории, выраженный через рейтинги и количество голосов. Анализ этих характеристик позволяет выявить закономерности, связанные с популярностью и оценкой фильмов зрителями.

big
Original size 1640x624

Визуальное оформление

big
Original size 1277x780

При офрмлении визуализаций я буду использовать фирменный стиль IMDb

big
Original size 1221x210
Original size 1980x343

Источник данных

Для анализа данных будет использован датасет, содержащий информацию о 5000 фильмах с наивысшими рейтингами на сайте IMDb, размещённый на платформе Kaggle

Перед началом анализа требуется провести дополнительную фильтрацию и сортировку данных с целью повышения их качества и удобства для последующей обработки. На данном этапе будут выявлены и устранены возможные пропуски, а также приведены к единому формату ключевые параметры датасета. Это позволит обеспечить корректность анализа и достоверность полученных результатов.

Были выявлены и удалены строки с аномальными значениями в признаке runtime, которые не соответствовали формату продолжительности фильма. Кроме того, признаки runtime и gross_earn были очищены от нечисловых символов и приведены к числовым типам данных, что позволяет использовать их в статистическом анализе и визуализациях.

Также была выполнена сортировка данных по убыванию рейтинга фильмов и переопределение индексов, что упростило дальнейшую работу с датасетом. В результате проведённых преобразований был получен очищенный и структурированный набор данных, пригодный для последующего разведочного анализа.

Неграфический и графический анализ количественных признаков

Original size 3750x817

Сначала мы взяли столбец с доходами фильмов и сохранили его отдельно, чтобы с ним было удобнее работать. Потом посмотрели на максимальные и минимальные значения и заметили, что есть фильмы с доходом 0, поэтому мы их исключили, чтобы не искажать результаты.

Original size 1000x712

Дальше мы посчитали средний доход и медиану, чтобы понять, какой доход типичен для фильма, и посмотрели на разные процентили — это помогает увидеть, как распределены доходы и где сосредоточено большинство фильмов.

Original size 777x670
post

В итоге, с помощью функции describe () мы получили сводную статистику: минимальные и максимальные доходы, среднее, стандартное отклонение и квартильные значения — то есть полный портрет распределения доходов фильмов.»

Если мы попробуем построиить диаграмму «ящик с усами» с помощью метода boxplot (). Мы увидим, диаграмма пустая. Это связано с наличием пропущенных значений по признаку. Очистим клонку от пустых значений с помощью dropna и попробуем заново построить «ящик с усами»

Original size 692x481
Original size 953x670

Попробуем построить гистограмму с помощью метода hist (), чтобы посмотреть на распределение признака.

Original size 854x558
Original size 945x350

Гистограмма показывает, достаточно большой размах в данных, что подтверждается и показателями описательной статистики (min и max). Ограничем графический анализ 10 процентилем снизу и 90 процентилем сверху, тем самым обработав часть выбросов, и заново построим гистограмму передав в нее параметр bins=20 для лучшей визуализации

Original size 866x558
Original size 933x406

Выводы

Размах значений оказался очень большим от 0 до 936 у.е

Нулевых значений не так много. Можно их исключить из анализа.

Если вы хотите знать, какой доход имеют большинство фильмов, вы можете посмотреть на медиану (50-й процентиль).

Если вам интересно, какой доход имеют самые успешные 10% фильмов, вы можете посмотреть на 90-й процентиль.

Пример

Представьте, что у вас есть 100 фильмов, и вы хотите понять, как распределены их доходы. Процентили помогут вам увидеть: 10% фильмов зарабатывают меньше 0.797. 25% фильмов зарабатывают меньше 7.0. 50% фильмов зарабатывают меньше 28.345. 75% фильмов зарабатывают меньше 63.04. 90% фильмов зарабатывают меньше 121.968

Ящик с усами не дает полного понятия о распределении признака поэтому использовали гистограмму, далее обработав часть выбросов и увелича кол-во интервалов можем лучше провести анализ распределения признака.

Неграфический и графический анализ категориальных признаков

post

Сейчас мы посмотрим на признак certificate, который показывает возрастную классификацию фильмов по стандартам BBFC. Сначала с помощью метода describe () мы получили сводную информацию: сколько всего записей, сколько уникальных категорий и какое значение встречается чаще всего.

Затем мы посмотрели на все уникальные категории с помощью unique (), чтобы понять, какие сертификаты вообще встречаются в данных.

Дальше мы посчитали, сколько раз встречается каждая категория с помощью value_counts (). И чтобы потом красиво построить столбчатую диаграмму, мы отсортировали результаты по возрастанию: так самые популярные сертификаты будут отображаться сверху, а менее частые — внизу.

То есть мы не просто смотрим на числа, а сразу готовим данные для наглядного и понятного графика.

Original size 927x794

Построим горизонтальную столбчатую диаграмму с помощью метода barh ()

Original size 879x558
Original size 1108x361

Выделим топ-5 классов, по которым больше всего фильмов и сохраним результат в переменную certificate_counts_top_5

P. S. При анализе категориальных признаков если категорий не больше 5, то предпочтительна круговая диаграмма, в ином случае — столбчатая

Original size 636x670
Original size 922x457

Вывод

Количество уникальных значений: признак имеет 15 уникальных значений, что говорит о достаточно разнообразных категориях.

Наиболее часто встречающееся значение: чаще всего встречается значение 15, оно встречается 1843 раза, то есть почти в половине случаев.

Распределение значений: выделяются 5 крупных значений, которые встречаются значительно чаще остальных, остальные значения встречаются гораздо реже.

Графический анализ: столбчатая и круговая диаграммы показывают, что сертификат 15 занимает почти половину всех крупных сертификатов, что наглядно демонстрирует его доминирующее положение среди категорий.

Анализ взаимосвязи количественного и категориального признаков

Дальше мы решили посмотреть, как отличаются доходы фильмов в зависимости от класса сертификата. Для этого сначала мы сгруппировали данные по признаку certificate и посчитали медианный доход для каждого класса. Это позволило понять, какой доход является типичным внутри каждой категории.

Original size 970x678

Затем мы расширили анализ и рассчитали описательные статистики доходов в разрезе классов с помощью метода describe (). Так мы увидели не только медиану, но и средние значения, разброс, минимумы и максимумы по каждому сертификату.

Original size 927x621

После этого мы попытались визуализировать распределения доходов с помощью диаграммы «ящик с усами». Однако график получился малоинформативным: из-за большого количества классов и наличия выбросов его было сложно интерпретировать.

Original size 848x481
Original size 1083x532

Чтобы упростить анализ, мы посчитали, сколько раз встречается каждый класс, и увидели, что крупных классов всего 8. Поэтому мы решили ограничиться только ими. Мы сохранили список топ-8 сертификатов и отфильтровали исходный датасет, оставив только фильмы с этими классами.

0

Построим диаграмму «ящик с усами» с помощью метода boxplot (), передав в качестве x — значения классов, а в качестве y — доход с фильмов, при этом ограничив значение оси y на отметке 250 с помощью функции plt.axis () и параметров ymin и ymax

Original size 1002x569
Original size 1138x566

На графиках видно что фильмы с определенной сетрификацией получают разные сборы например фильмы с сертификатом U собирают больше всего но у 12А больше выбросов и фильмов которые собрали огромное количество денег

Original size 2656x579

Заключение

После проведённого анализа я могу сделать вывод, что он помог мне лучше понять закономерности в мире кино. Я увидел, какие классы фильмов и рейтинги чаще всего встречаются среди самых успешных, какие фильмы приносят высокий доход, а какие — менее прибыльны. Всё это помогает мне, как любителю кино, понять предпочтения зрителей, оценить популярность разных категорий фильмов и просто интересно увидеть цифры, подтверждающие мои впечатления о том, какие фильмы «выстреливают» в прокате.

Original size 4442x3683

Описание применения генеративной модели

Я использовала ChatGPT и Gemini для написания кода для обработки и визуализации данных. Ссылки: chatgpt.com и gemini.google.com

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more