
Вводная часть
Я пользовался сайтом kaggle.com, чтобы собрать как можно больше информации о фильмах Marvel и их персонажей. Для аналитики выбрал оценку фильмов критиками, мировые кассовые сборы, оценки зрителей, упоминаемость героев в фильмах, сериалах и комиксах, супер способности героев. Мне это стало интересно, потому что мне нравятся фильмы от Marvel, хотелось бы узнать как кассовые сборы связаны с теми или иными персонажами.
Для визуализации я данных я стал применять столбчатые, точечные, круговые, линейные и линейчатые диаграммы. Столбчатые и линейные диаграммы хорошо покажут зависимость между двумя типами данных. Круговые покажут сравнение одного и того же типа данных в зависимости от повторяемости, например, популярность суперспособностей героев. Линейчатые лучше изобразят динамику, например, кассовые сборы. Точечный график хорошо продемонстрирует оценку зрителей.
Этапы работы
Для оформления данных я использовал классический набор цветовой палитры Marvel. HEX: #e23636б, #000000б, #504a4аб, #518cca, #f78f3f. Этот яркий цвет хорошо связан со стилем студии. Взял эту цветовую палитру на сайте color-hex.com. Также я выбрал жирный шрифт из библиотеки Matplotlib.
Для написания кода я пользовался Chat GPT. Туда же я загружал табличные данные для последующего анализа. Так как было сложно пытаться комбинировать собранную информацию, я также пользовался Google Collab для получения с помощью ИИ ошибок при составления кода. Для создания красивых картинок, референсов, текстуры и графики я пользовался Midjourney.
Для фона графиков я пользовался цветом HEX: #e23636б. На заднем фоне была нарисована еле заметная текстура, напоминающая патину Человека-паука.
Структура кода на примере линейчатой диаграммы
Задаем пути к файлам. Указываем пути к двум CSV-файлам: один с оценками фильмов Marvel, другой с данными о кассовых сборах. Импортируем необходимые библиотеки. Pandas используется для работы с табличными данными, Matplotlib — для создания визуализаций, Numpy — для выполнения математических операций, например, для расчетов с углами. Загружаем данные из двух файлов: данные с оценками фильмов и с кассовыми сборами. Преобразуем буквенные оценки в числовые значения. Создаем функцию для преобразования оценок (A, B, C и т. д.) в числовой формат. Это позволит нам упорядочивать фильмы и находить топовые по рейтингу.
Добавляем в данные новую колонку, где буквенные оценки преобразованы в числовой формат. Находим топ-10 фильмов с самыми высокими оценками. Используем сортировку по числовым оценкам и выбираем 10 фильмов с наивысшими рейтингами. Выбираем из данных о сборах только названия фильмов и их мировые сборы, а затем устанавливаем название фильма как индекс. Устанавливаем одинаковый индекс для объединения. Заменяем индекс в данных с оценками на названия фильмов, чтобы можно было соединить таблицы. Соединяем данные о фильмах с оценками и их кассовыми сборами по индексу. Используем метод inner join, чтобы оставить только фильмы, которые есть в обоих наборах данных. Настраиваем цветовую схему. Задаем цвета для элементов графика, включая фон, заголовки, сетку и столбцы. Задаем размер фигуры и получаем доступ к системе координат для добавления элементов, таких как паутина.
Рисуем концентрические круги и радиальные линии, создавая декоративный эффект паутины. Рисуем два набора столбцов: для оценок фильмов и для кассовых сборов (в миллионах долларов). Подписываем каждый столбец с кассовыми сборами, указывая суммы в миллионах долларов.
Устанавливаем общий цвет фона для всей фигуры, синхронизируя стилистику графика. Показываем финальную визуализацию, иллюстрирующую связь между рейтингами фильмов и их кассовыми сборами.
Самые оценённые фильмы от Marvel
Связь оценки критиков с кассовыми сборами фильмов от Marvel
Связь оценки зрителей с кассовыми сборами трёх самых прибыльных фильмов от Marvel
Самые популярные суперспособности героев
Самые встречающиеся персонажи Marvel
Выводы
Самые хорошо оцененные фильмы критиками и простыми зрителями оказались из серии Мстителей. Они же являются самыми кассовыми, что по факту подтверждает связь оценок этих двух аудиторий.
Удивительно, что самые часто встречающиеся супер способности героев не связаны с какими-то особенными качествами, например, умение пускать паутину, видеть сквозь стены, телепатия… По сути у героев три важных качества, которые должны быть почти у всех: сверх выносливость, скорость и долговечность.
Ещё более удивительным оказался тот факт, что самые часто встречающиеся персонажи комиксов на последнем графике почти никак не связаны с кассовыми сборами фильмов. Эти персонажи как минимум не встречались в фильмах вовсе, например Женщина-паук. И как максимум они бывали в серии Мстителей. Это все наводит на мысль, что вскоре данные персонажи будут экранизированы, поскольку они известны своей целевой аудитории и скорее всего они будут сняты сразу вместе, так подобная тактика съёмок хорошо зарекомендовала себя по кассовым сборам Мстителей.