Original size 2480x3500

Визуализация данных по сериалам в IMDb

PROTECT STATUS: not protected
The project is taking part in the competition

Введение

big
Original size 640x360

Для визуализации был использован набор данных IMDb о телесериалах. Он был найден и скачан с сайта Kaggle в формате CSV. Набор включает подробную информацию о различных сериалах, представленных на IMDb, включая названия, годы выхода в эфир, рейтинги, даты выпуска, жанры, имена режиссёров, сценаристов и актёров. Кроме того, данные содержат рейтинги и количество голосов на IMDb.

Как любитель телесериалов, мне было особенно интересно работать с этим набором данных, поскольку он позволяет выявить интересные закономерности и тренды.

Для визуализации я использовала несколько видов графиков: гистограмму, столбчатую диаграмму, точечную диаграмму, линейный график и график с областями. Такой разнообразный выбор не случаен: он позволяет сделать презентацию более насыщенной и наглядной, а также подобрать оптимальный тип графика для анализа разных аспектов данных.

Стиль

Для стилизации презентации я опиралась на сам сайт IMDb и его логотип. С помощью сервиса Color.Adobe были определены ключевые цвета логотипа: основной цветовой акцент приходится на жёлтый с различными оттенками, а дополнительный — почти чёрный. В качестве шрифта был выбран «Extenda Variable», поскольку он максимально близок к оригинальному шрифту IMDb.

big
Original size 1280x720

логотип «IMDb»

Original size 1218x468

палитра цветов

Этапы работы

Для начала я подключила библиотеку pandas, которая используется для анализа и обработки табличных данных. После этого загрузила CSV-файл с данными IMDb в DataFrame. С помощью строки (df.head ()) убедилась, что файл загрузился корректно и данные отображаются ожидаемым образом.

import pandas as pd

df = pd.read_csv ('IMDB Dataset.csv') df.head ()

На данном этапе я провела первичное исследование структуры датасета, чтобы понимать, с какими типами данных предстоит работать.

df.info () df.describe ()

Следующим этапом я подключила библиотеку matplotlib, которая используется для построения графиков, а также модуль font_manager для подключения нужного мне шрифта. Далее я загрузила шрифт «Extenda Variable» и установила его в качестве основного шрифта для всех графиков в проекте.

import matplotlib.pyplot as plt from matplotlib import font_manager

font_path = '/content/0_ExtendaVariable-Regular.ttf'

font_prop = font_manager.FontProperties (fname=font_path)

plt.rcParams['font.family'] = font_prop.get_name ()

Также я создала словарь с цветовой палитрой проекта, которую ранее вывела с помощью Adobe.Color. В дальнейшем эти цвета будут использоваться при построении всех графиков.

colors = { 'accent1': '#736B02', 'accent2': '#F2E30C', 'accent3': '#D9B70D', 'accent4': '#D9A50B', 'dark': '#0D0D0D' }

Анализ и визуализация данных

0

Гистограмма показывает распределение рейтингов телесериалов на IMDb. Интересно подметить в графике, что большинство значений находятся в диапазоне от 6 до 8 баллов, что указывает на преобладание оцен чуть выше среднего. Крайне низкие и крайне высокие рейтинги встречаются значительно реже, что делает их скорее исключением. В целом аудитория IMDb склонна оценивать сериалы «усредненно», избегая слишком высоких или слишком низких оценок.

0

На диаграмме показан средний рейтинг телесериалов IMDb в зависимости от жанра.

Видно, что большинство жанров получают высокие оценки, в то время как игровые форматы и реалити шоу попадают в самый низ рейтинговой таблицы.

0

На графике показана зависимость между рейтингом телесериалов на IMDb и количеством пользовательских голосов. Каждая точка соответствует отдельному сериалу, а логарифмическая шкала по оси X позволяет корректно отобразить как малоизвестные, так и крайне популярные проекты.

Визуально сериалы с большим количеством оценок чаще располагаются в диапазоне среднего рейтинга. Высокая популярность не гарантирует максимально высокий рейтинг — среди самых обсуждаемых проектов прослеживается оценка от 8 до 4. Получается, что мы можем вывести некую тенденцию, что популярность сериала не зависит от высокой оценки, а высокий рейтинг не влияет на популярность сериала.

0

Здесь мы видим динамику выпуска телевизионных сериалов по годам. Данные показывают, сколько сериалов выходило ежегодно с 1950-х до наших дней.

Мы можем сделать заключение, что до 1980-х годов сериалы выходили не так часто, что скорее всего связано с трудностью и затратностью кинопроизводства. Однако далее наблюдается заметный рост производства данного формата, что отражает расширение телевизионного рынка и рост количества каналов.

Наиболее значительное увеличение числа сериалов приходится на 2000-е годы, когда индустрия начала активно использовать новые форматы и платформы.

После 2010-х график демонстрирует стабилизацию с периодическими колебаниями, вероятно, связанные с появлением стриминговых сервисов и изменением структуры выпуска.

0

В продолжение предыдущей аналитики был построен график с областями, демонстрирующий количество сериалов, сгруппированных по полувекам выпуска.

Это позволяет делать более структурированные выводы по эпохам, а использование цветовой дифференциации обеспечивает мгновенное визуальное различие между полувеками, что значительно упрощает анализ исторических тенденций.

0

Эта точечная диаграмма визуализирует динамику длительности телевизионных сериалов на протяжении времени. Каждая точка представляет отдельный сериал, расположенный по году выхода и продолжительности.

Так, мы можем сделать выводы, касающиеся опять эволюции кинопроизводства. В ранние десятилетия серии были относительно короткими — чаще менее 100 минут на эпизод, что может быть результатом дорогостоящего кинопроизводства.

Начиная с 1980 стали чаще появляться более длинные форматы: особенно заметны сериалы свыше 150 минут.

На графике видно, что в XXI веке индустрия постепенно смещается к более длительным и масштабным сериям, отражая рост требований зрителей и развитие кинопроизводственного процесса в целом.

Заключение

Original size 498x280

Анализ данных по телевизионным сериалам IMDb позволяет выявить множество интересных взаимосвязей и тенденций. Благодаря визуализации рейтингов, популярности, жанровых предпочтений, длительности и динамики выпуска сериалов становится очевидно, как менялись вкусы аудитории, как развивались форматы и какие жанры пользуются наибольшей популярностью.

На основе собранных данных даже можно проследить эволюцию производства киносериалов с момента его зарождения до современности: от коротких и относительно простых эпизодов начала XX века до масштабных и длинных проектов XXI века. В целом, анализ данных дает целостное представление о развитии телевизионного производства и изменении зрительских предпочтений во времени.

Описание применения генеративной модели:

Для расшифровок ошибок в коде, а также генерации изображения для обложки была использована модель ChatGPT

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more