
Введение
Я, как и 713 миллионов ежемесячных активных пользователей по всему миру, использую для прослушивания музыки Spotify. Этот стриминговый сервис является одним из самых популярных глобальных стримингов для прослушивания музыки, поэтому данные с этого сервиса являются подходящими для анализа современной поп-культуры, ключевых музыкальных трендов и закономерностей.
С использованием Perplexity на Kaggle я нашла актуальный датасет, в котором есть информация вплоть до 2025 года и который содержит информацию по следующим параметрам: - популярность трека, рассчитанная на основе пользовательских взаимодействий; - жанры артистов; - продолжительность трека в минутах; - наличие или отсутствие ненормативной лексики (explicit-контент); - дополнительные характеристики артистов и треков.
Объём данных позволяет проводить как описательный анализ, так и сравнение различных групп.
В этом проекте я анализирую данные Spotify, чтобы понять: — какие жанры наиболее популярны; — как меняется средняя длительность треков; — влияет ли ненормативная лексика на популярность музыки.
Стилистическое решение
В качестве цветовой палитры я взяла основные цвета Spotify: зелёный, черный и белый, а в качестве основного шрифта «DejaVu Sans», так как он схож со стилистикой сервиса и имеет все необходимые символы.

Для визуализации данных в соответствующем стиле, я изначально задала в коде необходимые цвета и шрифт.
Используемые статистические методы
В проекте используются методы описательной статистики и категориального анализа: - Среднее арифметическое — для оценки средней популярности и длительности треков; - Медиана — для устойчивой оценки центральной тенденции; - Количество наблюдений — для оценки репрезентативности жанров; - Группировка данных — для анализа категориальных признаков; - Анализ распределений — для сравнения популярности explicit и non-explicit треков; - Сравнение категорий — для выявления различий между жанрами.
Использование этих методов позволяет получить интерпретируемые и воспроизводимые результаты без усложнения модели.
Кроме того, используются и два формата визуализации данных: изучающий и объясняющий.
Изучающий формат применяется для беспристрастного представления структуры данных и выявления базовых закономерностей, таких как распределение жанров и средняя длительность треков.
Объясняющий формат используется для интерпретации полученных результатов и формулирования аналитической позиции относительно влияния explicit-контента и жанрового контекста на популярность музыки.
Сочетание этих форматов позволяет выстроить аналитическое повествование от наблюдений к выводам.
Предварительная подготовка
Первым делом я импортировала необходимые библиотеки и загрузила сам датасет:
Перед началом анализа данные были очищены и подготовлены. Пропущенные значения в столбце с жанрами были заменены пустыми значениями, после чего строки с жанрами были приведены к единому формату.
Поскольку один артист может относиться к нескольким музыкальным жанрам, данные были нормализованы: список жанров был разделён и развернут таким образом, чтобы каждый жанр анализировался как отдельная наблюдаемая категория. Это позволило более корректно оценить популярность и характеристики жанров.
Какие жанры наиболее популярны?
Сначала я подготовила данные для данного графика.
Столбчатая диаграмма является наиболее подходящим инструментом для сравнения категориальных данных. В данном случае она позволяет наглядно сопоставить популярность различных жанров между собой.
Для визуализации были выбраны только топ-10 жанров, чтобы избежать визуального шума и сосредоточить внимание на наиболее значимых категориях.
Что показывает график: - какие жанры доминируют на платформе Spotify; - различия между жанрами по средней популярности; - асимметрию музыкального рынка.
Так, популярность жанров распределена неравномерно. Некоторые жанры представлены большим количеством треков, но имеют умеренную среднюю популярность, в то время как другие жанры, к примеру альтернативный поп, достигают высокой популярности при меньшем объёме контента.
Средняя продолжительность треков по жанрам
Подготовка данных для графика:
Для анализа продолжительности треков используется violin plot, так как он позволяет изучать не только среднее значение, но и распределение длительности композиций внутри каждого жанра.
В отличие от столбчатой диаграммы, такой тип визуализации показывает разброс значений, плотность распределения и медианные значения, что особенно важно при анализе музыкальных форматов.
Продолжительность трека является ключевой характеристикой, отражающей формат потребления музыки. Она позволяет выявить различия между жанрами и понять, как музыкальные композиции адаптируются под современные условия прослушивания.
График демонстрирует: - различия в распределении длительности треков между жанрами; - степень вариативности внутри каждого жанра; - связь между жанром и форматом музыкальной композиции.
Анализ показывает, что коммерчески ориентированные жанры характеризуются более короткими и менее вариативными треками, тогда как нишевые и экспериментальные жанры чаще включают более продолжительные композиции с большим разбросом длительностей.
Это может быть связано с алгоритмами стриминговых сервисов, ориентированными на удержание внимания слушателя, а также с изменением пользовательских паттернов прослушивания музыки.
Влияние ненормативной лексики на популярность
Подготовка данных к анализу:
Коробчатая диаграмма же позволяет анализировать распределение данных, а не только средние значения. Он показывает: - медиану, - межквартильный размах, - выбросы.
Это особенно важно при сравнении популярности треков, так как распределение может быть асимметричным.
Что показывает график: - различия в распределении популярности между explicit и non-explicit треками; - наличие выбросов — отдельных сверхпопулярных треков.
Наличие ненормативной лексики не оказывает выраженного негативного влияния на популярность треков. Распределения популярности в обеих группах во многом схожи, что указывает на нормализацию explicit-контента в современной музыкальной культуре.
Explicit-контент внутри жанров
Подготовка данных для визуализации:
Группированная диаграмма здесь позволяет сравнивать две категории (explicit и non-explicit) внутри каждой жанровой группы. Это помогает выявить контекстные различия, которые не видны при агрегированном анализе.
Что показывает график: - как explicit-контент воспринимается в разных жанрах; - существуют ли жанровые различия в популярности explicit-треков.
Из анализа можно заметить, что в некоторых жанрах explicit-контент коррелирует с более высокой популярностью, что отражает культурные и стилистические особенности аудитории. В других жанрах различия минимальны, что подчёркивает важность жанрового контекста при интерпретации данных.
Вывод
Проведённый анализ данных Spotify позволил выявить ключевые музыкальные тренды и особенности современного потребления музыки на стриминговых платформах.
Анализ популярности жанров показал, что наибольший интерес аудитории сосредоточен вокруг коммерчески ориентированных направлений, которые представлены большим количеством треков и стабильно высокими показателями популярности. Это подтверждает доминирование массовых жанров в экосистеме стриминга.
Исследование продолжительности треков выявило заметные различия между жанрами. Коммерческие жанры, как правило, характеризуются более короткими и менее вариативными композициями, тогда как нишевые и экспериментальные направления демонстрируют большую среднюю длительность и широкий разброс значений. Это отражает адаптацию музыкального формата под алгоритмы стриминговых сервисов и изменяющиеся паттерны потребления, ориентированные на быстрое и повторное прослушивание.
Анализ explicit-контента показал, что наличие ненормативной лексики само по себе не является универсальным фактором популярности. Его влияние зависит от жанрового контекста: в одних жанрах explicit-контент коррелирует с более высокой популярностью, в других — не оказывает значимого эффекта. Это подчёркивает важность культурных и жанровых норм при интерпретации подобных характеристик.
В совокупности результаты демонстрируют, что музыкальные тренды на стриминговых платформах формируются на пересечении жанровой специфики, формата композиции и контекста потребления. Визуализация данных в изучающем и объясняющем форматах позволила не только зафиксировать количественные различия, но и предложить интерпретацию этих различий с точки зрения современных цифровых музыкальных экосистем.
Описание применения генеративной модели
Для выполнения работы я использовала следующие генеративные модели: 1. Поиск датасета: Perplexity Промт: «я делаю проект по анализу данных и визуализации помоги найти данные, связанные с музыкой» 2. Подбор графиков: ChatGPT Промт: «я делаю проект по анализу данных и визуализации помоги найти данные, связанные с музыкой. Я хочу выявить музыкальные тренды, популярность жанров и влияние эксплицитного контента (Я буду анализировать Какие жанры наиболее популярны Средняя продолжительность треков по жанрам и связь содержит ли трек ненормативную лексику). Помоги подобрать подходящие графики» 3. Анализ информации: ChatGPT Промт: «проанализируй отправленный датасет и пропиши общий вывод» 4. Генерация кода для визуализации данных: ChatGPT Промт: «напиши код по каждому графику последовательно» 5. Генерация изображения: Recraft.ai Промт: «Спотифай»