
Феномен музыкального долголетия: Анализ треков-«долгожителей» в чартах Spotify
Описание проекта
В этом проекте проанализирован массив данных о ежедневных позициях треков в мировых чартах Spotify и их аудиохарактеристиках. Анализ позволил выявить ключевые особенности музыки, которая не просто становится популярной, но и надолго задерживается в чартах. Я сравнила две группы треков: «однодневки» (≤30 дней в чартах) и «долгожители» (≥100 дней в чартах), чтобы найти количественные подтверждения тому, что успех — это не только случайность, но и совокупность измеримых параметров.

Midjourney
Интуиция подсказывает, что хиты — это часто энергичные и позитивные треки. Но в мире данных мы не можем полагаться на интуицию. Мы должны прийти к выводу через очистку данных, статистические тесты и проверку гипотез. Моя работа — не про открытие нового мира, а про создание точной карты уже известного.
Почему это важно? Мой анализ переводит субъективные мнения в объективные данные. Теперь A & R-менеджер звукозаписывающей компании, оценивая новый трек, может опереться не на интуицию, а на цифры: «У этого трека valence (позитивность) 0.52, danceability (танцевальность) 0.66 и loudness -6.2 dB — эти показатели статистически значимо соответствуют характеристикам треков-„долгожителей“ и предсказывают высокие шансы на длительное пребывание в чартах».

Midjourney
В исследовании использованы данные о музыкальных чартах и аудиохарактеристиках треков с kaggle.com. Первый датасет содержит историю ежедневных позиций треков в мировых чартах Spotify с 2017 по 2018 год, включая название трека, исполнителя, количество прослушиваний и дату. Второй датасет содержит подробные аудиохарактеристики для каждого трека, такие как танцевальность, энергетичность, позитивность, громкость и инструментальность. Для анализа я применила такие данные, как длительность пребывания трека в чартах, средние значения аудиохарактеристик для разных групп треков, статистическая значимость различий между ними и корреляция между различными параметрами музыки.
Данные представлены в виде гистограммы для визуализации распределения треков по длительности их пребывания в чартах, набора диаграмм размаха (boxplot) для наглядного сравнения аудиохарактеристик треков-«однодневок» и «долгожителей», тепловой карты корреляций для выявления взаимосвязей между различными параметрами музыки, диаграммы рассеяния для анализа совместного распределения танцевальности и позитивности, а также графиков для сравнения общей популярности треков из разных групп.
Для визуализации я выбрала тёмный фон и приглушённую, но контрастную палитру. Это дань уважения аналоговой эре звукозаписи и той среде, где рождается музыка.
Тёмный фон — это символ тишины звукозаписывающей студии, тёмного винила на вертушке или ковролина в лофте, где репетируют группы. Это «чистый лист», на котором проявляется музыка — или, в моём случае, данные.
Приглушённые синий, оранжевый, бордовый — это цвета студийного оборудования: лампы усилителей, светящиеся индикаторы на микшере, потёртые ковры и кирпичные стены. Эта палитра не кричащая, а тёплая и «аутентичная», что соответствует моей цели — найти не сиюминутные тренды, а устойчивые, «аутентичные» закономерности в музыке.
Цветовая палитра, использованная в проекте
Ключевые вопросы исследования
1. Существуют ли статистически значимые различия в аудио-характеристиках между группами? 2. Какие характеристики наиболее сильно влияют на долголетие трека в чартах? 3. Можно ли предсказать успех трека по его аудио-характеристикам?
Анализируемые аудио-характеристики
Danceability — танцевальность Energy — энергетичность Valence — позитивность Acousticness — акустичность Instrumentalness — инструментальность Tempo — темп Loudness — громкость Popularity — популярность
Midjourney
Этапы работы
Импорт библиотек и настройка
Загрузка и предобработка данных
Загружаем два датасета:
1. SpotifyDailyRaiting.csv — ежедневные чарты с позициями треков 2. SpotifyFeatures.csv — аудио-характеристики треков
Проводим очистку данных от дубликатов, NaN значений и приводим к единому формату.
Узнаем тип данных каждого признака
Что хорошо:
Все нужные аудио-характеристики присутствуют Минимальное количество пропуков (только 1 в track_name) Большой объем данных для анализа
Что нужно исправить:
Преобразовать Date в datetime Очистить 1 пропуск в track_name Привести к единому регистру Track Name/track_name и Artist/artist_name для объединения
Проверим наличие дубликатов и пропусков в данных
Теперь обработаем данные
Данные обработаны. Проведем быструю проверку на корректность данных
Проведем анализ совпадения ключей для объединения в будущем
Вычисление долголетия треков
Для каждого трека вычисляем количество дней, которое он провел в чартах. Это ключевой показатель нашего исследования.
Методология:
Группируем данные по названию трека и артисту Находим первую и последнюю дату появления в чартах Вычисляем разность в днях + 1 (включительно) Подсчитываем общее количество появлений в чартах
Объединение датасетов
Объединяем информацию о долголетии треков с их аудио-характеристиками. Это позволит нам проводить сравнительный анализ между группами.
Ключи объединения:
Название трека (приведенное к нижнему регистру) Имя артиста
Тип объединения:
INNER JOIN (только треки, присутствующие в обоих датасетах)
Создание групп для анализа
Группы анализа:
Группа 1: «Однодневки»
Критерий: ≤30 дней в чартах Характеристика: Быстрое исчезновение из чартов Гипотеза: Могут иметь менее привлекательные аудио-характеристики
Группа 2: «Долгожители»
Критерий: ≥100 дней в чартах Характеристика: Длительное пребывание в чартах Гипотеза: Могут иметь более сбалансированные и привлекательные аудио-характеристики
Статистика групп:
Анализируем размеры групп, медианные значения и процентили для понимания распределения.
Статистический анализ
Проводим проверку гипотез о различиях между группами «однодневок» (≤30 дней) и «долгожителей» (≥100 дней) по аудио‑характеристикам.
Методы и метрики
Welch t‑test: сравнение средних без предположения о равенстве дисперсий. Основной тест. U‑тест Манна–Уитни: непараметрическая проверка различий распределений, устойчив к выбросам. Контроль множественных проверок (FDR): корректировка p‑значений методом Бенджамини–Хохберга для всех признаков по результатам Welch t‑test. Эффект‑размеры: Cohen’s d — стандартизированная разница средних. Cliff’s δ — непараметрический эффект‑размер на основе U‑статистики (чувствителен к сдвигам распределений). Доверительные интервалы (95% CI) для разницы средних — бутстрэп.
Интерпретация
p (FDR) < 0.05 — статистически значимые различия после учёта множественных сравнений. Cohen’s d: ~0.2 малый, ~0.5 средний, ~0.8 большой эффект. Cliff’s δ: ~0.11 малый, ~0.28 средний, ~0.43 большой. 95% CI: если интервал не перекрывает 0 — разница средних статистически значима.
Анализируемые признаки
danceability, energy, valence, acousticness, instrumentalness, tempo, loudness.
Примечания
Welch t‑test используется как основной (разные дисперсии и размеры групп). U‑тест подтверждает результаты без предположений о нормальности. Корректировка FDR обязательна, т. к. проводим несколько параллельных проверок.
Статистически значимые различия (FDR < 0.05):
Danceability: выше у «долгожителей» (diff ≈ 0.031, d ≈ 0.22). Energy: немного выше у «долгожителей» (diff ≈ 0.016, d ≈ 0.09). Valence: выше у «долгожителей» (diff ≈ 0.048, d ≈ 0.21). Loudness: заметно выше у «долгожителей» (diff ≈ 0.561 dB, d ≈ 0.21). Instrumentalness: ниже у «долгожителей» (diff ≈ −0.017, d ≈ −0.16).
Не значимо:
Tempo: различий нет (p≈0.54, CI включает 0).
Погранично/неустойчиво:
Acousticness: Welch ns (p≈0.13), MWU значим; 95% CI включает 0 → надежного эффекта нет.
Толкование
Треки‑«долгожители» характеризуются более высокой танцевальностью, энергией, позитивностью и громкостью, а также меньшей инструментальностью. Это указывает на преимущество более «песенно‑вокального», динамичного и «светлого» звучания для долгого удержания в чартах. Темп сам по себе не является фактором долголетия. Эффект‑размеры небольшие (малой величины), но стабильные и согласованные между тестами; доверительные интервалы по значимым признакам не перекрывают ноль.
Практические выводы
При продакшене ориентироваться на: выше danceability/energy/valence, достаточную громкость (мастеринг), меньшую инструментальность. Темп подбирать исходя из жанрового контекста, а не ожидания влияния на долголетие.
Ограничения
Наблюдательное исследование: корреляция ≠ причинность. Возможны жанровые и временные смещения выборки; результаты следует верифицировать на других периодах/регионах.
Midjourney
Создание визуализаций
Создаем комплексный набор визуализаций для наглядного представления результатов анализа.
1. Распределение долголетия треков
Гистограмма с вертикальными линиями границ групп Статистическая информация на графике
2. Сравнение аудио-характеристик
Boxplot для каждой характеристики Статистическая значимость на заголовках
3. Корреляционная матрица
Тепловая карта корреляций Маскирование верхнего треугольника
4. Scatter plot: Danceability vs Valence
Разделение по группам Центроиды групп Статистическая информация
5. Анализ популярности
Гистограммы и boxplot Сравнение распределений
Основные наблюдения:
Большинство треков (более 3000) быстро исчезают из чартов (0–10 дней). Медиана = 38 дней: половина треков живёт в чартах меньше месяца. Длинный хвост: немногие треки остаются в чартах 100+ дней.
Почему много «однодневок»:
Быстрая смена трендов в музыке. Высокая конкуренция новых треков. Алгоритмы платформ быстро «забывают» менее популярные треки.
Что означает длинный хвост:
Некоторые треки действительно «цепляют» аудиторию. Определённые жанры имеют стабильную популярность. Успешное продвижение может продлить жизнь трека.
Практические выводы:
Реалистичные ожидания: большинство треков живут недолго. Фокус на качестве: нужно создавать «запоминающиеся» треки. Стратегия продвижения: важно не только попасть, но и удержаться в чартах.
Для исследования:
График подтверждает правильность выбора групп: ≤30 дней — логично для «однодневок» (ниже медианы). ≥100 дней — разумно для «долгожителей» (значительно выше медианы).
Значимые различия
DANCEABILITY — долгожители более танцевальные ENERGY — долгожители более энергичные VALENCE — долгожители более позитивные (самая большая разница) LOUDNESS — долгожители громче INSTRUMENTALNESS — однодневки более инструментальные
Незначимые различия (ns)
ACOUSTICNESS — практически одинаковые TEMPO — темп не влияет на успех
Формула успеха долгожителей:
Больше: танцевальность + энергия + позитив + громкость Меньше: инструментальность Не важно: темп, акустичность
Практический вывод:
Успешные треки имеют четкий «звуковой профиль» — они более танцевальные, энергичные, позитивные и громкие с меньшим количеством инструментальных партий.
Сильные корреляции (>0.4)
Energy ↔ Loudness (0.71) — энергичные треки громче Energy ↔ Valence (0.41) — энергия связана с позитивностью Умеренные корреляции (0.2-0.4) Danceability ↔ Valence (0.28) — танцевальные треки более позитивные Loudness ↔ Valence (0.25) — громкие треки более позитивные
Отрицательные корреляции
Energy ↔ Acousticness (-0.55) — энергичные треки менее акустические Loudness ↔ Acousticness (-0.46) — громкие треки менее акустические
Ключевые наблюдения:
Кластер «энергичности»:
Energy, Loudness, Valence связаны между собой Формируют профиль «динамичного» трека
Акустичность — антипод:
Отрицательно коррелирует с энергией и громкостью Представляет «спокойный» стиль музыки
Слабые связи:
Tempo почти не коррелирует с другими характеристиками Instrumentalness и Popularity относительно независимы
Практический вывод:
Существуют два основных музыкальных профиля:
«Энергичный» — высокие energy, loudness, valence «Акустический» — высокая acousticness, низкие energy/loudness
Практические выводы:
Формула успеха:
Треки в правом верхнем квадранте имеют больше шансов стать долгожителями Комбинация высокой танцевальности + позитивности = ключ к успеху
Для продюсеров:
Стремиться к значениям: danceability >0.65, valence >0.50 Избегать «мрачных» и «статичных» композиций Треки в правом верхнем квадранте имеют больше шансов стать хитами. График наглядно показывает «сладкое пятно» успешной музыки
Практический вывод:
Популярность — важный фактор успеха:
Треки с популярностью >70 имеют больше шансов стать долгожителями Низкая популярность (<60) = риск быстро исчезнуть из чартов
График подтверждает: популярность и долголетие связаны — успешные треки не только дольше живут, но и изначально более популярны
Выводы
Представляем детальные результаты статистических тестов для каждой аудио-характеристики.
Интерпретация результатов:
Статистически значимые различия (FDR < 0.05):
Указывают на реальные различия между группами Не могут быть объяснены случайностью Подтверждают гипотезу о влиянии характеристик на долголетие Учитывают множественные сравнения (корректировка FDR)
Не значимые различия (FDR ≥ 0.05):
Не позволяют отвергнуть нулевую гипотезу Могут указывать на отсутствие реальных различий Требуют дополнительного анализа или увеличения выборки
Метрики сравнения:
Среднее значение — арифметическое среднее группы Медиана — центральное значение (устойчиво к выбросам) Разница — абсолютная разность средних значений между группами Cohen’s d — стандартизированный эффект-размер (0.2 малый, 0.5 средний, 0.8 большой) Cliff’s δ — непараметрический эффект-размер 95% CI — доверительный интервал разницы средних p-value (FDR) — скорректированная вероятность при множественных сравнениях p-value (U-тест) — непараметрическая проверка различий распределений
Статистически значимые различия (p < 0.001):
DANCEABILITY (Танцевальность):
Долгожители на 0.031 пункта более танцевальные (0.659 vs 0.628) Очень высокая значимость (p < 0.0001) в обоих тестах Вывод: Танцевальность — ключевой фактор долголетия ENERGY (Энергетичность):
Долгожители на 0.016 пункта более энергичные (0.672 vs 0.656) Высокая значимость (p = 0.0001) в обоих тестах Вывод: Энергия влияет на успех, но эффект меньше VALENCE (Позитивность):
Долгожители на 0.048 пункта более позитивные (0.527 vs 0.478) Самая большая разница среди всех характеристик Вывод: Позитивность — критически важный фактор INSTRUMENTALNESS (Инструментальность):
Однодневки на 0.017 пункта более инструментальные (0.032 vs 0.015) Отрицательная разница = долгожители менее инструментальные Вывод: Вокальные треки успешнее инструментальных LOUDNESS (Громкость):
Долгожители на 0.561 dB громче (-6.181 vs -6.742) Самая большая абсолютная разница Вывод: Громкость — важный технический фактор
Незначимые различия (p ≥ 0.05):
ACOUSTICNESS (Акустичность):
Минимальная разница (-0.008) Противоречивые результаты: t-тест ns (p=0.126), U-тест значим (p=0.010) Вывод: Неустойчивый эффект, требует дополнительного анализа TEMPO (Темп):
Практически одинаковые значения (разница -0.395 BPM) Незначимо в обоих тестах (p > 0.2) Вывод: Темп не влияет на долголетие трека
Ключевые выводы:
Формула успеха долгожителей:
Высокая позитивность (valence) — самый важный фактор Высокая танцевальность (danceability) — второй по важности Высокая громкость (loudness) — технический фактор Высокая энергия (energy) — умеренный эффект Низкая инструментальность — больше вокала Что НЕ важно:
Темп — может быть любым Акустичность — спорный фактор
Практические рекомендации:
Для продюсеров:
Фокус на создание позитивных, танцевальных треков Оптимизация громкости при мастеринге Баланс между вокалом и инструментами
Для A & R:
Приоритет трекам с высокими valence и danceability Темп не должен быть критерием отбора Акустические треки требуют дополнительной оценки
Midjourney
Заключение
Достижение цели исследования
В рамках данного исследования была достигнута поставленная цель: выявлены статистически значимые различия в аудио-характеристиках между треками с коротким пребыванием в чартах («однодневки», ≤30 дней) и треками с длительным присутствием («долгожители», ≥100 дней) на платформе Spotify.
Основные результаты статистического анализа
Статистически значимые различия обнаружены в 5 из 7 исследуемых характеристик:
VALENCE (позитивность): различие составляет 0.048 пункта в пользу долгожителей (p < 0.001) DANCEABILITY (танцевальность): различие составляет 0.031 пункта в пользу долгожителей (p < 0.001) LOUDNESS (громкость): различие составляет 0.561 dB в пользу долгожителей (p < 0.001) ENERGY (энергетичность): различие составляет 0.016 пункта в пользу долгожителей (p < 0.001) INSTRUMENTALNESS (инструментальность): различие составляет 0.017 пункта в пользу однодневок (p < 0.001)
Статистически незначимые различия:
TEMPO (темп): p = 0.541 ACOUSTICNESS (акустичность): противоречивые результаты между параметрическим и непараметрическим тестами
Анализ распределения данных
Исследование выборки из 4,361 уникального трека показало характерное распределение долголетия с выраженной положительной асимметрией:
Медиана составляет 38 дней Большинство треков (>70%) находятся в чартах менее 30 дней Лишь небольшая часть треков (≈25%) демонстрирует долголетие свыше 100 дней
Корреляционный анализ
Выявлены значимые взаимосвязи между аудио-характеристиками:
Сильная положительная корреляция между energy и loudness (r = 0.71) Умеренная положительная корреляция между energy и valence (r = 0.41) Умеренная отрицательная корреляция между energy и acousticness (r = -0.55)
Методологическая строгость исследования
Применены современные статистические методы:
Welch t-критерий для сравнения групп с различными дисперсиями U-критерий Манна-Уитни для непараметрической проверки Корректировка множественных сравнений методом Benjamini-Hochberg (FDR) Расчет размеров эффекта (Cohen’s d, Cliff’s δ) Построение 95% доверительных интервалов
Теоретическая значимость результатов
Исследование подтверждает гипотезу о существовании количественно измеримых различий в аудио-характеристиках между коммерчески успешными и неуспешными музыкальными композициями. Полученные результаты расширяют понимание факторов, определяющих долгосрочный коммерческий успех в музыкальной индустрии.
Методологическая строгость исследования, включающая применение современных статистических методов и корректировку множественных сравнений, обеспечивает надежность полученных выводов и возможность их воспроизведения в дальнейших исследованиях.
Описание применения генеративной модели
Для оформления презентации были использованы декоративные изображения, сгенерированные Midjourney. Специальные цвета проекта были наложены с помощью Adobe Photoshop.
Промт: wide banner, a pure black background. A composition of 3D rectangular prisms, resembling an equalizer’s frequency bars. The prisms are rendered as solid, matte surfaces with beveled edges and high poly count. Minimalist, sleek, modern 3D render.
Обложка для проекта была так же сгенерирована с помощью Midjourney.
Промт: epic wide shot of an abstract soundscape, an architectural visualization of resonating sound frequencies, top view. A vast grid of rectangular sound bars in muted orange and dark carmine, with deep, geometric canyons in purple-blue. Sharp edges, clean lines, grainy texture, cinematic lighting, black background, moody and energetic.
Ссылка на модель: https://www.midjourney.com/