Original size 1140x1600

Феномен музыкального долголетия: анализ треков-«долгожителей»

PROTECT STATUS: not protected

Феномен музыкального долголетия: Анализ треков-«долгожителей» в чартах Spotify

Описание проекта

В этом проекте проанализирован массив данных о ежедневных позициях треков в мировых чартах Spotify и их аудиохарактеристиках. Анализ позволил выявить ключевые особенности музыки, которая не просто становится популярной, но и надолго задерживается в чартах. Я сравнила две группы треков: «однодневки» (≤30 дней в чартах) и «долгожители» (≥100 дней в чартах), чтобы найти количественные подтверждения тому, что успех — это не только случайность, но и совокупность измеримых параметров.

big
Original size 4352x1088

Midjourney

Интуиция подсказывает, что хиты — это часто энергичные и позитивные треки. Но в мире данных мы не можем полагаться на интуицию. Мы должны прийти к выводу через очистку данных, статистические тесты и проверку гипотез. Моя работа — не про открытие нового мира, а про создание точной карты уже известного.

Почему это важно? Мой анализ переводит субъективные мнения в объективные данные. Теперь A & R-менеджер звукозаписывающей компании, оценивая новый трек, может опереться не на интуицию, а на цифры: «У этого трека valence (позитивность) 0.52, danceability (танцевальность) 0.66 и loudness -6.2 dB — эти показатели статистически значимо соответствуют характеристикам треков-„долгожителей“ и предсказывают высокие шансы на длительное пребывание в чартах».

big
Original size 4352x1088

Midjourney

В исследовании использованы данные о музыкальных чартах и аудиохарактеристиках треков с kaggle.com. Первый датасет содержит историю ежедневных позиций треков в мировых чартах Spotify с 2017 по 2018 год, включая название трека, исполнителя, количество прослушиваний и дату. Второй датасет содержит подробные аудиохарактеристики для каждого трека, такие как танцевальность, энергетичность, позитивность, громкость и инструментальность. Для анализа я применила такие данные, как длительность пребывания трека в чартах, средние значения аудиохарактеристик для разных групп треков, статистическая значимость различий между ними и корреляция между различными параметрами музыки.

Данные представлены в виде гистограммы для визуализации распределения треков по длительности их пребывания в чартах, набора диаграмм размаха (boxplot) для наглядного сравнения аудиохарактеристик треков-«однодневок» и «долгожителей», тепловой карты корреляций для выявления взаимосвязей между различными параметрами музыки, диаграммы рассеяния для анализа совместного распределения танцевальности и позитивности, а также графиков для сравнения общей популярности треков из разных групп.

Для визуализации я выбрала тёмный фон и приглушённую, но контрастную палитру. Это дань уважения аналоговой эре звукозаписи и той среде, где рождается музыка.

Тёмный фон — это символ тишины звукозаписывающей студии, тёмного винила на вертушке или ковролина в лофте, где репетируют группы. Это «чистый лист», на котором проявляется музыка — или, в моём случае, данные.

Приглушённые синий, оранжевый, бордовый — это цвета студийного оборудования: лампы усилителей, светящиеся индикаторы на микшере, потёртые ковры и кирпичные стены. Эта палитра не кричащая, а тёплая и «аутентичная», что соответствует моей цели — найти не сиюминутные тренды, а устойчивые, «аутентичные» закономерности в музыке.

Original size 2892x727

Цветовая палитра, использованная в проекте

Ключевые вопросы исследования

1. Существуют ли статистически значимые различия в аудио-характеристиках между группами? 2. Какие характеристики наиболее сильно влияют на долголетие трека в чартах? 3. Можно ли предсказать успех трека по его аудио-характеристикам?

Анализируемые аудио-характеристики

Danceability — танцевальность Energy — энергетичность Valence — позитивность Acousticness — акустичность Instrumentalness — инструментальность Tempo — темп Loudness — громкость Popularity — популярность

Original size 4352x1088

Midjourney

Этапы работы

Импорт библиотек и настройка

Original size 3000x1291

Загрузка и предобработка данных

Загружаем два датасета:

1. SpotifyDailyRaiting.csv — ежедневные чарты с позициями треков 2. SpotifyFeatures.csv — аудио-характеристики треков

Проводим очистку данных от дубликатов, NaN значений и приводим к единому формату.

Original size 3000x1194

Узнаем тип данных каждого признака

Original size 3000x1698
Original size 3000x2896

Что хорошо:

Все нужные аудио-характеристики присутствуют Минимальное количество пропуков (только 1 в track_name) Большой объем данных для анализа

Что нужно исправить:

Преобразовать Date в datetime Очистить 1 пропуск в track_name Привести к единому регистру Track Name/track_name и Artist/artist_name для объединения

Проверим наличие дубликатов и пропусков в данных

Original size 3000x2833

Теперь обработаем данные

Original size 3000x1207

Данные обработаны. Проведем быструю проверку на корректность данных

Original size 3000x1207

Проведем анализ совпадения ключей для объединения в будущем

Original size 3000x850

Вычисление долголетия треков

Для каждого трека вычисляем количество дней, которое он провел в чартах. Это ключевой показатель нашего исследования.

Методология:

Группируем данные по названию трека и артисту Находим первую и последнюю дату появления в чартах Вычисляем разность в днях + 1 (включительно) Подсчитываем общее количество появлений в чартах

Original size 3000x1445

Объединение датасетов

Объединяем информацию о долголетии треков с их аудио-характеристиками. Это позволит нам проводить сравнительный анализ между группами.

Ключи объединения:

Название трека (приведенное к нижнему регистру) Имя артиста

Тип объединения:

INNER JOIN (только треки, присутствующие в обоих датасетах)

Original size 3000x1066

Создание групп для анализа

Разделяем треки на две группы на основе их долголетия в чартах:

Группы анализа:

Группа 1: «Однодневки»

Критерий: ≤30 дней в чартах Характеристика: Быстрое исчезновение из чартов Гипотеза: Могут иметь менее привлекательные аудио-характеристики

Группа 2: «Долгожители»

Критерий: ≥100 дней в чартах Характеристика: Длительное пребывание в чартах Гипотеза: Могут иметь более сбалансированные и привлекательные аудио-характеристики

Статистика групп:

Анализируем размеры групп, медианные значения и процентили для понимания распределения.

Original size 3000x1406

Статистический анализ

Проводим проверку гипотез о различиях между группами «однодневок» (≤30 дней) и «долгожителей» (≥100 дней) по аудио‑характеристикам.

Методы и метрики

Welch t‑test: сравнение средних без предположения о равенстве дисперсий. Основной тест. U‑тест Манна–Уитни: непараметрическая проверка различий распределений, устойчив к выбросам. Контроль множественных проверок (FDR): корректировка p‑значений методом Бенджамини–Хохберга для всех признаков по результатам Welch t‑test. Эффект‑размеры: Cohen’s d — стандартизированная разница средних. Cliff’s δ — непараметрический эффект‑размер на основе U‑статистики (чувствителен к сдвигам распределений). Доверительные интервалы (95% CI) для разницы средних — бутстрэп.

Интерпретация

p (FDR) < 0.05 — статистически значимые различия после учёта множественных сравнений. Cohen’s d: ~0.2 малый, ~0.5 средний, ~0.8 большой эффект. Cliff’s δ: ~0.11 малый, ~0.28 средний, ~0.43 большой. 95% CI: если интервал не перекрывает 0 — разница средних статистически значима.

Анализируемые признаки

danceability, energy, valence, acousticness, instrumentalness, tempo, loudness.

Примечания

Welch t‑test используется как основной (разные дисперсии и размеры групп). U‑тест подтверждает результаты без предположений о нормальности. Корректировка FDR обязательна, т. к. проводим несколько параллельных проверок.

Original size 3000x3088
Original size 3000x2780

Статистически значимые различия (FDR < 0.05):

Danceability: выше у «долгожителей» (diff ≈ 0.031, d ≈ 0.22). Energy: немного выше у «долгожителей» (diff ≈ 0.016, d ≈ 0.09). Valence: выше у «долгожителей» (diff ≈ 0.048, d ≈ 0.21). Loudness: заметно выше у «долгожителей» (diff ≈ 0.561 dB, d ≈ 0.21). Instrumentalness: ниже у «долгожителей» (diff ≈ −0.017, d ≈ −0.16).

Не значимо:

Tempo: различий нет (p≈0.54, CI включает 0).

Погранично/неустойчиво:

Acousticness: Welch ns (p≈0.13), MWU значим; 95% CI включает 0 → надежного эффекта нет.

Толкование

Треки‑«долгожители» характеризуются более высокой танцевальностью, энергией, позитивностью и громкостью, а также меньшей инструментальностью. Это указывает на преимущество более «песенно‑вокального», динамичного и «светлого» звучания для долгого удержания в чартах. Темп сам по себе не является фактором долголетия. Эффект‑размеры небольшие (малой величины), но стабильные и согласованные между тестами; доверительные интервалы по значимым признакам не перекрывают ноль.

Практические выводы

При продакшене ориентироваться на: выше danceability/energy/valence, достаточную громкость (мастеринг), меньшую инструментальность. Темп подбирать исходя из жанрового контекста, а не ожидания влияния на долголетие.

Ограничения

Наблюдательное исследование: корреляция ≠ причинность. Возможны жанровые и временные смещения выборки; результаты следует верифицировать на других периодах/регионах.

Original size 4352x1088

Midjourney

Создание визуализаций

Создаем комплексный набор визуализаций для наглядного представления результатов анализа.

1. Распределение долголетия треков

Гистограмма с вертикальными линиями границ групп Статистическая информация на графике

2. Сравнение аудио-характеристик

Boxplot для каждой характеристики Статистическая значимость на заголовках

3. Корреляционная матрица

Тепловая карта корреляций Маскирование верхнего треугольника

4. Scatter plot: Danceability vs Valence

Разделение по группам Центроиды групп Статистическая информация

5. Анализ популярности

Гистограммы и boxplot Сравнение распределений

Original size 3000x1390
Original size 3600x2400

Основные наблюдения:

Большинство треков (более 3000) быстро исчезают из чартов (0–10 дней). Медиана = 38 дней: половина треков живёт в чартах меньше месяца. Длинный хвост: немногие треки остаются в чартах 100+ дней.

Почему много «однодневок»:

Быстрая смена трендов в музыке. Высокая конкуренция новых треков. Алгоритмы платформ быстро «забывают» менее популярные треки.

Что означает длинный хвост:

Некоторые треки действительно «цепляют» аудиторию. Определённые жанры имеют стабильную популярность. Успешное продвижение может продлить жизнь трека.

Практические выводы:

Реалистичные ожидания: большинство треков живут недолго. Фокус на качестве: нужно создавать «запоминающиеся» треки. Стратегия продвижения: важно не только попасть, но и удержаться в чартах.

Для исследования:

График подтверждает правильность выбора групп: ≤30 дней — логично для «однодневок» (ниже медианы). ≥100 дней — разумно для «долгожителей» (значительно выше медианы).

Original size 3000x2106
Original size 3000x1500

Значимые различия

DANCEABILITY — долгожители более танцевальные ENERGY — долгожители более энергичные VALENCE — долгожители более позитивные (самая большая разница) LOUDNESS — долгожители громче INSTRUMENTALNESS — однодневки более инструментальные

Незначимые различия (ns)

ACOUSTICNESS — практически одинаковые TEMPO — темп не влияет на успех

Формула успеха долгожителей:

Больше: танцевальность + энергия + позитив + громкость Меньше: инструментальность Не важно: темп, акустичность

Практический вывод:

Успешные треки имеют четкий «звуковой профиль» — они более танцевальные, энергичные, позитивные и громкие с меньшим количеством инструментальных партий.

Original size 3000x2528
Original size 3000x2528

Сильные корреляции (>0.4)

Energy ↔ Loudness (0.71) — энергичные треки громче Energy ↔ Valence (0.41) — энергия связана с позитивностью Умеренные корреляции (0.2-0.4) Danceability ↔ Valence (0.28) — танцевальные треки более позитивные Loudness ↔ Valence (0.25) — громкие треки более позитивные

Отрицательные корреляции

Energy ↔ Acousticness (-0.55) — энергичные треки менее акустические Loudness ↔ Acousticness (-0.46) — громкие треки менее акустические

Ключевые наблюдения:

Кластер «энергичности»:

Energy, Loudness, Valence связаны между собой Формируют профиль «динамичного» трека

Акустичность — антипод:

Отрицательно коррелирует с энергией и громкостью Представляет «спокойный» стиль музыки

Слабые связи:

Tempo почти не коррелирует с другими характеристиками Instrumentalness и Popularity относительно независимы

Практический вывод:

Существуют два основных музыкальных профиля:

«Энергичный» — высокие energy, loudness, valence «Акустический» — высокая acousticness, низкие energy/loudness

Original size 3000x2136
Original size 3000x2000

Практические выводы:

Формула успеха:

Треки в правом верхнем квадранте имеют больше шансов стать долгожителями Комбинация высокой танцевальности + позитивности = ключ к успеху

Для продюсеров:

Стремиться к значениям: danceability >0.65, valence >0.50 Избегать «мрачных» и «статичных» композиций Треки в правом верхнем квадранте имеют больше шансов стать хитами. График наглядно показывает «сладкое пятно» успешной музыки

Original size 3000x2000
Original size 3000x1125

Практический вывод:

Популярность — важный фактор успеха:

Треки с популярностью >70 имеют больше шансов стать долгожителями Низкая популярность (<60) = риск быстро исчезнуть из чартов

График подтверждает: популярность и долголетие связаны — успешные треки не только дольше живут, но и изначально более популярны

Выводы

Представляем детальные результаты статистических тестов для каждой аудио-характеристики.

Интерпретация результатов:

Статистически значимые различия (FDR < 0.05):

Указывают на реальные различия между группами Не могут быть объяснены случайностью Подтверждают гипотезу о влиянии характеристик на долголетие Учитывают множественные сравнения (корректировка FDR)

Не значимые различия (FDR ≥ 0.05):

Не позволяют отвергнуть нулевую гипотезу Могут указывать на отсутствие реальных различий Требуют дополнительного анализа или увеличения выборки

Метрики сравнения:

Среднее значение — арифметическое среднее группы Медиана — центральное значение (устойчиво к выбросам) Разница — абсолютная разность средних значений между группами Cohen’s d — стандартизированный эффект-размер (0.2 малый, 0.5 средний, 0.8 большой) Cliff’s δ — непараметрический эффект-размер 95% CI — доверительный интервал разницы средних p-value (FDR) — скорректированная вероятность при множественных сравнениях p-value (U-тест) — непараметрическая проверка различий распределений

Original size 3000x2380
Original size 3000x2019

Статистически значимые различия (p < 0.001):

DANCEABILITY (Танцевальность):

Долгожители на 0.031 пункта более танцевальные (0.659 vs 0.628) Очень высокая значимость (p < 0.0001) в обоих тестах Вывод: Танцевальность — ключевой фактор долголетия ENERGY (Энергетичность):

Долгожители на 0.016 пункта более энергичные (0.672 vs 0.656) Высокая значимость (p = 0.0001) в обоих тестах Вывод: Энергия влияет на успех, но эффект меньше VALENCE (Позитивность):

Долгожители на 0.048 пункта более позитивные (0.527 vs 0.478) Самая большая разница среди всех характеристик Вывод: Позитивность — критически важный фактор INSTRUMENTALNESS (Инструментальность):

Однодневки на 0.017 пункта более инструментальные (0.032 vs 0.015) Отрицательная разница = долгожители менее инструментальные Вывод: Вокальные треки успешнее инструментальных LOUDNESS (Громкость):

Долгожители на 0.561 dB громче (-6.181 vs -6.742) Самая большая абсолютная разница Вывод: Громкость — важный технический фактор

Незначимые различия (p ≥ 0.05):

ACOUSTICNESS (Акустичность):

Минимальная разница (-0.008) Противоречивые результаты: t-тест ns (p=0.126), U-тест значим (p=0.010) Вывод: Неустойчивый эффект, требует дополнительного анализа TEMPO (Темп):

Практически одинаковые значения (разница -0.395 BPM) Незначимо в обоих тестах (p > 0.2) Вывод: Темп не влияет на долголетие трека

Ключевые выводы:

Формула успеха долгожителей:

Высокая позитивность (valence) — самый важный фактор Высокая танцевальность (danceability) — второй по важности Высокая громкость (loudness) — технический фактор Высокая энергия (energy) — умеренный эффект Низкая инструментальность — больше вокала Что НЕ важно:

Темп — может быть любым Акустичность — спорный фактор

Практические рекомендации:

Для продюсеров:

Фокус на создание позитивных, танцевальных треков Оптимизация громкости при мастеринге Баланс между вокалом и инструментами

Для A & R:

Приоритет трекам с высокими valence и danceability Темп не должен быть критерием отбора Акустические треки требуют дополнительной оценки

Original size 4352x1088

Midjourney

Заключение

Достижение цели исследования

В рамках данного исследования была достигнута поставленная цель: выявлены статистически значимые различия в аудио-характеристиках между треками с коротким пребыванием в чартах («однодневки», ≤30 дней) и треками с длительным присутствием («долгожители», ≥100 дней) на платформе Spotify.

Основные результаты статистического анализа

Статистически значимые различия обнаружены в 5 из 7 исследуемых характеристик:

VALENCE (позитивность): различие составляет 0.048 пункта в пользу долгожителей (p < 0.001) DANCEABILITY (танцевальность): различие составляет 0.031 пункта в пользу долгожителей (p < 0.001) LOUDNESS (громкость): различие составляет 0.561 dB в пользу долгожителей (p < 0.001) ENERGY (энергетичность): различие составляет 0.016 пункта в пользу долгожителей (p < 0.001) INSTRUMENTALNESS (инструментальность): различие составляет 0.017 пункта в пользу однодневок (p < 0.001)

Статистически незначимые различия:

TEMPO (темп): p = 0.541 ACOUSTICNESS (акустичность): противоречивые результаты между параметрическим и непараметрическим тестами

Анализ распределения данных

Исследование выборки из 4,361 уникального трека показало характерное распределение долголетия с выраженной положительной асимметрией:

Медиана составляет 38 дней Большинство треков (>70%) находятся в чартах менее 30 дней Лишь небольшая часть треков (≈25%) демонстрирует долголетие свыше 100 дней

Корреляционный анализ

Выявлены значимые взаимосвязи между аудио-характеристиками:

Сильная положительная корреляция между energy и loudness (r = 0.71) Умеренная положительная корреляция между energy и valence (r = 0.41) Умеренная отрицательная корреляция между energy и acousticness (r = -0.55)

Методологическая строгость исследования

Применены современные статистические методы:

Welch t-критерий для сравнения групп с различными дисперсиями U-критерий Манна-Уитни для непараметрической проверки Корректировка множественных сравнений методом Benjamini-Hochberg (FDR) Расчет размеров эффекта (Cohen’s d, Cliff’s δ) Построение 95% доверительных интервалов

Теоретическая значимость результатов

Исследование подтверждает гипотезу о существовании количественно измеримых различий в аудио-характеристиках между коммерчески успешными и неуспешными музыкальными композициями. Полученные результаты расширяют понимание факторов, определяющих долгосрочный коммерческий успех в музыкальной индустрии.

Методологическая строгость исследования, включающая применение современных статистических методов и корректировку множественных сравнений, обеспечивает надежность полученных выводов и возможность их воспроизведения в дальнейших исследованиях.

Описание применения генеративной модели

Для оформления презентации были использованы декоративные изображения, сгенерированные Midjourney. Специальные цвета проекта были наложены с помощью Adobe Photoshop.

Промт: wide banner, a pure black background. A composition of 3D rectangular prisms, resembling an equalizer’s frequency bars. The prisms are rendered as solid, matte surfaces with beveled edges and high poly count. Minimalist, sleek, modern 3D render.

Обложка для проекта была так же сгенерирована с помощью Midjourney.

Промт: epic wide shot of an abstract soundscape, an architectural visualization of resonating sound frequencies, top view. A vast grid of rectangular sound bars in muted orange and dark carmine, with deep, geometric canyons in purple-blue. Sharp edges, clean lines, grainy texture, cinematic lighting, black background, moody and energetic.

Ссылка на модель: https://www.midjourney.com/

Феномен музыкального долголетия: анализ треков-«долгожителей»
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more