
Тема моего проекта — «Анализ YouTube-трендов: как формируется популярность контента»

В рамках проекта был использован открытый датасет Trending YouTube Videos с платформы Kaggle. Датасет содержит информацию о видео, которые попадали в раздел «Trending» на YouTube, включая количество просмотров, лайков, комментариев, категории контента, даты попадания в тренды и названия видео.
Данные охватывают большой объём наблюдений и позволяют анализировать не отдельные видео, а системные закономерности работы платформы
Почему данные представляют интерес

YouTube — одна из ведущих медиаплатформ нашего времени, которая оказывает значительное влияние на культурные тенденции, предпочтения зрителей и методы потребления информации.
Изучение популярных видео помогает выявить: какие темы и форматы наиболее активно поддерживаются алгоритмами, как эволюционируют критерии популярности с течением времени, насколько вовлечённость аудитории отличается от формальных показателей просмотров, какую значимость имеют заголовки и язык для успеха видео.
Меня заинтересовал датасет Trending YouTube Videos, так как он позволяет рассматривать YouTube не только как платформу для просмотра отдельных видео, но и как сложную систему, управляемую алгоритмами отбора контента. Раздел «Тренды» формирует представление о том, что сейчас считается популярным, актуальным и важным, и тем самым оказывает влияние на вкусы и внимание миллионов пользователей.

Основная ценность этих данных заключается в том, что они демонстрируют не только предпочтения аудитории, но и результат взаимодействия множества факторов: поведения пользователей, алгоритмов рекомендаций и стратегий создателей контента. Анализируя трендовые видео, можно понять, какие темы и форматы получают наибольшее распространение, как меняются требования к популярности со временем и какие метрики действительно отражают вовлечённость аудитории.
Кроме того, в датасете присутствуют как количественные показатели (количество просмотров, лайков, комментариев), так и категориальные и текстовые характеристики (категории видео, их названия), что позволяет проводить комплексный анализ — от статистической обработки данных и поиска корреляций до интерпретации языковых и визуальных стратегий. Это делает информацию особенно интересной для изучения цифровой культуры и медиа-пространства.
Виды графиков
Для анализа были осознанно выбраны разные типы визуализаций, каждая из которых отвечает на отдельный исследовательский вопрос и помогает рассмотреть данные под новым углом.
1. Столбчатая диаграмма была использована для анализа категорий видео, так как она наглядно показывает различия в количестве попаданий в тренды. Этот тип графика хорошо подходит для сравнений и позволяет сразу увидеть доминирующие категории и менее представленные типы контента.
2. Линейный график был выбран для анализа динамики просмотров во времени. Он позволяет отследить изменения трендов, выявить рост или спад показателей и увидеть долгосрочные закономерности, такие как повышение «порога популярности» для попадания в тренды.
3. Scatter plot применялся для исследования связи между просмотрами и лайками. Такой тип визуализации позволяет выявлять корреляции, а также находить аномальные точки — видео, которые выбиваются из общей зависимости. Это важно для понимания того, всегда ли высокая популярность сопровождается высокой вовлечённостью.
4. Boxplot был использован для анализа распределения просмотров по категориям. Он даёт более глубокое представление о данных, показывая медиану, разброс значений и наличие выбросов. Благодаря этому можно сравнить не только средние значения, но и характер распределений внутри разных категорий контента.
5. WordCloud был выбран для анализа названий видео, так как он позволяет визуально выделить наиболее часто используемые слова и увидеть языковые паттерны. Этот тип графика хорошо подходит для качественного анализа и помогает показать, какие лексические приёмы чаще всего используются в трендовых видео.
Такой набор графиков позволяет рассмотреть данные с разных сторон и сделать более глубокие выводы.

При создании визуализаций для анализа YouTube-трендов были использованы ключевые количественные и категориальные метрики, которые отражают популярность видео и уровень вовлечённости аудитории. Среди основных показателей — количество просмотров (views), лайков (likes), комментариев (comment_count) и частота попадания видео в раздел трендов.
Для оценки динамики популярности во времени применялись агрегированные показатели просмотров, такие как среднее значение и медиана. Это позволило минимизировать влияние экстремальных значений и получить более точную картину типичного трендового видео. Временные данные были приведены в правильный формат и агрегированы по датам, что позволило выявить долгосрочные тенденции и сезонные колебания.
Сравнительный анализ видео по категориям проводился с использованием частотного анализа и распределения просмотров. Для этого применялись статистические характеристики, такие как медиана, межквартальный размах и выбросы. Это позволило оценить различия в структуре популярности между разными типами контента. Кроме того, был проведён текстовый анализ названий видео, основанный на частотности слов, для выявления наиболее распространённых лексических структур и эмоциональных триггеров в трендовом контенте.
Этапы работы

Работа с данными включала несколько этапов:
1. Загрузка и первичный обзор датасетов 2. Преобразование дат в формат datetime 3. Агрегация данных по дням для анализа динамики 4. Фильтрация выбросов и логарифмирование просмотров для корректного сравнения 5. Очистка текстовых данных (названий видео) для текстового анализа 6. Объединение количественных и категориальных признаков
Для каждого графика подготавливались собственные метрики: средние значения, медианы, частотные распределения и корреляции.
Описание применения генеративной модели
В процессе работы использовался ChatGPT для: проектирования структуры анализа, подбора типов графиков и отладки кода.
Стилизация графиков

Для проекта был выбран единый минималистичный стиль: винный цвет — как акцент (ключевые данные, медианы), оттенки серого — для вторичных элементов, белый фон, отсутствие лишних рамок и визуального шума.
Все цвета и параметры были заданы непосредственно в коде, без постобработки в графических редакторах. Целью было создать визуализацию, близкую по стилю к самой платформе YouTube.
Цветовая палитра
Пример кода для настройки стиля
График 1. Какие категории чаще всего попадают в тренды
График/Пример кода
Этот график демонстрирует, какие категории видео чаще всего оказываются в разделе Trending на YouTube. Он основан на подсчете количества видео в каждой категории, что позволяет определить вероятность попадания контента определенного типа в тренды.
Анализ был проведен с использованием частотного анализа: данные были сгруппированы по category_id, затем подсчитано количество вхождений каждой категории. Результаты были отсортированы по убыванию. Столбчатая диаграмма наглядно показывает различия между категориями.
Исследование выявило, что категории «Музыка» и «Развлечения» значительно преобладают в трендах. Это свидетельствует о том, что алгоритмы YouTube отдают предпочтение контенту с высоким потенциалом вовлеченности и широкой аудиторией. В то же время образовательные и нишевые категории встречаются гораздо реже, что не обязательно указывает на их низкое качество, но подчеркивает особенности алгоритмов YouTube, ориентированных на привлечение внимания. Таким образом, тренды скорее отражают стратегию платформы, чем фактическую ценность контента.
График 2. Динамика просмотров трендовых видео со временем
График/Пример кода
График демонстрирует изменение среднего количества просмотров трендовых видео в зависимости от времени. Это позволяет оценить, как меняются критерии попадания в тренды на долгосрочной основе.
Для анализа временные данные были преобразованы в формат даты и сгруппированы по дням. Для каждого дня рассчитывались среднее и медианное число просмотров. Кроме того, применялось сглаживание данных с использованием скользящего среднего, что позволило снизить влияние резких колебаний и выбросов.
График показывает стабильный рост среднего числа просмотров трендовых видео с течением времени. Это свидетельствует о том, что конкуренция за внимание зрителей усиливается, и для того чтобы попасть в тренды, видео сегодня должно набирать гораздо больше просмотров, чем это было несколько лет назад. Использование медианы подтверждает, что этот рост является устойчивой тенденцией, а не результатом единичных вирусных всплесков. Таким образом, достижение популярности на YouTube становится всё более сложным и затратным процессом.
График 3. Связь просмотров и лайков
График/Пример кода
На этом графике анализируется взаимосвязь между количеством просмотров и числом лайков, то есть между охватом и вовлечённостью аудитории.
Для анализа использовались количественные показатели views и likes. Диаграмма рассеяния позволяет наглядно оценить характер зависимости между этими переменными. Дополнительно был выполнен корреляционный анализ, чтобы численно оценить силу связи между просмотрами и лайками.
График демонстрирует положительную корреляцию между просмотрами и лайками, но зависимость не является строго линейной. Есть видео, которые получили много просмотров, но при этом имеют относительно небольшое количество лайков. Это указывает на то, что вирусность видео не всегда означает одобрение со стороны аудитории. Подобные аномалии подчеркивают различие между алгоритмическим распространением контента и реальным интересом пользователей, что важно для понимания механизмов популярности на платформе.
График 4. Распределение просмотров по категориям
График/Пример кода
График демонстрирует распределение просмотров по различным категориям видео, что позволяет не только сравнить средние значения, но и выявить особенности вариативности данных.
Для каждой категории были определены медиана, межквартильный размах и выбросы. Для обеспечения корректного сравнения данные о просмотрах были логарифмированы или очищены от экстремальных значений. Boxplot наглядно демонстрирует асимметрию распределений.
Анализ показывает, что в некоторых категориях наблюдаются редкие, но чрезвычайно популярные видео, которые формируют выбросы, тогда как другие категории характеризуются более стабильными, но умеренными показателями просмотров. Это свидетельствует о различных стратегиях потребления контента: одни категории зависят от вирусных хитов, а другие — от устойчивого интереса аудитории. Таким образом, популярность на YouTube отличается в зависимости от тематики.
График 5. Анализ названий трендовых видео
График/Пример кода
Этот график демонстрирует самые популярные слова в названиях популярных видео и помогает выявить языковые и эмоциональные особенности.
Сначала текстовые данные были подготовлены: все слова приведены к строчному регистру, удалены стоп-слова, знаки препинания и другие служебные символы. Затем был выполнен частотный анализ слов, на основании которого создано облако слов.
WordCloud показывает, что названия популярных видео активно используют эмоционально насыщенные слова, числовые выражения и призывы к действию. Это подчёркивает важность языка как средства привлечения внимания и подтверждает, что эффективный контент формируется не только его содержанием, но и грамотной подачей. Таким образом, названия видео становятся ключевым элементом стратегии продвижения.
Выводы
Анализ показывает, что попадание видео в тренды на YouTube зависит не только от качества материала, но и от множества других факторов, таких как алгоритмы платформы, уровень вовлеченности пользователей, стиль подачи и формулировка заголовков. Тренды на YouTube больше говорят о том, как работает внимание пользователей, чем о реальной ценности контента.
Это значит, что авторам нужно обращать внимание не только на содержание своих видео, но и на их формат, регулярность публикаций и способы взаимодействия с аудиторией.
Исследование динамики просмотров выявило увеличение порога популярности со временем, что свидетельствует об усилении конкуренции за внимание пользователей. Анализ связи между просмотрами и лайками показал, что высокая вирусность не всегда приводит к высокой вовлечённости, подчёркивая разницу между охватом и истинным интересом аудитории.
Сравнение распределения просмотров по категориям показало разнообразие моделей успеха контента — от редких вирусных хитов до стабильного, но среднего спроса. Текстовый анализ заголовков видео подтвердил важность языковых и эмоциональных методов в продвижении контента. В целом, проект демонстрирует, что YouTube-тренды формируются под влиянием сложного взаимодействия алгоритмов и пользовательских практик, что требует комплексного и критического анализа.
Использованные нейросети: 1. Chat GPT — использовался для проектирования структуры анализа, подбора типов графиков и отладки кода.
Ссылка на блокнот и датасет