Original size 1024x1536

Игровой рынок в данных

PROTECT STATUS: not protected
The project is taking part in the competition

Вводная часть:

1. Какие данные были выбраны и где они были найдены:

В качестве основы для анализа был выбран датасет с платформы Kaggle, содержащий информацию об играх в Steam. В таблице представлены такие характеристики, как жанры, цены, пользовательские оценки, количество отзывов и многие другие параметры, описывающие рынок видеоигр.

2. Почему именно эти данные представляют интерес

Во первых: я люблю индустрию игр и в целом очень хорошо знаком с этим миром еще с детства. Во вторых: игровая индустрия — одна из самых быстрорастущих сфер цифровых развлечений. Эти данные позволяют проследить, какие жанры наиболее популярны, как формируются цены на игры и существует ли связь между стоимостью продукта и оценками пользователей. Анализ таких данных помогает лучше понять устройство современного игрового рынка.

3. Какие виды графиков были выбраны и почему:

Для анализа данных были использованы следующие типы визуализаций:

— Столбчатая диаграмма — для отображения самых популярных жанров по количеству игр.

— Столбчатая диаграмма средних значений — для сравнения средней цены игр в разных жанрах.

— Гистограмма — для анализа распределения цен на игры.

— Диаграмма рассеяния — для выявления зависимости между ценой игры и пользовательской оценкой.

Выбор этих типов графиков обусловлен тем, что они наглядно показывают структуру данных, позволяют сравнивать значения и выявлять скрытые тенденции.

Этапы работы:

Обработка данных

Сначала прикреплю полный, изначальный код, затем второй поэтапно — уже тот, который использовался для создания финальных графиков.

big
Original size 693x562

Теперь второй код — он финальный и уже доработанный

1. Импорт библиотек + настройка отображения

Original size 309x112

pandas — для загрузки и обработки таблиц (CSV). matplotlib.pyplot — для построения графиков. seaborn — для более красивых визуализаций. matplotlib as mpl — для глубокой настройки стилей и шрифтов. %matplotlib inline — чтобы графики отображались прямо внутри нотбука.

2. Настройка фирменного пастельного стиля визуализации

Original size 565x143

Задаём единый шрифт для всех графиков. Устанавливаем базовый размер текста. Заголовки делаем жирными, чтобы выделялись.

3. Создание авторской цветовой палитры

Original size 283x154

Мы не используем стандартные цвета Python. Все графики оформлены в едином пастельном стиле. Выполняется критерий: «Цвета заданы кодом».

4. Настройка «журнального» светлого оформления

Original size 311x250

Светлый фон — как у дизайнерской инфографики. Тёмные подписи для контраста. Мягкая сетка для удобства чтения. Все графики выглядят как единая серия.

5. Загрузка датасета

Original size 478x143

Загружается CSV-файл с играми. df.shape показывает размер таблицы (строки × столбцы). df.head () показывает первые 5 строк для проверки данных.

6. Подготовка и очистка данных

Original size 465x103

Преобразуем цену из текста в число.

Original size 519x76

df_genres — для анализа жанров. df_genres_price — для средней цены по жанрам. df_price — для распределения цен.

7. Выбор метрики для scatter-графика

Original size 546x106

Если есть оценки пользователей — используем их. Если нет — используем количество позитивных отзывов.

Original size 673x44

Готовим данные только для scatter-графика.

8. График 1 — Топ-10 жанров (столбчатая диаграмма)

Original size 479x289
Original size 900x444

Показывает какие жанры самые популярные по количеству игр.

9. График 2 — Средняя цена по жанрам

Original size 900x431
Original size 493x423

Показывает: в каких жанрах игры самые дорогие. В каких — самые дешёвые.

10. График 3 — Распределение цен (гистограмма)

Original size 900x535
Original size 494x311

Показывает: какие цены встречаются чаще всего. Сколько дешёвых, средних и дорогих игр.

11. График 4 — Цена и оценка / отзывы

Original size 900x534
Original size 568x449

Показывает: есть ли связь между ценой и качеством игры. Дорогие игры не всегда получают высокие оценки.

Использование нейросети в проекте

В ходе выполнения моего проекта использовалась генеративная модель ChatGPT (OpenAI). Нейросеть применялась в качестве вспомогательного инструмента для: объяснения принципов работы библиотеки Pandas; помощи написания в коде Python для анализа данных; подбора типов визуализаций под конкретные задачи.

Примеры моих принтов: «Сделай анализ датасета с играми в Стим с помощью Pandas»; «Подбери отличный, пастельный минималистичный стиль для визуализации данных»; «Скажи, какие типы графиков лучше использовать для анализа жанров и цен»; «Сформулируй выводы по графикам для презентации».

Стилизация графиков

Original size 1184x584
Original size 1220x584
Original size 983x584
Original size 984x584

Для визуализации данных был выбран минималистичный пастельный стиль, ориентированный на современную дизайнерскую подачу аналитики. Основная цель стилизации — сделать графики не только информативными, но и визуально аккуратными, подходящими для моего проекта. Основные приёмы стилизации: использование кастомной пастельной цветовой палитры, заданной напрямую через код; светлый фон, мягкие контрастные цвета, тонкая сетка; единый размер шрифтов, отступов и пропорций графиков.

Возможно графики не идеальные, но я старался сделать их понятными и информативно полезными.

Изучающий и объясняющий формат визуализации данных для выбранной темы

В проекте визуализация используется не только для демонстрации данных, но и для их объяснения и анализа. Каждый график отвечает на конкретный исследовательский вопрос и помогает сделать выводы о рынке видеоигр.

Например: топ-10 жанров по количеству игр. Вопрос: какие жанры наиболее распространены на рынке? Что показывает график: Столбчатая диаграмма отображает жанры, в которых выпускается больше всего игр. Таким образом, наибольшее количество игр приходится на жанры, связанные с Indie, Action и Adventure. Это говорит о том, что рынок ориентирован не только на крупные студии, но и на независимых разработчиков. Инди-сегмент является наиболее активным и доступным для входа.

Используемые статистические методы

1. Подсчёт частот (value_counts) Использовался для определения самых популярных жанров по количеству игр. Применение: График «Топ-10 жанров по количеству игр». Что позволяет понять: какие жанры доминируют на рынке и какие направления являются наиболее массовыми.

2. Группировка и вычисление среднего значения (groupby + mean) Использовались для расчёта средней цены игр в каждом жанре. Применение: график «Средняя цена игр по жанрам». Что позволяет понять: как различается ценовая политика в разных жанрах.

Блокнот с кодом и датасет

Выводы:

Рынок видеоигр ориентирован на массового пользователя. Большая часть игр относится к жанрам Action, Adventure и Indie, что говорит о высокой доступности входа в индустрию и популярности универсальных игровых форматов. Цена игры сильно зависит от жанра. Стратегии, симуляторы и RPG в среднем стоят дороже, так как требуют большего времени разработки и более сложных игровых систем. Casual и Indie проекты чаще всего остаются в низком ценовом сегменте. Большинство игр находятся в низком ценовом диапазоне. Распределение цен показывает, что основной объём рынка составляют недорогие или бесплатные проекты. Дорогие игры — это меньшинство. Цена не гарантирует высокое качество. Анализ зависимости между ценой и пользовательскими оценками показал, что среди дешёвых игр встречается множество высокооценённых проектов, а дорогие игры не всегда получают положительные отзывы. Визуализация помогает лучше понимать данные. Использование разных типов графиков позволило не просто показать цифры, а объяснить устройство игрового рынка, его структуру и экономические особенности.

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more