
Вводная часть:
1. Какие данные были выбраны и где они были найдены:
В качестве основы для анализа был выбран датасет с платформы Kaggle, содержащий информацию об играх в Steam. В таблице представлены такие характеристики, как жанры, цены, пользовательские оценки, количество отзывов и многие другие параметры, описывающие рынок видеоигр.
2. Почему именно эти данные представляют интерес
Во первых: я люблю индустрию игр и в целом очень хорошо знаком с этим миром еще с детства. Во вторых: игровая индустрия — одна из самых быстрорастущих сфер цифровых развлечений. Эти данные позволяют проследить, какие жанры наиболее популярны, как формируются цены на игры и существует ли связь между стоимостью продукта и оценками пользователей. Анализ таких данных помогает лучше понять устройство современного игрового рынка.
3. Какие виды графиков были выбраны и почему:
Для анализа данных были использованы следующие типы визуализаций:
— Столбчатая диаграмма — для отображения самых популярных жанров по количеству игр.
— Столбчатая диаграмма средних значений — для сравнения средней цены игр в разных жанрах.
— Гистограмма — для анализа распределения цен на игры.
— Диаграмма рассеяния — для выявления зависимости между ценой игры и пользовательской оценкой.
Выбор этих типов графиков обусловлен тем, что они наглядно показывают структуру данных, позволяют сравнивать значения и выявлять скрытые тенденции.
Этапы работы:
Обработка данных
Сначала прикреплю полный, изначальный код, затем второй поэтапно — уже тот, который использовался для создания финальных графиков.



Теперь второй код — он финальный и уже доработанный
1. Импорт библиотек + настройка отображения
pandas — для загрузки и обработки таблиц (CSV). matplotlib.pyplot — для построения графиков. seaborn — для более красивых визуализаций. matplotlib as mpl — для глубокой настройки стилей и шрифтов. %matplotlib inline — чтобы графики отображались прямо внутри нотбука.
2. Настройка фирменного пастельного стиля визуализации
Задаём единый шрифт для всех графиков. Устанавливаем базовый размер текста. Заголовки делаем жирными, чтобы выделялись.
3. Создание авторской цветовой палитры
Мы не используем стандартные цвета Python. Все графики оформлены в едином пастельном стиле. Выполняется критерий: «Цвета заданы кодом».
4. Настройка «журнального» светлого оформления
Светлый фон — как у дизайнерской инфографики. Тёмные подписи для контраста. Мягкая сетка для удобства чтения. Все графики выглядят как единая серия.
5. Загрузка датасета
Загружается CSV-файл с играми. df.shape показывает размер таблицы (строки × столбцы). df.head () показывает первые 5 строк для проверки данных.
6. Подготовка и очистка данных
Преобразуем цену из текста в число.
df_genres — для анализа жанров. df_genres_price — для средней цены по жанрам. df_price — для распределения цен.
7. Выбор метрики для scatter-графика
Если есть оценки пользователей — используем их. Если нет — используем количество позитивных отзывов.
Готовим данные только для scatter-графика.
8. График 1 — Топ-10 жанров (столбчатая диаграмма)
Показывает какие жанры самые популярные по количеству игр.
9. График 2 — Средняя цена по жанрам
Показывает: в каких жанрах игры самые дорогие. В каких — самые дешёвые.
10. График 3 — Распределение цен (гистограмма)
Показывает: какие цены встречаются чаще всего. Сколько дешёвых, средних и дорогих игр.
11. График 4 — Цена и оценка / отзывы
Показывает: есть ли связь между ценой и качеством игры. Дорогие игры не всегда получают высокие оценки.
Использование нейросети в проекте
В ходе выполнения моего проекта использовалась генеративная модель ChatGPT (OpenAI). Нейросеть применялась в качестве вспомогательного инструмента для: объяснения принципов работы библиотеки Pandas; помощи написания в коде Python для анализа данных; подбора типов визуализаций под конкретные задачи.
Примеры моих принтов: «Сделай анализ датасета с играми в Стим с помощью Pandas»; «Подбери отличный, пастельный минималистичный стиль для визуализации данных»; «Скажи, какие типы графиков лучше использовать для анализа жанров и цен»; «Сформулируй выводы по графикам для презентации».
Стилизация графиков
Для визуализации данных был выбран минималистичный пастельный стиль, ориентированный на современную дизайнерскую подачу аналитики. Основная цель стилизации — сделать графики не только информативными, но и визуально аккуратными, подходящими для моего проекта. Основные приёмы стилизации: использование кастомной пастельной цветовой палитры, заданной напрямую через код; светлый фон, мягкие контрастные цвета, тонкая сетка; единый размер шрифтов, отступов и пропорций графиков.
Возможно графики не идеальные, но я старался сделать их понятными и информативно полезными.
Изучающий и объясняющий формат визуализации данных для выбранной темы
В проекте визуализация используется не только для демонстрации данных, но и для их объяснения и анализа. Каждый график отвечает на конкретный исследовательский вопрос и помогает сделать выводы о рынке видеоигр.
Например: топ-10 жанров по количеству игр. Вопрос: какие жанры наиболее распространены на рынке? Что показывает график: Столбчатая диаграмма отображает жанры, в которых выпускается больше всего игр. Таким образом, наибольшее количество игр приходится на жанры, связанные с Indie, Action и Adventure. Это говорит о том, что рынок ориентирован не только на крупные студии, но и на независимых разработчиков. Инди-сегмент является наиболее активным и доступным для входа.
Используемые статистические методы
1. Подсчёт частот (value_counts) Использовался для определения самых популярных жанров по количеству игр. Применение: График «Топ-10 жанров по количеству игр». Что позволяет понять: какие жанры доминируют на рынке и какие направления являются наиболее массовыми.
2. Группировка и вычисление среднего значения (groupby + mean) Использовались для расчёта средней цены игр в каждом жанре. Применение: график «Средняя цена игр по жанрам». Что позволяет понять: как различается ценовая политика в разных жанрах.
Блокнот с кодом и датасет
Выводы:
Рынок видеоигр ориентирован на массового пользователя. Большая часть игр относится к жанрам Action, Adventure и Indie, что говорит о высокой доступности входа в индустрию и популярности универсальных игровых форматов. Цена игры сильно зависит от жанра. Стратегии, симуляторы и RPG в среднем стоят дороже, так как требуют большего времени разработки и более сложных игровых систем. Casual и Indie проекты чаще всего остаются в низком ценовом сегменте. Большинство игр находятся в низком ценовом диапазоне. Распределение цен показывает, что основной объём рынка составляют недорогие или бесплатные проекты. Дорогие игры — это меньшинство. Цена не гарантирует высокое качество. Анализ зависимости между ценой и пользовательскими оценками показал, что среди дешёвых игр встречается множество высокооценённых проектов, а дорогие игры не всегда получают положительные отзывы. Визуализация помогает лучше понимать данные. Использование разных типов графиков позволило не просто показать цифры, а объяснить устройство игрового рынка, его структуру и экономические особенности.