
Выбранные данные и источник
Для анализа я использовала датасет Sleep Health and Lifestyle Dataset с платформы Kaggle. В нём собраны данные о 374 людях: их профессии, продолжительность сна, качество сна, уровень стресса, физическая активность и другие показатели образа жизни. Этот набор данных подходит для исследования, потому что в нём есть как показатели сна, так и социальные характеристики (например, профессия), что позволяет сравнивать разные группы между собой.
Почему эти данные мне интересны
Тема сна всегда была для меня личной и важной — от того, как мы спим, зависит работоспособность, здоровье и настроение. Мне также интересны профессии и то, как они влияют на образ жизни. Разные виды деятельности требуют разного уровня концентрации, контакта с людьми и физической активности.
Мне стало интересно посмотреть: может ли профессия быть связана с тем, сколько человек спит, насколько он стрессует и насколько активно проводит день? Этот проект стал для меня способом заглянуть внутрь этой темы и понять, какие тенденции можно увидеть через данные.
Какие виды графиков я использовала и почему
Для визуализации я выбрала четыре типа графиков:
- Круговая диаграмма — чтобы показать структуру профессий в выборке и понять, какие группы представлены более полно. - Столбчатая диаграмма — чтобы сравнить среднюю продолжительность сна по профессиям. - Точечная диаграмма (scatter) — чтобы увидеть связь между количеством сна и уровнем стресса. - Линейный график — чтобы сравнить уровень физической активности между профессиями.
Эти четыре визуализации покрывают разные аспекты данных и дают целостное понимание связей между профессией, сном, стрессом и активностью.
Этапы работы и обработка данных
a) Чтение и подготовка
Импортировала данные из файла Sleep_health_and_lifestyle_dataset.csv в pandas с помощью pd.read_csv.
Привела названия колонок к удобному виду (заменила пробелы на подчёркивания): df.columns = df.columns.str.strip ().str.replace (» «, „_“).
Дальше я добавила выбранную цветовую палитру.
Цветовая палитра
Для визуализации я использовала спокойную палитру в бирюзово-синих оттенках.
Эти цвета вызывают ассоциацию со сном и спокойствием. Холодные оттенки голубого, бирюзы и тёмного синего часто используются в визуальных материалах про сон — они создают ощущение тишины, ночи и расслабления. Мне хотелось, чтобы графики передавали это настроение.
б) Отбор профессий
Посчитала количество людей в каждой профессии: df[«Occupation»].value_counts ().
Чтобы анализ был корректным, оставила только профессии, где не меньше 10 человек. Это защитило от случайных выбросов из очень маленьких групп.
Создала отфильтрованный датафрейм df_occ только с такими профессиями.
в) Агрегация
Для каждой профессии посчитала:
Count — сколько человек в профессии
Sleep_mean — среднюю продолжительность сна
Stress_mean — средний уровень стресса
Activity_mean — средний уровень физической активности
г) Статистические методы
В работе использовались базовые описательные статистики:
- mean (среднее значение) для сравнения групп - визуальный анализ распределений - поиск зависимостей между переменными через scatter-график
Это простой, но достаточно информативный набор методов для такого типа исследования.
Описание графиков и интерпретация
Круговая диаграмма «Распределение профессий (≥10 человек)»
Код круговая диаграмма «Распределение профессий (≥10 человек)»
Круговая диаграмма показала распределение профессий — больше всего данных о медсёстрах (Nurse), врачах (Doctor) и инженерах (Engineer), а меньше всего о специалистах по продажам (Salesperson), учителях (Teacher) и бухгалтерах (Accountant).
Столбчатая диаграмма «Средняя продолжительность сна по профессиям»
Код столбчатая диаграмма «Средняя продолжительность сна по профессиям»
Столбчатая диаграмма позволила увидеть, что дольше всех спят инженеры (около 8 часов), а хуже всех — специалисты по продажам (около 6.4). Остальные профессии находятся ближе к среднему диапазону 7–7.3 часов.
Точечная диаграмма «Связь среднего сна и среднего стресса по профессиям»
Код точечная диаграмма «Связь среднего сна и среднего стресса по профессиям»
Точечная диаграмма показала связь сна и стресса. Чем меньше сна, тем выше средний уровень стресса. Особенно выделяются специалисты по продажам (Salesperson) —мало сна и максимальный стресс — и Engineer — достаточно сна и низкий стресс.
Линейный график «Физическая активность по профессиям»
Код линейный график «Физическая активность по профессиям»
Линейный график показал уровень активности. Меньше всего двигаются специалисты по продажам (Salesperson) и Учителя (Teacher), а самые активные — Медсестры (Nurse) и Адвокаты (Lawyer). Эта активность хорошо вписывается в общую картину: низкая активность часто сочеталась с более высоким стрессом и меньшим сном.
График «Профессии, которые спят лучше и хуже всего»
Код график «Профессии, которые спят лучше и хуже всего»
На отдельном графике я сравнила две крайние профессии по сну: Инженер (Engineer) (≈ 7.99 ч) и специалист по продажам (Salesperson) (≈ 6.40 ч).
Под подписями «Лучшая» и «Худшая» указаны названия профессий, что делает вывод наглядным.
Итоговый вывод исследования
Внутри этого датасета действительно прослеживается связь между профессией и показателями сна, стресса и физической активности.
Лучше всех спят инженеры, у которых достаточное количество сна сочетается с низким стрессом. Хуже всех спят специалисты по продажам (Salesperson) — у них меньше всего сна, выше всего стресс и низкий уровень активности.
Хотя датасет является учебным и упрощённым, в нём всё равно заметна тенденция: образ жизни и профессия взаимосвязаны, и разные виды работы формируют разные паттерны сна и нагрузки.
Этот проект помог мне увидеть, что выбор профессии — это не только про интересы, но и про стиль жизни: от того, чем мы занимаемся каждый день, зависит то, как мы спим, как восстанавливаемся и как себя чувствуем.
Описание применения генеративной модели
При выполнении проекта я использовала ChatGPT модель 5.1 как вспомогательный инструмент.
ИИ помог мне в следующих ситуациях:
1. Разбор технических ошибок в коде. У меня возникли сложности с: - некорректным использованием параметра palette в seaborn, что давало предупреждение о hue; - ошибкой в названиях колонок, где пробелы не позволяли вызывать их напрямую в группировке — ИИ подсказал заменить пробелы на подчёркивания.
2. Редактура текста: - После построения графиков я использовала ИИ, чтобы структурировать описания и сформулировать выводы более связно.
3. Генерация обложки.