
Вступление
Как будущему выпускнику, мне стало интересно узнать, представители каких вузов и специальностей начинают свою карьеру с наиболее высоких зарплат. Это не связано с планированием или попыткой определить, какая профессия более перспективна, а скорее вызвано простым любопытством и желанием сравнить данные. Для анализа я использовала статистику, представленную на данном сайте: https://tochno.st/datasets/graduates_university
Я использовала три столбчатых и один линейный график, так как они наиболее наглядно и доступно передают информацию, что делает их идеальными для визуализации данных. Столбчатые графики прекрасно подходят для сравнения величин между собой, особенно когда нужно показать различия между несколькими категориями или группами. Они позволяют быстро оценить, какие значения выше или ниже, что делает их удобными для анализа.
Линейный график, в свою очередь, я выбрала для отображения изменений или тенденций во времени. Он помогает увидеть динамику, например, рост или снижение показателей, что особенно важно, если нужно проанализировать, как данные меняются в течение определенного периода
Этапы работы с DataFrame
1. Импорт библиотек. В начале проекта импортируются необходимые библиотеки для работы с данными и визуализации:
- pandas и modin.pandas для работы с данными. - matplotlib.pyplot для построения графиков. - IPython.display для отображения Markdown и других элементов в Jupyter Notebook.
2. Загрузка данных. Данные загружаются из CSV-файла, который содержит информацию о выпускниках университетов

После загрузки данных фильтруются только те, которые относятся к НИУ ВШЭ в Москве:

3. Функции для анализа данных Код состоит из нескольких функций, каждая из которых выполняет определенную задачу:
3.1. Поскольку исходный DataFrame содержит данные для всех университетов России, я решила сократить его до данных по университетам Москвы. Затем я выделила данные моего университета и еще четырех университетов, которые оказались в топе на сайте.
3.2. MaxSalary (df) Эта функция сортирует данные по убыванию зарплаты и удаляет все вакансии, если в каком-либо году зарплата не указана. Это сделано для того, чтобы графики были полными и не содержали пропущенных данных. Также в моем коде присутствует функция MaxSalaryYear (df, a) — она сокращает DataFrame до значений, полученных за конкретный год (например, 2023). В коде для каждого графика эти функции могут немного отличаться, так как для построения графиков требуется разная степень полноты информации.
3.3. Sort_DF (l) Эта функция сортирует данные по специальностям и уровню образования, оставляя только те специальности, для которых есть данные для всех уровней образования (бакалавриат/специалитет и магистратура). Эта функция используется в коде только для одного графика, так как для остальных графиков она не понадобилась.
3.4. Graf_3_znach (l) Эта функция подготавливает данные для построения графика. Она выполняет дополнительные вычисления или сортировку данных. Для каждого графика эта функция своя, но ее структура практически не отличается.
3.5. graf_3_print (DataG3) Эта функция строит график, используя данные, полученные из предыдущей функции. Как и предыдущая, она немного отличается для разных графиков, но сохраняет общую логику.


4. Основная функция main () В этой функции:
Мы выбираем данные, на которые будем опираться. Поскольку мне было интересно сравнить НИУ ВШЭ с другими университетами, я использовала данные именно этого университета. Далее я последовательно вызываю все необходимые функции для обработки данных и построения графика.
5. Анализ данных 5.1. Топ специальностей по зарплатам Функция MaxSalaryYear анализирует данные за 2023 год и выводит топ-5 специальностей с самыми высокими средними зарплатами. Например:
- Прикладная математика и информатика (магистратура); - Психология (магистратура); - Финансы и кредит (магистратура); - Менеджмент (магистратура); - Экономика (магистратура).
5.2. Зависимость зарплат от уровня образования Функция Graf_3_znach анализирует данные для топ-6 специальностей и сравнивает средние зарплаты для бакалавров и магистров. Например:
- Для специальности «Менеджмент» средняя зарплата магистров выше, чем у бакалавров; - Для специальности «Экономика» также наблюдается разница в зарплатах.
5.3. Визуализация Функция graf_3_print строит столбчатую диаграмму, которая наглядно показывает разницу в зарплатах между бакалаврами и магистрами для выбранных специальностей. График сохраняется в файл salary_MagBac.png.
Графики
Заключение
Данные, полученные в ходе этой работы, оказались невероятно интересными и интригующими.
Например, исходя из данных первого графика, можно сделать вывод, что у студентов, закончивших магистратуру, зарплата в среднем на 50 тысяч рублей выше, чем у тех, кто окончил только бакалавриат.
Второй график демонстрирует, насколько сильно пандемия COVID-19 в 20 году повлияла зарплаты специальностей.
Третий график показывает, что в большинстве случаев зарплата у мужчин выше, чем у женщин.
Четвертый график позволяет оценить, насколько стабильно университеты готовят своих студентов к жизни после окончания обучения, и выделить вузы с наиболее успешными показателями трудоустройства выпускников.
Папка с кодами
Описание применения генеративной модели
В рамках данного проекта была использована нейросеть DeepSeek (https://clck.ru/3JLPEX). Нейросеть была применена для автоматического поиска и исправления ошибок в программном коде. Также она использовалась в качестве интеллектуального помощника для быстрого поиска информации.
Источник изображений
Источник изображения для обложки сайт freepik (https://clck.ru/3JLNLM)