
Датасет «Победители олимпиад» содержит данные о победителях и призёрах предметных олимпиад для школьников, проводимых Департаментом образования и науки города Москвы: всероссийской олимпиады школьников, Московской олимпиады школьников.
В датасете доступны такие сведения о победителях олимпиад, как: номер или название образовательной организации и класс, в котором обучался победитель/призёр на момент участия в олимпиаде, предмет, по которому одержана победа, тип и этап олимпиады, год участия в олимпиаде. Эти данные я нашла в рекомендованном списке для изучения на сайте data.mos.ru.
Почему именно эти данные?
Эти данные позволяют оценить уровень подготовки учащихся в различных школах, выявить лидеров среди образовательных учреждений города Москвы, оценить, какая отрасль предметов является наиболее популярной среди олимпиадников, посмотреть динамику роста/падения количества победителей по годам.
Имеют ли эти данные какую-то ценность?
Эти результаты могут быть полезны для принятия решений в области образовательной политики, распределения ресурсов и разработки программ поддержки талантливых учеников. Также этот анализ поможет определиться детям и их родителям, где они смогут получить наиболее качественное образование, ведь в наше время выбрать хорошую школу не так и просто.
Какие графики будут использованы?
- горизонтальные столбчатые диаграммы; - вертикальные столбчатые диаграммы; - ломанные/точечные графики; - круговые диаграммы.
Выбор этих видов графиков обусловлен их способностью наглядно и эффективно передавать информацию.
Какие я использовала референсы для создания графиков?

1. Распределение победителей и призеров по предметам.
Для начала я установила и импортировала все требующиеся библиотеки и наш датасет. Просмотрев заранее таблицу, я вручную отсортировала предметы по областям: это потребуется для стилизации графика — столбцы горизонтальной диаграммы будут разделены по цветам в зависимости от отрасли предмета. Создан новый датафрейм «предмет — количество призеров и победителей». Далее я завела счетчики областей для определения общего количества победителей и призеров. Это потребуется для следующего графика.
Я построила горизонтальную столбчатую диаграмму и стилизовала ее по референсу выше.
Можем наблюдать следующие результаты.
По результатам анализа, наибольшее число победителей и призеров участвовали в олимпиаде по математике.
2. Распределение призеров и победителей по отраслям.
Созданы списки отраслей, количества победителей по отраслям, цветов, соответствующих референсу. По вычисленным ранее счетчикам построена круговая диаграмма, описывающая распределение победителей и участников по отраслям. Стилизована по референсу.
Несмотря на предыдущий результат, именно гуманитарные предметы оказались наиболее популярными среди призеров и победителей.
3. Динамика изменения количества победителей по годам.
Из датасета были исключены призеры для определения динамики именно количества победителей во времени. Посчитано количество победителей по каждому году. Построен точечный график с ломанной и стилизован по референсу.
Количество победителей росло по 2019 год. После произошло падение. Несовершенство датасета или коронавирус?
4. Распределение победителей по лицеям Москвы.
Было принято решение рассматривать именно лицеи: их не так много и можно красиво изобразить в виде горизонтальной столбчатой диаграммы, а также, по моему мнению, выбор именно лицея является ключевым для будущего олимпиадника. Сначала я убрала встретившиеся мне дубликаты в датасете (один и тот же лицей, но с другим названием). Далее я нашла всех победителей, распределенных именно по лицеям. Построена горизонтальная столбчатая диаграмма, стилизована по референсу. Также пришлось увеличить расстояние между строками.
Л2Ш оказался на вершине списка. Лицей НИУ ВШЭ — на втором месте: ( Несовершенство датасета или жизни?
5. Распределение победителей по классам.
Интересно посмотреть на распределение победителей по классам, для которых это имеет наибольшее значение (9, 10, 11 — поступление в университет). Были найдены победители из перечисленных классов и присвоены цвета, соответствующие референсу. Данные отсортированы, вертикальная столбчатая диаграмма построена. График стилизован.
Возрастание классов по их номеру соответствует возрастанию количества победителей.
Вывод
По моему мнению, датасет является интересным для исследования, хотя, кажется, имеет некоторые неточности. Результаты вышли весьма полезными. Работа с pandas и matplotlib оказалась не такой сложной и, действительно, облегчает процесс анализа данных.