
Выбор данных
Для выполнения проекта был выбран классический датасет Iris, содержащий измерения морфологических характеристик цветков ириса. Данный набор данных включает информацию о длине и ширине чашелистиков и лепестков, а также принадлежность каждого экземпляра к одному из трёх видов ириса.
Выбор этого датасета обусловлен несколькими причинами:
- данные являются структурированными и компактными, что удобно для первичного анализа
-в датасете присутствуют как числовые признаки, так и категориальная переменная (вид растения), что позволяет использовать разные типы визуализации
График 1 — Распределение длины лепестка
Цель визуализации:
— проанализировать, как распределены значения признака;
— выявить возможные кластеры и особенности формы распределения.

plt.hist (df['petal_length'], bins=20, edgecolor='black') plt.title ('Distribution of Petal Length') plt.xlabel ('Petal Length (cm)') plt.ylabel ('Count') plt.show ()
Вывод:
Распределение не является равномерным: заметны несколько пиков, что может быть связано с различиями между видами ириса.
График 2 — Средняя ширина чашелистика по видам
Цель визуализации:
— сравнить средние показатели между категориями;
— наглядно показать различия между видами.
mean_sepal_width = df.groupby ('species')['sepal_width'].mean ()
plt.bar (mean_sepal_width.index, mean_sepal_width.values) plt.title ('Average Sepal Width by Species') plt.xlabel ('Species') plt.ylabel ('Sepal Width (cm)') plt.show ()
Вывод:
Средние значения ширины чашелистика отличаются у разных видов, что подтверждает возможность использования данного признака для их сравнения.
График 3 — диаграмма длины лепестка по видам
Цель визуализации:
— оценить разброс значений;
— выявить медиану и возможные выбросы;
— сравнить вариативность признака между видами.
df.boxplot ( column='petal_length', by='species', grid=False )
plt.title ('Petal Length by Species') plt.suptitle ('') plt.xlabel ('') plt.ylabel ('Petal Length (cm)') plt.show ()
Вывод:
Длины лепестков существенно различаются между видами, при этом для некоторых групп наблюдается меньший разброс значений, что указывает на их однородность.
График 4 — Связь длины и ширины лепестка
Цель визуализации:
— исследовать взаимосвязь между двумя числовыми признаками;
— определить, можно ли визуально разделить виды.
for species in df['species'].unique (): subset = df[df['species'] == species] plt.scatter ( subset['petal_length'], subset['petal_width'], label=species, alpha=0.7 )
plt.title ('Petal Length vs Petal Width') plt.xlabel ('Petal Length (cm)') plt.ylabel ('Petal Width (cm)') plt.legend () plt.show ()
Вывод:
Виды ириса образуют хорошо различимые группы, что говорит о сильной корреляции между длиной и шириной лепестка и высокой информативности этих признаков.
Заключение
В ходе выполнения проекта был проведён первичный анализ датасета Iris с использованием библиотек Pandas и Matplotlib. Были построены четыре различных типа графиков, каждый из которых позволил рассмотреть данные под разным углом: распределение значений, сравнение средних, анализ разброса и изучение взаимосвязей между признаками.
Полученные визуализации показали, что морфологические характеристики лепестков и чашелистиков хорошо различают виды ириса. Это подтверждает, что визуальный анализ является важным этапом исследования данных и может служить основой для более сложных методов анализа и классификации.
Использование инструментов искусственного интеллекта при работе над проектом
В процессе выполнения проекта использовались инструменты искусственного интеллекта, а именно ChatGPT и среда Google Colab, в качестве вспомогательных средств для отладки кода и устранения технических ошибок.