Original size 1365x2048

Анализ морфологических характеристик цветков ириса

PROTECT STATUS: not protected
The project is taking part in the competition

Выбор данных

Для выполнения проекта был выбран классический датасет Iris, содержащий измерения морфологических характеристик цветков ириса. Данный набор данных включает информацию о длине и ширине чашелистиков и лепестков, а также принадлежность каждого экземпляра к одному из трёх видов ириса.

Выбор этого датасета обусловлен несколькими причинами:

- данные являются структурированными и компактными, что удобно для первичного анализа

-в датасете присутствуют как числовые признаки, так и категориальная переменная (вид растения), что позволяет использовать разные типы визуализации

График 1 — Распределение длины лепестка

Цель визуализации:

— проанализировать, как распределены значения признака;

— выявить возможные кластеры и особенности формы распределения.

big
Original size 1208x786

plt.hist (df['petal_length'], bins=20, edgecolor='black') plt.title ('Distribution of Petal Length') plt.xlabel ('Petal Length (cm)') plt.ylabel ('Count') plt.show ()

Вывод:

Распределение не является равномерным: заметны несколько пиков, что может быть связано с различиями между видами ириса.

График 2 — Средняя ширина чашелистика по видам

Цель визуализации:

— сравнить средние показатели между категориями;

— наглядно показать различия между видами.

Original size 1226x780

mean_sepal_width = df.groupby ('species')['sepal_width'].mean ()

plt.bar (mean_sepal_width.index, mean_sepal_width.values) plt.title ('Average Sepal Width by Species') plt.xlabel ('Species') plt.ylabel ('Sepal Width (cm)') plt.show ()

Вывод:

Средние значения ширины чашелистика отличаются у разных видов, что подтверждает возможность использования данного признака для их сравнения.

График 3 — диаграмма длины лепестка по видам

Цель визуализации:

— оценить разброс значений;

— выявить медиану и возможные выбросы;

— сравнить вариативность признака между видами.

Original size 1232x742

df.boxplot ( column='petal_length', by='species', grid=False )

plt.title ('Petal Length by Species') plt.suptitle ('') plt.xlabel ('') plt.ylabel ('Petal Length (cm)') plt.show ()

Вывод:

Длины лепестков существенно различаются между видами, при этом для некоторых групп наблюдается меньший разброс значений, что указывает на их однородность.

График 4 — Связь длины и ширины лепестка

Цель визуализации:

— исследовать взаимосвязь между двумя числовыми признаками;

— определить, можно ли визуально разделить виды.

Original size 1216x782

for species in df['species'].unique (): subset = df[df['species'] == species] plt.scatter ( subset['petal_length'], subset['petal_width'], label=species, alpha=0.7 )

plt.title ('Petal Length vs Petal Width') plt.xlabel ('Petal Length (cm)') plt.ylabel ('Petal Width (cm)') plt.legend () plt.show ()

Вывод:

Виды ириса образуют хорошо различимые группы, что говорит о сильной корреляции между длиной и шириной лепестка и высокой информативности этих признаков.

Заключение

В ходе выполнения проекта был проведён первичный анализ датасета Iris с использованием библиотек Pandas и Matplotlib. Были построены четыре различных типа графиков, каждый из которых позволил рассмотреть данные под разным углом: распределение значений, сравнение средних, анализ разброса и изучение взаимосвязей между признаками.

Полученные визуализации показали, что морфологические характеристики лепестков и чашелистиков хорошо различают виды ириса. Это подтверждает, что визуальный анализ является важным этапом исследования данных и может служить основой для более сложных методов анализа и классификации.

Original size 1080x1350

Использование инструментов искусственного интеллекта при работе над проектом

В процессе выполнения проекта использовались инструменты искусственного интеллекта, а именно ChatGPT и среда Google Colab, в качестве вспомогательных средств для отладки кода и устранения технических ошибок.

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more