Original size 896x1152

Анализ качества белого вина

PROTECT STATUS: not protected
The project is taking part in the competition

Вводная часть

Для анализа я выбрала датасет о качестве белого вина, который был найден в открытых источниках.

Почему эта тема?

Мне интересно разобраться, из чего складывается вкус хорошего белого вина. Ученые и виноделы измеряют в вине кучу цифр: кислотность, сахар, алкоголь. Интересно найти связь между этими цифрами и тем самым вкусом. Почему одно вино простое, а другое — шедевр? Можно ли по анализам предсказать, понравится ли оно людям?

big
Original size 1664x928

Изображение сгенерировано с помощью Qwen Chat

Ценность исследования

Практическая значимость: Понимание факторов, влияющих на качество вина, полезно для виноделов. Наглядность: Данные хорошо поддаются визуализации и статистическому анализу. Доступность: Открытый датасет с реальными измерениями.

Виды графиков и обоснование

Для визуализации данных было использовано несколько типов графиков: Столбчатая диаграмма — для распределения качества. Горизонтальная барчарт — для корреляционного анализа. Группированные столбчатые диаграммы — для сравнения признаков по группам качества. Гистограммы — для распределения ключевых показателей. Boxplot — для анализа выбросов. Scatter plot — для визуализации зависимостей.

Original size 1376x768

Изображение сгенерировано с помощью Qwen Chat

Обработка данных

post

1 Этап. Для начала я импортировала необходимые мне библиотеки.

Далее я загрузила данные таблицы

Original size 2925x395
post

3 Этап. Очистка данных.

Original size 1376x768

Изображение сгенерировано с помощью Qwen Chat

Затем анализируем качество вина

Original size 2390x1031

Визуализация данных

Я использовала преимущественно зеленый цвет, так как он успокаивает и способствует концентрации. На длинной презентации с цифрами и графиками это поможет удержать внимание аудитории, не перегружая ее.

Original size 2369x1169

Из данных видно, что большинство вин получает 5-6 баллов (пик распределения), что соответствует нормальному распределению с легким перекосом в сторону средних значений. Вина с экстремально низкими (3) и высокими (8) оценками встречаются реже.

Original size 1664x928

Изображение сгенерировано с помощью Qwen Chat

По этому коду проводится корреляционный анализ для определения, какие характеристики вина наиболее сильно связаны с его качеством.

Original size 2354x1405

Корреляция признаков с качеством

Original size 2358x1166

Наибольшее влияние на качество оказывает алкоголь (alcohol) — коэффициент +0,43 (положительная корреляция). Это значит, что в среднем вина с более высоким содержанием алкоголя получают более высокие оценки качества. pH имеет отрицательную корреляцию (–0,124) — более низкий pH (большая кислотность) слабо связан с более высоким качеством. Сульфаты (sulphates) — положительная корреляция (+0,053), но слабее алкоголя. Свободный диоксид серы (free sulfur dioxide) — слабая отрицательная корреляция (–0,011). Остаточный сахар (residual sugar) — очень слабая отрицательная корреляция (–0,007).

График ранжирует факторы по силе влияния на качество вина. Главный вывод — содержание алкоголя сильнее всего положительно связано с оценкой качества в данном наборе данных.

Original size 1961x1162

Этот график наглядно подтверждает количественно то, что было показано в предыдущих анализах: алкоголь действительно является важнейшим фактором качества вина, хотя и не единственным.

Original size 1664x928

Изображение сгенерировано с помощью Qwen Chat

Важные признаки по группам качества

Original size 3009x960

График состоит из трёх столбчатых диаграмм (subplots), расположенных в один ряд. Каждая диаграмма показывает, как меняется среднее значение одного ключевого признака вина в зависимости от группы качества.

Этот график помогает интерпретировать корреляции в абсолютных значениях, показывая, насколько именно отличаются средние значения признаков между разными категориями качества вина.

Распределение алкоголя и кислотности

Original size 2763x1018

Основные выводы из графика:

Про алкоголь:

Типичное вино содержит около 10.5-11% алкоголя. Разброс значений относительно небольшой (большинство в диапазоне 9-12%). Симметричное распределение — нет явных выбросов.

Про кислотность (pH):

Типичное значение pH вина ≈ 3.2. Нормальное распределение — классическая колоколообразная кривая. Узкий диапазон — вина в основном имеют pH от 3.0 до 3.4.

Выбросы в важных признаках

Этот график показывает распределение трёх важных признаков вина с помощью диаграмм размаха (boxplot) и анализом выбросов.

Original size 2757x1024

Наибольший разброс значений наблюдается у содержания алкоголя (IQR = 1,9), что указывает на значительное разнообразие вин по крепости. Кислотность (pH) демонстрирует наиболее стабильное и симметричное распределение с наименьшим интерквартильным размахом, в то время как содержание сульфатов имеет выраженный правый скоск с большим количеством верхних выбросов (96).

Original size 1664x928

Изображение сгенерировано с помощью Qwen Chat

Заключение

Алкоголь выступает главным, но не единственным драйвером качества. Успешное вино в данном датасете — это баланс достаточной крепости (11%+), умеренной кислотности и стабильного химического состава, производимый с учетом существенного дисбаланса в распределении качественных оценок.

Original size 2177x705

Описание применения генеративных моделей: Qwen Chat (https://chat.qwen.ai/c/9bd45525-3814-4f31-9262-ec080ac5cc89) — использовался для генерации изображений. Deepseek (https://chat.deepseek.com/a/chat/s/0f51a9db-29f2-4868-88fc-d929a4084a16) — для запросов рекомендаций по улучшению кода и его написанию.

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more