
Вводная часть
Для анализа я выбрала датасет о качестве белого вина, который был найден в открытых источниках.
Почему эта тема?
Мне интересно разобраться, из чего складывается вкус хорошего белого вина. Ученые и виноделы измеряют в вине кучу цифр: кислотность, сахар, алкоголь. Интересно найти связь между этими цифрами и тем самым вкусом. Почему одно вино простое, а другое — шедевр? Можно ли по анализам предсказать, понравится ли оно людям?

Изображение сгенерировано с помощью Qwen Chat
Ценность исследования
Практическая значимость: Понимание факторов, влияющих на качество вина, полезно для виноделов. Наглядность: Данные хорошо поддаются визуализации и статистическому анализу. Доступность: Открытый датасет с реальными измерениями.
Виды графиков и обоснование
Для визуализации данных было использовано несколько типов графиков: Столбчатая диаграмма — для распределения качества. Горизонтальная барчарт — для корреляционного анализа. Группированные столбчатые диаграммы — для сравнения признаков по группам качества. Гистограммы — для распределения ключевых показателей. Boxplot — для анализа выбросов. Scatter plot — для визуализации зависимостей.
Изображение сгенерировано с помощью Qwen Chat
Обработка данных

1 Этап. Для начала я импортировала необходимые мне библиотеки.
Далее я загрузила данные таблицы

3 Этап. Очистка данных.
Изображение сгенерировано с помощью Qwen Chat
Затем анализируем качество вина
Визуализация данных
Я использовала преимущественно зеленый цвет, так как он успокаивает и способствует концентрации. На длинной презентации с цифрами и графиками это поможет удержать внимание аудитории, не перегружая ее.
Из данных видно, что большинство вин получает 5-6 баллов (пик распределения), что соответствует нормальному распределению с легким перекосом в сторону средних значений. Вина с экстремально низкими (3) и высокими (8) оценками встречаются реже.
Изображение сгенерировано с помощью Qwen Chat
По этому коду проводится корреляционный анализ для определения, какие характеристики вина наиболее сильно связаны с его качеством.
Корреляция признаков с качеством
Наибольшее влияние на качество оказывает алкоголь (alcohol) — коэффициент +0,43 (положительная корреляция). Это значит, что в среднем вина с более высоким содержанием алкоголя получают более высокие оценки качества. pH имеет отрицательную корреляцию (–0,124) — более низкий pH (большая кислотность) слабо связан с более высоким качеством. Сульфаты (sulphates) — положительная корреляция (+0,053), но слабее алкоголя. Свободный диоксид серы (free sulfur dioxide) — слабая отрицательная корреляция (–0,011). Остаточный сахар (residual sugar) — очень слабая отрицательная корреляция (–0,007).
График ранжирует факторы по силе влияния на качество вина. Главный вывод — содержание алкоголя сильнее всего положительно связано с оценкой качества в данном наборе данных.
Этот график наглядно подтверждает количественно то, что было показано в предыдущих анализах: алкоголь действительно является важнейшим фактором качества вина, хотя и не единственным.
Изображение сгенерировано с помощью Qwen Chat
Важные признаки по группам качества
График состоит из трёх столбчатых диаграмм (subplots), расположенных в один ряд. Каждая диаграмма показывает, как меняется среднее значение одного ключевого признака вина в зависимости от группы качества.
Этот график помогает интерпретировать корреляции в абсолютных значениях, показывая, насколько именно отличаются средние значения признаков между разными категориями качества вина.
Распределение алкоголя и кислотности
Основные выводы из графика:
Про алкоголь:
Типичное вино содержит около 10.5-11% алкоголя. Разброс значений относительно небольшой (большинство в диапазоне 9-12%). Симметричное распределение — нет явных выбросов.
Про кислотность (pH):
Типичное значение pH вина ≈ 3.2. Нормальное распределение — классическая колоколообразная кривая. Узкий диапазон — вина в основном имеют pH от 3.0 до 3.4.
Выбросы в важных признаках
Этот график показывает распределение трёх важных признаков вина с помощью диаграмм размаха (boxplot) и анализом выбросов.
Наибольший разброс значений наблюдается у содержания алкоголя (IQR = 1,9), что указывает на значительное разнообразие вин по крепости. Кислотность (pH) демонстрирует наиболее стабильное и симметричное распределение с наименьшим интерквартильным размахом, в то время как содержание сульфатов имеет выраженный правый скоск с большим количеством верхних выбросов (96).
Изображение сгенерировано с помощью Qwen Chat
Заключение
Алкоголь выступает главным, но не единственным драйвером качества. Успешное вино в данном датасете — это баланс достаточной крепости (11%+), умеренной кислотности и стабильного химического состава, производимый с учетом существенного дисбаланса в распределении качественных оценок.
Описание применения генеративных моделей: Qwen Chat (https://chat.qwen.ai/c/9bd45525-3814-4f31-9262-ec080ac5cc89) — использовался для генерации изображений. Deepseek (https://chat.deepseek.com/a/chat/s/0f51a9db-29f2-4868-88fc-d929a4084a16) — для запросов рекомендаций по улучшению кода и его написанию.