Original size 1080x1350

Файнтюнинг генеративной модели на визуальном стиле Gal Yosef

Концепция

Все материалы автора были взяты тут: Изображения Исходный код: Тык Датасет: Тык Huggingface: Тык

Цель проекта — адаптировать и дообучить предобученную генеративную модель Stable Diffusion XL с помощью метода LoRA для воспроизведения визуального стиля из работ 3D-художника Gal Yosef.

В основе проекта лежит идея персонализации модели генерации изображений, чтобы она могла создавать уникальных мультяшных 3D-персонажей, выполненных в характерной гиперреалистичной, глянцевой и люксовой эстетике. Такой стиль сочетает в себе элементы поп-культуры, моды, иронии и избыточного богатства, что делает его визуально ярким и легко узнаваемым.

Исходные изображения

Исходные изображения представляли собой 3D-рендеры мультяшных персонажей в стиле Gal Yosef. На них изображены стилизованные животные и фантастические существа с яркими, глянцевыми текстурами, преувеличенными чертами (например, большие глаза или массивные аксессуары), а также с элементами роскоши — золотыми цепями, дизайнерской одеждой, деньгами и модными предметами. Фон у большинства изображений — тёмный или студийный, что подчёркивает детали и создаёт эффект коллекционной фигурки или арт-объекта.

Сгенерированные изображения:

a hyperrealistic 3D character render in the style of Gal Yosef, cartoonish luxury, glossy materials, dramatic cinematic lighting, stylized proportions, studio background, a luxury cartoon kitten in a black Louis Vuitton outfit and cap, holding a golden microphone, with a round LV purse and stacks of cash at its feet

a hyperrealistic 3D character render in the style of Gal Yosef, cartoonish luxury, glossy materials, dramatic lighting, a blue turtle creature with designer leather shell, holding a Louis Vuitton pokeball, studio background

a hyperrealistic 3D character render in the style of Gal Yosef, cartoonish luxury, glossy materials, dramatic cinematic lighting, stylized proportions, studio background, a wealthy cartoon duck in a black Balenciaga jacket with golden zippers, wearing diamond-studded sunglasses, holding a Louis Vuitton handbag full of cash, surrounded by flying dollar bills and gold coins, sitting on a glossy black platform, black studio background

«a hyperrealistic 3D character render in the style of Gal Yosef, cartoonish luxury, glossy materials, dramatic cinematic lighting, stylized proportions, studio background, a wealthy cartoon duck in a Balenciaga jacket with golden zippers, holding a Louis Vuitton handbag full of cash, surrounded by flying dollar and coins, sitting on a glossy black platform, black studio background»

a hyperrealistic 3D character render in the style of Gal Yosef, cartoonish luxury, glossy materials, dramatic lighting, a smug cartoon tiger in a purple crop top, holding a cigarette, next to a pink teapot full of gold coins, on a magenta background

a hyperrealistic 3D character render in the style of Gal Yosef, cartoonish luxury, glossy materials, dramatic lighting, a pair of cute green dinosaur creatures with designer shells, one holding a purse, the other covered in money, black studio background

Результаты:

Сохраняется узнаваемая стилистика Gal Yosef:

-гиперреализм с мультяшной подачей

-большие выразительные глаза

-глянцевая пластика

-использование брендов: Louis Vuitton, Gucci, Balenciaga и т. п.

-сценический свет, часто направленный и драматичный

-позы и характер — с иронией, харизмой, игрой

Что получилось отлично?

1. Передача роскоши и брендов Во всех изображениях отлично передан luxury vibe: сумки, монеты, аксессуары, логотипы, текстуры кожи.

Модель стабильно использует аксессуары премиум-класса — даже в руках персонажей или как часть окружения.

2. Характер и позы Удачно работает характеризация: тигр с сигаретой, утка с кучей денег, динозавр с ребёнком — все с индивидуальностью.

Поза соответствует эмоции, что важно для «люксовых персонажей».

3. Композиция и свет Свет выставлен кинематографично: мягкие градиенты, рефлексы, точечные источники, хороший объём.

Отличный баланс между объектом и фоном — ничего не отвлекает, но сцена чувствуется полной.

Что можно улучшить?

1. Иногда фон слишком нейтральный Некоторые сцены теряются в однотонном сером фоне (например, с белым котом и LV-кепкой).

Можно добавлять детали пола, отражения, элементы окружения (например, подиумы, световые рефлексы).

2. Пластика одежды В некоторых случаях одежда смотрится слишком встроенной в тело (слияние с туловищем) — особенно если нет швов или ткани.

3. Мелкие текстуры и детализация (редко) В некоторых случаях логотипы на одежде или сумках слегка смазаны (что характерно для SDXL и решается prompt-тюнингом или LoRA finetune на более чёткие детали). Когда в сцене присутствуют две фигуры и много мелких деталей (аксессуары, деньги, одежда), модель начинает терять чёткость — появляются артефакты, размытые участки или нелогичная геометрия. Это связано с тем, что SDXL и LoRA ограничены по вниманию и хуже справляются с сложными композициями в одном кадре.

Выводы:

Иногда на сгенерированных изображениях остаются вотермарки — это связано с тем, что я сознательно не убирал их из датасета, чтобы не нарушать авторские права оригинальных работ Gal Yosef.

В целом, модель генерирует очень выразительные и качественные сцены в нужном стиле — с характером, брендами и иронией. Тем не менее, оригинальные работы автора по-прежнему выглядят сильнее: у них выше детализация, лучше продумана композиция и постобработка.

🔍 Вывод: эта LoRA — отличный инструмент для генерации идей и стилистических набросков в духе Gal Yosef. Для финального качества всё равно потребуется ручная доработка.

Теперь поговорим про технические детали и код:

1. Подключение GPU и установка зависимостей ! nvidia-smi ! pip install bitsandbytes transformers accelerate peft diffusers

Проверка наличия GPU (T4) и установка библиотек для обучения LoRA на SDXL с поддержкой памяти и ускорений (8bit, fp16, gradient checkpointing).

2. Аутентификация и доступ к Hugging Face from huggingface_hub import notebook_login notebook_login ()

Авторизация в Hugging Face для загрузки предобученной модели и публикации своей LoRA.

3. Подготовка данных local_dir = «./project_lora» os.makedirs (local_dir) Загрузка изображений в PNG

Загрузка кастомного датасета — изображения в стиле Gal Yosef (luxury 3D персонажи). Вотермарки не удалялись намеренно, чтобы сохранить права автора.

4. Генерация jsonl c caption’ами caption_prefix = «a hyperrealistic 3D character render in the style of Gal Yosef, cartoonish luxury, glossy materials, dramatic cinematic lighting, stylized proportions, studio background»

Подготовка описаний в стиле Gal Yosef для каждой картинки — чтобы модель училась ассоциировать визуальные образы с нужным стилем.

5. Запуск обучения DreamBooth + LoRA ! accelerate launch train_dreambooth_lora_sdxl.py
--pretrained_model_name_or_path="stabilityai/stable-diffusion-xl-base-1.0»
--dataset_name="project_lora»
--output_dir="gal_yosef_LoRA»
--resolution=1024
--train_batch_size=1
--learning_rate=1e-4
--use_8bit_adam
--gradient_checkpointing
--mixed_precision="fp16»
--max_train_steps=1000

Обучение модели на SDXL с использованием LoRA и DreamBooth. Модель обучалась на 1024px изображениях. Используются оптимизации под бесплатный Colab.

6. Публикация LoRA в Hugging Face Hub from huggingface_hub import upload_folder, create_repo repo_id = create_repo («Dillion1337/gal_yosef_LoRA», exist_ok=True).repo_id upload_folder (repo_id=repo_id, folder_path="gal_yosef_LoRA»», …)

Я использовала Stable Diffusion XL Base 1.0 от StabilityAI как основу генерации. Эта модель значительно мощнее предыдущих версий и поддерживает работу с изображениями до 1024×1024 и более сложные промпты.

Датасет Формат изображений: .png

Количество — примерно 76 изображений)

Тематика: персонажи в стиле Gal Yosef глянцевые 3D мультяшки с брендами, деньгами, позами и эмоциями

Параметры обучения:

resolution=1024 Использовалось полное 1024×1024 разрешение — это максимальный размер для SDXL и даёт более детализированную генерацию. train_batch_size=1

gradient_accumulation_steps=3 Использование маленького batch’а и аккумуляции градиентов необходимо для обучения на ограниченной видеопамяти (Colab T4 16 ГБ).

learning_rate=1e-4 lr_scheduler="constant» lr_warmup_steps=0 Константный learning rate без прогрева, достаточно высокий (1e-4) — подходит для LoRA, т. к. она обучает только часть параметров, а не всю модель.

use_8bit_adam mixed_precision="fp16» gradient_checkpointing Всё направлено на экономию видеопамяти: 8bit Adam — уменьшает память для оптимизатора fp16 — половинная точность, быстрее и легче gradient checkpointing — экономия на хранении промежуточных слоёв --max_train_steps=1000 --checkpointing_steps=500 Обучение на 1000 шагов, что эквивалентно примерно 10–15 эпохам при небольшом датасете

Файнтюнинг генеративной модели на визуальном стиле Gal Yosef

Lolita Stepanyan

artificial intelligence

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...