Original size 1080x1350

Файнтюнинг генеративной модели на визуальном стиле Gal Yosef

PROTECT STATUS: not protected
7

Концепция

Все материалы автора были взяты тут: Изображения Исходный код: Тык Датасет: Тык Huggingface: Тык

post

Цель проекта — адаптировать и дообучить предобученную генеративную модель Stable Diffusion XL с помощью метода LoRA для воспроизведения визуального стиля из работ 3D-художника Gal Yosef.

В основе проекта лежит идея персонализации модели генерации изображений, чтобы она могла создавать уникальных мультяшных 3D-персонажей, выполненных в характерной гиперреалистичной, глянцевой и люксовой эстетике. Такой стиль сочетает в себе элементы поп-культуры, моды, иронии и избыточного богатства, что делает его визуально ярким и легко узнаваемым.

Исходные изображения

post

Исходные изображения представляли собой 3D-рендеры мультяшных персонажей в стиле Gal Yosef. На них изображены стилизованные животные и фантастические существа с яркими, глянцевыми текстурами, преувеличенными чертами (например, большие глаза или массивные аксессуары), а также с элементами роскоши — золотыми цепями, дизайнерской одеждой, деньгами и модными предметами. Фон у большинства изображений — тёмный или студийный, что подчёркивает детали и создаёт эффект коллекционной фигурки или арт-объекта.

Сгенерированные изображения:

post

a hyperrealistic 3D character render in the style of Gal Yosef, cartoonish luxury, glossy materials, dramatic cinematic lighting, stylized proportions, studio background, a luxury cartoon kitten in a black Louis Vuitton outfit and cap, holding a golden microphone, with a round LV purse and stacks of cash at its feet

post

a hyperrealistic 3D character render in the style of Gal Yosef, cartoonish luxury, glossy materials, dramatic cinematic lighting, stylized proportions, studio background, a cartoon white cat in a printed shirt and red tie, proudly holding a giant golden alarm clock, surrounded by gold coins

post

a hyperrealistic 3D character render in the style of Gal Yosef, cartoonish luxury, glossy materials, dramatic lighting, a blue turtle creature with designer leather shell, holding a Louis Vuitton pokeball, studio background

post

a hyperrealistic 3D character render in the style of Gal Yosef, cartoonish luxury, glossy materials, dramatic cinematic lighting, stylized proportions, studio background, a wealthy cartoon duck in a black Balenciaga jacket with golden zippers, wearing diamond-studded sunglasses, holding a Louis Vuitton handbag full of cash, surrounded by flying dollar bills and gold coins, sitting on a glossy black platform, black studio background

post

«a hyperrealistic 3D character render in the style of Gal Yosef, cartoonish luxury, glossy materials, dramatic cinematic lighting, stylized proportions, studio background, a wealthy cartoon duck in a Balenciaga jacket with golden zippers, holding a Louis Vuitton handbag full of cash, surrounded by flying dollar and coins, sitting on a glossy black platform, black studio background»

post

a hyperrealistic 3D character render in the style of Gal Yosef, cartoonish luxury, glossy materials, dramatic cinematic lighting, stylized proportions, studio background, a baby tiger in a luxury hoodie with diamond accents, next to a small golden car, dark studio background, slight distance shot

post

a hyperrealistic 3D character render in the style of Gal Yosef, cartoonish luxury, glossy materials, dramatic cinematic lighting, stylized proportions, studiobackground, a luxury cartoon cat in black designer clothes, with a pile of money and a glowing gold chain, shown from head to toe on black backdro

post

a hyperrealistic 3D character render in the style of Gal Yosef, cartoonish luxury, glossy materials, dramatic lighting, a smug cartoon tiger in a purple crop top, holding a cigarette, next to a pink teapot full of gold coins, on a magenta background

post

a hyperrealistic 3D character render in the style of Gal Yosef, cartoonish luxury, glossy materials, dramatic lighting, a pair of cute green dinosaur creatures with designer shells, one holding a purse, the other covered in money, black studio background

Результаты:

Сохраняется узнаваемая стилистика Gal Yosef:

-гиперреализм с мультяшной подачей

-большие выразительные глаза

-глянцевая пластика

-использование брендов: Louis Vuitton, Gucci, Balenciaga и т. п.

-сценический свет, часто направленный и драматичный

-позы и характер — с иронией, харизмой, игрой

Что получилось отлично?

1. Передача роскоши и брендов Во всех изображениях отлично передан luxury vibe: сумки, монеты, аксессуары, логотипы, текстуры кожи.

Модель стабильно использует аксессуары премиум-класса — даже в руках персонажей или как часть окружения.

2. Характер и позы Удачно работает характеризация: тигр с сигаретой, утка с кучей денег, динозавр с ребёнком — все с индивидуальностью.

Поза соответствует эмоции, что важно для «люксовых персонажей».

3. Композиция и свет Свет выставлен кинематографично: мягкие градиенты, рефлексы, точечные источники, хороший объём.

Отличный баланс между объектом и фоном — ничего не отвлекает, но сцена чувствуется полной.

Что можно улучшить?

1. Иногда фон слишком нейтральный Некоторые сцены теряются в однотонном сером фоне (например, с белым котом и LV-кепкой).

Можно добавлять детали пола, отражения, элементы окружения (например, подиумы, световые рефлексы).

2. Пластика одежды В некоторых случаях одежда смотрится слишком встроенной в тело (слияние с туловищем) — особенно если нет швов или ткани.

3. Мелкие текстуры и детализация (редко) В некоторых случаях логотипы на одежде или сумках слегка смазаны (что характерно для SDXL и решается prompt-тюнингом или LoRA finetune на более чёткие детали). Когда в сцене присутствуют две фигуры и много мелких деталей (аксессуары, деньги, одежда), модель начинает терять чёткость — появляются артефакты, размытые участки или нелогичная геометрия. Это связано с тем, что SDXL и LoRA ограничены по вниманию и хуже справляются с сложными композициями в одном кадре.

Выводы:

Иногда на сгенерированных изображениях остаются вотермарки — это связано с тем, что я сознательно не убирал их из датасета, чтобы не нарушать авторские права оригинальных работ Gal Yosef.

В целом, модель генерирует очень выразительные и качественные сцены в нужном стиле — с характером, брендами и иронией. Тем не менее, оригинальные работы автора по-прежнему выглядят сильнее: у них выше детализация, лучше продумана композиция и постобработка.

🔍 Вывод: эта LoRA — отличный инструмент для генерации идей и стилистических набросков в духе Gal Yosef. Для финального качества всё равно потребуется ручная доработка.

Теперь поговорим про технические детали и код:

1. Подключение GPU и установка зависимостей ! nvidia-smi ! pip install bitsandbytes transformers accelerate peft diffusers

Проверка наличия GPU (T4) и установка библиотек для обучения LoRA на SDXL с поддержкой памяти и ускорений (8bit, fp16, gradient checkpointing).


2. Аутентификация и доступ к Hugging Face from huggingface_hub import notebook_login notebook_login ()

Авторизация в Hugging Face для загрузки предобученной модели и публикации своей LoRA.


3. Подготовка данных local_dir = «./project_lora» os.makedirs (local_dir) Загрузка изображений в PNG

Загрузка кастомного датасета — изображения в стиле Gal Yosef (luxury 3D персонажи). Вотермарки не удалялись намеренно, чтобы сохранить права автора.


4. Генерация jsonl c caption’ами caption_prefix = «a hyperrealistic 3D character render in the style of Gal Yosef, cartoonish luxury, glossy materials, dramatic cinematic lighting, stylized proportions, studio background»

Подготовка описаний в стиле Gal Yosef для каждой картинки — чтобы модель училась ассоциировать визуальные образы с нужным стилем.


5. Запуск обучения DreamBooth + LoRA ! accelerate launch train_dreambooth_lora_sdxl.py
--pretrained_model_name_or_path="stabilityai/stable-diffusion-xl-base-1.0»
--dataset_name="project_lora»
--output_dir="gal_yosef_LoRA»
--resolution=1024
--train_batch_size=1
--learning_rate=1e-4
--use_8bit_adam
--gradient_checkpointing
--mixed_precision="fp16»
--max_train_steps=1000

Обучение модели на SDXL с использованием LoRA и DreamBooth. Модель обучалась на 1024px изображениях. Используются оптимизации под бесплатный Colab.


6. Публикация LoRA в Hugging Face Hub from huggingface_hub import upload_folder, create_repo repo_id = create_repo («Dillion1337/gal_yosef_LoRA», exist_ok=True).repo_id upload_folder (repo_id=repo_id, folder_path="gal_yosef_LoRA»», …)

Я использовала Stable Diffusion XL Base 1.0 от StabilityAI как основу генерации. Эта модель значительно мощнее предыдущих версий и поддерживает работу с изображениями до 1024×1024 и более сложные промпты.

Датасет Формат изображений: .png

Количество — примерно 76 изображений)

Тематика: персонажи в стиле Gal Yosef глянцевые 3D мультяшки с брендами, деньгами, позами и эмоциями


Параметры обучения:

resolution=1024 Использовалось полное 1024×1024 разрешение — это максимальный размер для SDXL и даёт более детализированную генерацию. train_batch_size=1


gradient_accumulation_steps=3 Использование маленького batch’а и аккумуляции градиентов необходимо для обучения на ограниченной видеопамяти (Colab T4 16 ГБ).


learning_rate=1e-4 lr_scheduler="constant» lr_warmup_steps=0 Константный learning rate без прогрева, достаточно высокий (1e-4) — подходит для LoRA, т. к. она обучает только часть параметров, а не всю модель.

use_8bit_adam mixed_precision="fp16» gradient_checkpointing Всё направлено на экономию видеопамяти: 8bit Adam — уменьшает память для оптимизатора fp16 — половинная точность, быстрее и легче gradient checkpointing — экономия на хранении промежуточных слоёв --max_train_steps=1000 --checkpointing_steps=500 Обучение на 1000 шагов, что эквивалентно примерно 10–15 эпохам при небольшом датасете

Файнтюнинг генеративной модели на визуальном стиле Gal Yosef
7
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more