
Концепция
Все материалы автора были взяты тут: Изображения Исходный код: Тык Датасет: Тык Huggingface: Тык

Цель проекта — адаптировать и дообучить предобученную генеративную модель Stable Diffusion XL с помощью метода LoRA для воспроизведения визуального стиля из работ 3D-художника Gal Yosef.
В основе проекта лежит идея персонализации модели генерации изображений, чтобы она могла создавать уникальных мультяшных 3D-персонажей, выполненных в характерной гиперреалистичной, глянцевой и люксовой эстетике. Такой стиль сочетает в себе элементы поп-культуры, моды, иронии и избыточного богатства, что делает его визуально ярким и легко узнаваемым.
Исходные изображения

Исходные изображения представляли собой 3D-рендеры мультяшных персонажей в стиле Gal Yosef. На них изображены стилизованные животные и фантастические существа с яркими, глянцевыми текстурами, преувеличенными чертами (например, большие глаза или массивные аксессуары), а также с элементами роскоши — золотыми цепями, дизайнерской одеждой, деньгами и модными предметами. Фон у большинства изображений — тёмный или студийный, что подчёркивает детали и создаёт эффект коллекционной фигурки или арт-объекта.






Сгенерированные изображения:

a hyperrealistic 3D character render in the style of Gal Yosef, cartoonish luxury, glossy materials, dramatic cinematic lighting, stylized proportions, studio background, a luxury cartoon kitten in a black Louis Vuitton outfit and cap, holding a golden microphone, with a round LV purse and stacks of cash at its feet

a hyperrealistic 3D character render in the style of Gal Yosef, cartoonish luxury, glossy materials, dramatic cinematic lighting, stylized proportions, studio background, a cartoon white cat in a printed shirt and red tie, proudly holding a giant golden alarm clock, surrounded by gold coins

a hyperrealistic 3D character render in the style of Gal Yosef, cartoonish luxury, glossy materials, dramatic lighting, a blue turtle creature with designer leather shell, holding a Louis Vuitton pokeball, studio background

a hyperrealistic 3D character render in the style of Gal Yosef, cartoonish luxury, glossy materials, dramatic cinematic lighting, stylized proportions, studio background, a wealthy cartoon duck in a black Balenciaga jacket with golden zippers, wearing diamond-studded sunglasses, holding a Louis Vuitton handbag full of cash, surrounded by flying dollar bills and gold coins, sitting on a glossy black platform, black studio background

«a hyperrealistic 3D character render in the style of Gal Yosef, cartoonish luxury, glossy materials, dramatic cinematic lighting, stylized proportions, studio background, a wealthy cartoon duck in a Balenciaga jacket with golden zippers, holding a Louis Vuitton handbag full of cash, surrounded by flying dollar and coins, sitting on a glossy black platform, black studio background»

a hyperrealistic 3D character render in the style of Gal Yosef, cartoonish luxury, glossy materials, dramatic cinematic lighting, stylized proportions, studio background, a baby tiger in a luxury hoodie with diamond accents, next to a small golden car, dark studio background, slight distance shot

a hyperrealistic 3D character render in the style of Gal Yosef, cartoonish luxury, glossy materials, dramatic cinematic lighting, stylized proportions, studiobackground, a luxury cartoon cat in black designer clothes, with a pile of money and a glowing gold chain, shown from head to toe on black backdro

a hyperrealistic 3D character render in the style of Gal Yosef, cartoonish luxury, glossy materials, dramatic lighting, a smug cartoon tiger in a purple crop top, holding a cigarette, next to a pink teapot full of gold coins, on a magenta background

a hyperrealistic 3D character render in the style of Gal Yosef, cartoonish luxury, glossy materials, dramatic lighting, a pair of cute green dinosaur creatures with designer shells, one holding a purse, the other covered in money, black studio background
Результаты:
Сохраняется узнаваемая стилистика Gal Yosef:
-гиперреализм с мультяшной подачей
-большие выразительные глаза
-глянцевая пластика
-использование брендов: Louis Vuitton, Gucci, Balenciaga и т. п.
-сценический свет, часто направленный и драматичный
-позы и характер — с иронией, харизмой, игрой
Что получилось отлично?
1. Передача роскоши и брендов Во всех изображениях отлично передан luxury vibe: сумки, монеты, аксессуары, логотипы, текстуры кожи.
Модель стабильно использует аксессуары премиум-класса — даже в руках персонажей или как часть окружения.
2. Характер и позы Удачно работает характеризация: тигр с сигаретой, утка с кучей денег, динозавр с ребёнком — все с индивидуальностью.
Поза соответствует эмоции, что важно для «люксовых персонажей».
3. Композиция и свет Свет выставлен кинематографично: мягкие градиенты, рефлексы, точечные источники, хороший объём.
Отличный баланс между объектом и фоном — ничего не отвлекает, но сцена чувствуется полной.
Что можно улучшить?
1. Иногда фон слишком нейтральный Некоторые сцены теряются в однотонном сером фоне (например, с белым котом и LV-кепкой).
Можно добавлять детали пола, отражения, элементы окружения (например, подиумы, световые рефлексы).
2. Пластика одежды В некоторых случаях одежда смотрится слишком встроенной в тело (слияние с туловищем) — особенно если нет швов или ткани.
3. Мелкие текстуры и детализация (редко) В некоторых случаях логотипы на одежде или сумках слегка смазаны (что характерно для SDXL и решается prompt-тюнингом или LoRA finetune на более чёткие детали). Когда в сцене присутствуют две фигуры и много мелких деталей (аксессуары, деньги, одежда), модель начинает терять чёткость — появляются артефакты, размытые участки или нелогичная геометрия. Это связано с тем, что SDXL и LoRA ограничены по вниманию и хуже справляются с сложными композициями в одном кадре.
Выводы:
Иногда на сгенерированных изображениях остаются вотермарки — это связано с тем, что я сознательно не убирал их из датасета, чтобы не нарушать авторские права оригинальных работ Gal Yosef.
В целом, модель генерирует очень выразительные и качественные сцены в нужном стиле — с характером, брендами и иронией. Тем не менее, оригинальные работы автора по-прежнему выглядят сильнее: у них выше детализация, лучше продумана композиция и постобработка.
🔍 Вывод: эта LoRA — отличный инструмент для генерации идей и стилистических набросков в духе Gal Yosef. Для финального качества всё равно потребуется ручная доработка.
Теперь поговорим про технические детали и код:
1. Подключение GPU и установка зависимостей ! nvidia-smi ! pip install bitsandbytes transformers accelerate peft diffusers
Проверка наличия GPU (T4) и установка библиотек для обучения LoRA на SDXL с поддержкой памяти и ускорений (8bit, fp16, gradient checkpointing).
2. Аутентификация и доступ к Hugging Face from huggingface_hub import notebook_login notebook_login ()
Авторизация в Hugging Face для загрузки предобученной модели и публикации своей LoRA.
3. Подготовка данных local_dir = «./project_lora» os.makedirs (local_dir) Загрузка изображений в PNG
Загрузка кастомного датасета — изображения в стиле Gal Yosef (luxury 3D персонажи). Вотермарки не удалялись намеренно, чтобы сохранить права автора.
4. Генерация jsonl c caption’ами caption_prefix = «a hyperrealistic 3D character render in the style of Gal Yosef, cartoonish luxury, glossy materials, dramatic cinematic lighting, stylized proportions, studio background»
Подготовка описаний в стиле Gal Yosef для каждой картинки — чтобы модель училась ассоциировать визуальные образы с нужным стилем.
5. Запуск обучения DreamBooth + LoRA
! accelerate launch train_dreambooth_lora_sdxl.py
--pretrained_model_name_or_path="stabilityai/stable-diffusion-xl-base-1.0»
--dataset_name="project_lora»
--output_dir="gal_yosef_LoRA»
--resolution=1024
--train_batch_size=1
--learning_rate=1e-4
--use_8bit_adam
--gradient_checkpointing
--mixed_precision="fp16»
--max_train_steps=1000
Обучение модели на SDXL с использованием LoRA и DreamBooth. Модель обучалась на 1024px изображениях. Используются оптимизации под бесплатный Colab.
6. Публикация LoRA в Hugging Face Hub from huggingface_hub import upload_folder, create_repo repo_id = create_repo («Dillion1337/gal_yosef_LoRA», exist_ok=True).repo_id upload_folder (repo_id=repo_id, folder_path="gal_yosef_LoRA»», …)
Я использовала Stable Diffusion XL Base 1.0 от StabilityAI как основу генерации. Эта модель значительно мощнее предыдущих версий и поддерживает работу с изображениями до 1024×1024 и более сложные промпты.
Датасет Формат изображений: .png
Количество — примерно 76 изображений)
Тематика: персонажи в стиле Gal Yosef глянцевые 3D мультяшки с брендами, деньгами, позами и эмоциями
Параметры обучения:
resolution=1024 Использовалось полное 1024×1024 разрешение — это максимальный размер для SDXL и даёт более детализированную генерацию. train_batch_size=1
gradient_accumulation_steps=3 Использование маленького batch’а и аккумуляции градиентов необходимо для обучения на ограниченной видеопамяти (Colab T4 16 ГБ).
learning_rate=1e-4 lr_scheduler="constant» lr_warmup_steps=0 Константный learning rate без прогрева, достаточно высокий (1e-4) — подходит для LoRA, т. к. она обучает только часть параметров, а не всю модель.
use_8bit_adam mixed_precision="fp16» gradient_checkpointing Всё направлено на экономию видеопамяти: 8bit Adam — уменьшает память для оптимизатора fp16 — половинная точность, быстрее и легче gradient checkpointing — экономия на хранении промежуточных слоёв --max_train_steps=1000 --checkpointing_steps=500 Обучение на 1000 шагов, что эквивалентно примерно 10–15 эпохам при небольшом датасете