Original size 2512x3776

Обучение модели под стиль Кацусики Хокусай

Кацусика Хокусай — кто это?

Кацусика Хокусай — это японский художник эпохи Эдо. Он работал под множеством псевдонимов. Является одним из самых известных на Западе японских граверов, мастер завершающего периода японской ксилографии.

Автор не стремился к официальному признанию — и в этом его индивидуальность. По мнению современников, он был безумцем. Кацусика Хокусай создавал произведения для народа, для себя, для духа. Его «36 видов Фудзи» — это одновременно и медитация, и катастрофа, и японская мечта.

Творца вдохновляла сама жизнь. Он был одержим переменами и трансформацией. За свою жизнь он сменил более 30 имен — будто постоянно искал самого себя.

Волна в его знаменитом «Большая волна в Канагаве» не просто вода — это движение вселенной, оно женское, оно грозное, оно сильнее всего человеческого.

Хокусай также чувствовал ритм улиц, шума, праздников и простых людей. Он делал книги, зарисовки, альбомы, которые не боялись быть комичными или грубыми. Он умел смеяться, но всё, что он делал — было поэтично.

Он меня поражает своим отношением к реальности. В этом есть бесстрашие, интуиция, тяга к бесконечному и крошечному одновременно.

Идея

Проверить, сможет ли нейросеть уловить детали неповторимого стиля Кацусика Хокусай, опробовать способность модели генерировать картины в жанрах автора. Посмотреть, удастся ли нейросети изобразить Россию глазами художника в современную эпоху.

Исходные изображения

В качестве датасета для дообучения нейросети я подготовила 100 работ художника Кацусики Хокусай, сжатых до квадратов размера 512×512. Датасет включает в себя множество сюжетов: морские и полевые пейзажи, изображения деревень и городов, труд японских крестьян.

Большая волна в Канагаве

Фудзи из Ушибори, провинция Хитати

Эдо, район Нихонбаси

Мисака в Кай

Ходзё (город Окайгава)

Гора Фудзи с холма Уяма в провинции Суруга

Далее с помощью BLIP были созданы подписи к этим изображениям для обучения модели. Подписи включают в себя префикс со специальным токеном, чтобы при финальной генерации модель понимала, что нужно использовать дообученный стиль: photo collage in HOKUSAI style.

Обучение модели

Используем базовую модель для обучения: Stable Diffusion XL 1.0, автоэнкодер VAE для сжатия и декодирования изображений, тот же промт со специальным токеном. Указываем размер изображений: 512×512, обрабатываем два изображения за одну итерацию. Обучаемся на 500 шагах, каждые 250 шагов сохраняется чекпоинт. Проверим, какое качество мы сможем получить за достаточно короткое время обучения.

Первая попытка генерации со 100% весом LoRA

Красная площадь

«red_square»: «photo collage in HOKUSAI style, Red Square in Moscow in winter, crowds of people in motion»

Стиль гравюры абсолютно узнаваем: плотная композиция, человеческие фигуры, верная цветовая палитра. Однако сама архитектура Красной площади не передана верно — отсутствует узнаваемая символика вроде собора Василия Блаженного, Кремлевских стен. Вместо этого — абстрактные прямоугольные формы и шатровая застройка, больше напоминающие японские фестивали или рынки эпохи Эдо.

Байкал

«lake_baikal»: «photo collage in HOKUSAI style, frozen Lake Baikal with cracks in ice, cliffs and pine trees on the shore, strong wind forming waves of snow»

Цветовая гамма, переходы индиго и прорисованные снежные деревья напоминают зимние пейзажи серии «100 видов Фудзи». Но озеро Байкал теряется: нет ощущения масштаба. Байкал — это простор, вода и прозрачность, а здесь всё затянуто заснеженными кронами.

Москва-Сити

«moscow_city»: «photo collage in HOKUSAI style, Moscow-City skyscrapers rising into cloudy sky, dramatic skyline with dynamic perspective»

На мой взгляд, самое интересное изображение. Это будто гора Фудзи в урбанистическом контексте. Тем не менее, архитектура Москва-Сити не распознаётся точно: небоскрёбы не совпадают по формам, пропорциям, силуэтам. Это скорее обобщённый мегаполис.

Казанский собор

«kazan_cathedral»: «photo collage in HOKUSAI style, Kazan Cathedral in Saint Petersburg, snow falling on classical colonnade, pigeons flying above»

Изображение собора удачное, но теряется сам стиль автора.

Эльбрус

«elbrus»: «photo collage in HOKUSAI style, Mount Elbrus in the Caucasus, snowy twin peaks with swirling clouds and wild wind»

Воздушная перспектива, холодный синий, лёгкие облака — всё работает в логике Хокусая. Но сама форма Эльбруса теряется среди других пиков, двуглавая вершина не выделена. Это делает образ скорее собирательным, чем географическим.

Русское поле

«birch_field»: «photo collage in HOKUSAI style, Russian golden wheat field with single birch tree bending in wind, distant village and sky full of layered clouds»

Это — одно из лучших попаданий. Природа, пространство, лёгкое дерево — всё выполнено с точностью. Единственное, чего не хватает — конкретики русских построек или людей, чтобы пейзаж не был слишком универсальным.

Во всех шести изображениях, созданных с использованием 100% LoRA, визуальный стиль Кацусики Хокусая сохраняется. Однако финальный результат не соответствует российским локациям в реальности. Архитектура либо не имеет явных черт узнаваемости (Красная площадь, Москва-Сити), либо стилизована до такой степени, что теряется географическая точность (Байкал, Эльбрус). Казанский собор является исключением: реализация похожа на действительность, но стиль автора теряется. В случае с полем, наоборот, стиль и настроение переданы очень органично, но теряется культурная привязка — нет ощущения того, что это Россия.

Вторая попытка генерации со 70% весом LoRA

Чтобы исправить ситуацию с несоответствием запрашиваемых объектов с реальностью, я решила использовать в генерации параметр lora_scale=0.7. В таком случае вес LoRA смешивается с основной моделью с коэффициентом 0.7. То есть, 70% дает LoRA, а 30% — базовая модель. Мы получаем баланс между стилизацией и знанием базовой модели, которая понимает, как выглядят реальные объекты.

Красная площадь

«red_square»: «photo collage in HOKUSAI style, Red Square in Moscow in winter, crowds of people in motion»

Собор Василия Блаженного и Кремль изображены с высокой точностью, все передано живо и детально. Сохранилась стилистика японской гравюры — в особенностях фигур, цветовой гамме, плавном градиенте неба.

Байкал

«lake_baikal»: «photo collage in HOKUSAI style, frozen Lake Baikal with cracks in ice, cliffs and pine trees on the shore, strong wind forming waves of snow»

Холодная цветовая палитра, работа с пространством и ледяные массы напоминают Байкал. Лед читается, композиция не перегружена деревьями, как раньше. Это вполне узнаваемая сибирская природа.

Эльбрус

«elbrus»: «photo collage in HOKUSAI style, Mount Elbrus in the Caucasus, snowy twin peaks with swirling clouds and wild wind»

Теперь ясно выделяется двуглавая вершина Эльбруса. Сохранилась эстетика Хокусая — мягкие облака, плотная структура гор.

Русское поле

«birch_field»: «photo collage in HOKUSAI style, Russian golden wheat field with single birch tree bending in wind, distant village and sky full of layered clouds»

Поля уже выглядят как узнаваемая сцена из средней полосы Азии.

Казанский собор

«kazan_cathedral»: «photo collage in HOKUSAI style, Kazan Cathedral in Saint Petersburg, snow falling on classical colonnade, pigeons flying above»

Сцена обрела трагичность: буря, птицы, архитектура. Казанский собор узнаваем, эффект снега и ветра драматичен. Думаю, это удачное попадание.

Камчатка с изображением вулкана и медведями

«kamchatka»: «photo collage in HOKUSAI style, volcanoes of Kamchatka erupting in background, snowy valley, brown bears by the river»

Эстетика мифа и реализма переданы реалистично, как у Хокусая.

В этой серии визуально чувствуется значительное улучшение в географической и архитектурной точности — российские пейзажи, здания и культурные символы стали гораздо узнаваемее и реалистичнее. Однако за счет уменьшения LoRA до 70% слегка ослабло ощущение «японской рукописи»: уходит часть декоративности, которая характерна Хокусаю. Цветовые градиенты, ритмы линий и пространства стали ближе к реалистичной европейской живописи и стали менее графичными.

Заключение

Обучение генеративной нейросети — довольно интересный опыт. Но, как мне кажется, это не совсем морально правильно. В качестве развлечения — да. В качестве основного инструмента — нет. Мы обучили нейросеть буквально для того, чтобы скопировать индивидуальный почерк художника, и это нельзя назвать этичным.

К сожалению, авторским правом это пока никак не регулируется. Но ведь модели могут обучаться не только на искусстве великих мастеров, но и на работах современных дизайнеров, из-за чего у человека может исчезнуть собственный стиль, который он вырабатывал годами.

Это действительно интересный опыт — классно увидеть Россию глазами Кацусики Хокусая.

Python-ноутбук

Описание применения генеративной модели

1. Промты для генерации изображений в ChatGPT 4o (чтобы добиться правильного промт-инжиниринга и модель поняла, что от неё требуется). 2. Чтобы ускорить обучение модели и стандартизировать входные данные, все изображения были обрезаны до фиксированного размера 512×512 пикселей. Для этого я собрала отобранные изображения в .zip-архив и загрузила его в чат с ChatGPT 4o, попросив обрезать изображения до нужного размера. В результате получен финальный датасет с изображениями одинакового формата. 3. При создании описаний к изображениям и подборе формулировок я использовала ChatGPT 4o как ассистента по текстам — для проверки логики и стилистического баланса.

https://openai.com/chatgpt/overview/

Обучение модели под стиль Кацусики Хокусай

Eva Lebedeva

artificial intelligence

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...