Original size 1140x1600

Обучение генеративной сети эстетике обложек рэп-альбомов 90-х

PROTECT STATUS: not protected

Рэп-культура 90-х оставила после себя уникальный визуальный язык, настолько специфичный, что он так и не вышел из андерграунда и его влияние практически не ощущается в других областях визуальных искусств.

Задачей данного проекта было попыткой обучить модель Stable Diffusion дать новую жизнь этой эстетике.

Для обучения и генерации изображений использовались портал hugging face и заранее собранный пользовательский датасет.

Подготовленный датасет:

big
Original size 3508x2480

Часть подготовленного датасета

Датасет состоял из 133 изображений — по несколько обложек на каждый год с 1989-го по 2000-й.

Визуальный язык оказался слишком неоднородным и богатым на разнообразие сюжетов, чтобы за ограниченное время научить модель создавать нечто подобное по оригинальности.

Однако она всё же создала забавные примеры:

Генеративную модель удалось обучить ключевым характеристикам эстетики: контрастные, насыщенные цвета; она уловила характерные выражения лиц и позы в кадре.

Но можно видеть, что на данном этапе модель понимает свою задачу достаточно поверхностно.

Работа с кодом:

Original size 1052x385

Установка зависимостей

Подготовка датасета

Далее представлено обучение в хронологическом порядке

Original size 1049x1113
Original size 1045x454
Original size 1044x923
Original size 1046x751
Original size 1052x647

Промты:

Модель, использованная для до-обучения: https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0

Энкодер модели: https://huggingface.co/madebyollin/sdxl-vae-fp16-fix

Обучение генеративной сети эстетике обложек рэп-альбомов 90-х
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more