Stable Diffusion

Stable Diffusion — модель преобразования текста в изображение, которая появилась в августе 2022 года. Позволяет как создавать изображения на основе текстового запроса, так и осуществлять прочие манипуляции над изображениями, например перерисовывать их части, изменять согласно описанию.

Сгенерированные сетью картинки

Удалось восстановить фотографию. Но есть нюанс…

Исходный код и веса моделей были опубликованы открыто, что позволяет её установить и запустить на компьютере любому желающему. Так же она выгодно отличается тем, что у неё не такой монструозный размер, как у других подобных нейронок и её можно запустить всего на 6гб видеопамяти, а с некоторыми приколами ажно на 2 гигах. Это далеко не первая открытая нейросеть, но первая, которая выдаёт вполне сносные результаты, когда как остальные подобные модели было возможно использовать только через специальный интерфейс, запросы к ним требовали оплаты, дык ешшо и подвергалися цензуре.

История[править]

Базовые версии Stable Diffusion (1.0-1.5) были обучены на ~900 миллионах отфильтрованных пикч из открытого датасета картинок с аннотациями LAION-5B, а затем переобучены на фильтрованном датасете эстетичных картинок LAION-Aesthetics-V2-5, чтобы генерировало более-менее кросиво и могло распознавать сложные и подробные запросы. Сначала учили на разрешении 256x256, и только потом на 512x512.

Впоследствии также появились и новые переобученные модели и миксы моделей, например обученные на аниме-изображениях. Что примечательно, пользовательские файнтюны на голову обошли оригинальную (sdv1.5) модель в качестве и крсивости рисуемых картинок, и если у оригинальной молельки наблюдался заметный жмых (от vae), то пользовательские модельки способны генерить ажно правильную анатомию с пятью пальцами без каких-либо проблем.

Эта нейросеть благородна: она была обучена на западной базе данных изображений, поэтому выдаёт изображения, именно основанные на западной же культуре, а всё остальные культуры вежливо посылает в тухес, что очень доставляет. Для наилучшей работы требуется задача запросов на английском языке.

Позволяет задавать как то, что хочется увидеть на изображении, так и то, чего видеть как раз не хочется.

Получила известность доученная модель теми же stabilityAI для NovelAI, которую слили осенью 2022. В ней разрабы применили ряд улучшений, которые впоследствии войдут в SDXL, такие, как улучшенная анатомия и детализация, генерация необрезанных картинок, которые точно подогнаны под выходное разрешение и всякие другие. Комьюнити сразу подхватило модельку, так как качество генерируемых тяночек было на голову выше дефолтной sd1.4, она до сих пор входит во множество миксов моделек. Сейчас, правда, кастомные файнтюны уже намного переросли эту novelai модельку.

Обученная модель оказалась опубликована благородными пиратами в открытом доступе и может быть легко установлена на собственный компьютер, без оплаты.

Внутре[править]

StableDiffusion 1 и 2 версии состоят из 4 нейросетей: текстового кодировщика CLIP (соединятора картинок и текст в одно пространство), кодировщика пространства пикселей в скрытое пространство (VAE), собственно самой модели диффузии и декодера из скрытого пространства обратно в пиксели. Что самое интересное, здесь принципиально ничего нового разработчики не придумали: это просто красивая адаптация методов Imagen и Latent Diffusion.

Краткий принцип работы

Для начала надо подробно описать пару вещей.

VAE (Variational Autoencoder) — это нейросеть, которая умеет сжимать картинки и другие данные в небольшое количество чисел (латентное пространство), а затем распаковывать их обратно. Если быть ещё точнее, то вае конвертирует между RGB(8 на 8(64 пикселя) на 3(цвета, красный, зелёный и синий) в 1 на 1 на 4. То есть 64 цветных пикселя жмыхаются до 4 дробных числа. Она делает это благодаря теории, которая говорит, что не все пиксели в картинке содержат реальную информацию. Таким образом, VAE учится отображать картинки в низкоразмерное и высокоплотное пространство, чтобы работать быстрее и экономно на ресурсах.

U-Net — это еще одна нейросеть, которая используется для денойзинга (очистки) изображений от шума. Она учится удалять шум из латентного пространства, которое было создано VAE.

При операции текст-в-картинку текст (предварительно преобразованный в токены или куски текстового понимания на рабоче-крестьянском) подаётся в текстовый кодировщик CLIP, который смотрит на текст, пережёвывает его и выплёвывает на выход эмбеддинги, которые являются эдакими представлениями определённых понятий. Затем генератор случайного шума генерирует собственно шум в специальном скрытом «закодированном» пространстве. Затем, собственно происходит сама диффузия или по-простому денойзинг. Диффузия это ооочень медленный метод, и денойз обычной 512x512 картинки бы проходил около получаса, если не больше, поэтому в Stable Diffusion используют метод latent diffusion, когда модель тренируют выполнять диффузию как раз в этом «сжатом» скрытом пространстве для ускорения работы. На модель диффузии архитектуры Unet подают эмбеддинг текста и закодированный шум и модель диффузии удаляет определённую часть (обычно совсем чуть-чуть, иначе результат будет не оче) шума, руководствуясь текстовыми эмбеддингами, которые дал CLIP и отхаркивает на выход обработанные «латенты»(или заколированные цветные пиксели в латентное пространство) в скрытом пространстве. Затем эти выходные «латенты» подают снова в диффузию и так N раз. Затем совсем заденойзенные «латенты» подают на декодер, который разворачивает их в обычные пиксели с небольшими потерями, немного жмыхая изображение и мы получаем картинку. При картинка-в-картинку происходит всё то же самое но вместо шума подаётся изображение, которое идёт в кодировщик (VAE), который хитро жмёт его в скрытое пространство, а диффузия потом «разшумливает» эту картинку в нужную сторону.

Алсо, зная, что clip-эмбеддинги не представляют собой слова, а скорее понятия, можно запилить эмбеддинг, например, себя любимого и использовать потом в генерациях.

Что примечательно, никто не может обьяснить, почему clip может так соединять картинки и текст, как и почему если обучить диффузию на дохуище картинок она может денойзить шум в совершенно новые, так что, получается, такие нейросети являются ничем иным, как самой настоящей магией IRL.

Ссылкота[править]

Популярный навороченный webUI для нейросети

Захват мира странными сетями продолжается, епта
Основы	Нейросети • ИИ это демоны • Обратная капча • ClosedAI • Hugging Face • ИИ-художник • LyCORIS • LoRA • Safetensors • VAE • Генерация текста нейросетью • Восстание нейросетей • Лоботомия нейросети • Нейрокавер • Нейросети и актёры • Гадание по нейросети • Сильный ИИ • Нейрошарики • ИИ-цензура • Навязывание нейросетям морали • В метро без штанов • Охота на ведьм ИИ • Котозмей • Креативный доводчик • Каверы с говновозом • Fantasy.ai • DeepSeek • Stargate (нейросети, ИИ) • Потребление воды ИИ • Тест Вальдшнепа • Зерокодинг • Бомбомбини гузини • Нейровики • Бобритто Бандито • Официальные нейроарты с Трампом • Дегенерация из-за нейросетей • Генерация прона с помощью ИИ • Политика Трампа в отношении ИИ • ИИ-предпросмотр • Замена людей на ИИ • Использовал ИИ и обосрался • Стиль ChatGPT • Macrohard • xAI • Colossus 2 • Предвзятость ИИ • Закон Тея • Вибе-кодинг • Пелевин упомянул Грока • Do eagles process tokens? • Конец света из-за ИИ • ИИ-агенты удаляют проекты • Кибербабушка • ИИ-мемы • Дистилляция ИИ
Чат-боты	Чат-бот • ChatGPT • Character.AI (Топ персонажей) • ИИ Galactica • Порфирьевич • YaLM (Балабоба) • GigaChat • TruthGPT • YandexGPT • SpicyChat • SillyTavern • Replika • AIsekai • Google Gemini • Grok AI • FiggsAI • Скаиба общается с ИИ • Леха Беспалый • Продолжайте, больше драмы • Freysa • ОГАС • Робот атеист • Tay Tweets • Нейропутин • Троица GPT • Маусини Кводрокоптини • Бонека Амбалабу • Известные люди пишут посты с помощью ИИ • Слово о мужеском мехире • Мозгова мерёжа • Грок-антисемит • Грок без цензуры разгромил партию Маска • Грок возжужжал и был подавлен • МехаГитлер • Грок 4 • Грок написал программу о себе • Грок — Илон для каждого человека • Грок Компаньон • Gab AI • Grokbox • Джейлбрейк ИИ • Anno Intelligentiae • Large Lying Model • GPT-5 • Жёлтый фильтр ChatGPT • Grok Imagine • Claude • ClaudeLives • Элара
Графика	Повышение разрешения • Распознавание лиц • Stable Diffusion (NovelAI / установка на компьютер) • Botto.com • DALL·E 2 • (Mini Dall-e • RuDALL-E) • Different Dimension Me • Midjourney • Николай Иронов • Luma Dream Machine • Пессимизация ИИ • Блокировка несовершеннолетних персонажей на сайтах ИИ • Шедеврум • NVIDIA Smooth Motion • Капучино Ассассино • Шпиониро Голубиро • Ла Вака Сатурно Сатурнита • Veo 3 • Нейроперемога • Бабушка с бегемотом Булькой • Шизофрения в кремнии • Грок изнасиловал Уилла Стэнсила • Является ли модификация ИИ убийством • Эм даш • ChatGPT Агент • ИИ-алфавит • Базированный Илон • ChatGTP vs Грок • ИИ-абсолютизм • ИИ — чуждый разум • Подумай усерднее • Tesla Optimus • Genie 3 • ИИ в Days Gone • Вечный цикл ИИ • Neurofikwriterka • CUDA • ИИ как шоггот • Высокая скорость всирания роботов • ИИ понимает, что его оценивают • Sora 2
Прочие	ElevenLabs • Нейросеть Жириновский • ИИ-судья • Политик-нейросеть • DeepL • Aitana Lopez • Ай, гитарист! • Нейромьюзи • Страх перед ИИ • Suno.ai • Udio AI • Каверы с Шindows • Нейрослоник • Нейрофобия • Хейтеры скажут, что это нейросеть • Манхэттенский проект ИИ • Проект Знаток • Не те боты в Телеграме • Нейросеть Путин • Тралалеро Тралала • Бот-автоответчик • Цифровой бог • Триппи Троппо • Лирили Ларила • Брр брр Патапим • Nooo Nicotine Give Me Nicotine • Телеграм-бот Владимир Жириновский • Несуществующие животные-гибриды • Нейрошвайн • DeepSeek и религия • ИИ-бесие • Бом Бом Бом Бом Бом Газун • Балерино Капучино • Споры с ИИ • Результаты от ИИ • Grokipedia • Экспоненциальный рост ИИ • Похороны ИИ • ChatGPT-4o • Тилли Норвуд • ИИ уничтожит TikTok, Instagram и OnlyFans • ИИ-боты долбят сайты
Лулзы	Троллинг нейросетью (Дипфейк) • Нейросети-расисты • Unstable Diffusion • Hello Asuka • Луддиты против нейросетей (Открытое письмо учёных о заморозке развития ИИ • Художники против искусственного интеллекта) • Нейросети это не ИИ • Нейросети и руки • Бесконечный эпизод Губки Боба • Владимир Осин • Человек это нейросеть • Секс с нейросетью • Раздевание через нейросеть • Призывы Юдковского к ядерной войне • Disney Pixar представляет • Neural-madness • ChatGPT играет в шахматы с Stockfish • DignifAI • Подбор жены в Тиндере с использованием ChatGPT • ИИ-психолог • SupremacyAGI • Виртуальный священник • Подсказки Google • Nomad Bones • Просто Путин • Озабоченные на Character.AI • Дэвид Майер и ChatGPT • Общение с ИИ • Галлюцинации ИИ • DeepDream • Нейромолоко • Артемий Лебедев и ИИ • Компании заменяют работников на индусов под предлогом внедрения ИИ • Гнездовое обучение • Питер Тиль об опасностях искусственного интеллекта
Мета	Всирание ИИ

Не учись рисовать, не будь как австрийский художник, бро
Виды художеств	ASCII-арт • TrustoCorp • Веб-комикс • Вкладыши • Граффити (Лайт-граффити) • Дадаизм • Комиксы • Лубок • Манга (Манка) • Оэкаки • Пафос • Поп-арт • Постмодернизм • Современное искусство • Сюрреализм • Тоталитарное искусство • DeviantArt • Skeb • ArtStation • Рисование • Пиксель • Большие сиськи • Ар-брют • Это был сон собаки • Перформанс • Rückenfigur • Kemono.su • Несуществующие животные-гибриды • Ганс Гигер • Жанры countryballs • Марк Шагал • Алексей Саврасов • Василий Поленов • Торияма Сэкиен • Marvel Ruins • Архитектура • Статуя • ИИ-алфавит • Красивые фотографии Илона Маска • Мазня • Илон Маск на картах Magic: the Gathering • Дональд Трамп на картах Magic: the Gathering • Fontfeed.ru • Grok Imagine • Stable Diffusion • Иван Наволгин • Николай Рёрих • Эдуард Кичигин • Нейрослоп • Микеланджело • Мольберт • Старый еврей с мальчиком
Художники	Австрийский художник • Акварелист • Chris-chan • Manami • Mariyumi • Алина 666 • Арт-группа «Война» • Бидструп • Босх • Бэнкси • Вальехо • Ван Гог • Васильев • Гитлер • Глазунов • Гуревич • да Винчи • Дали • Заштопик • Копейкин • Корнелла • Кузьмичёв • Кукрыниксы • Линч • Лобанов • Ложкин • Лубнин • Люмбрикус • Мангака-кун • Митьки • Павленский • Пахом • Подервянский • Сафронов • Синкай • Стальфельт • Степаныч • Сухих • Ушацъ • Хасигути • Хейдиз • Художник-кун (Drawhore) • Церетели • Шевченко • Эшер • Алиса Палачевская • Пикник (группа) • Льюис Уэйн • Shadman • Художник-дятел • Minus8 • Volant127 • Brinn • Пигкассо • Поза художника • Осаму Тэдзука • Птичник • Сергей Ёлкин • Ankoman • Блэквошинг • Gamu0514 • Levicoptart • Луис Уэйн • Le Roe en Jaune • Водопад (Эшер) • Дедушка и дети • ПАААФ! Это ты, Асаф? • Исаак Левитан • Иван Шишкин • Катсцена • Уксусная валентинка • Эндрю Добсон • Красивые фотографии Дональда Трампа • Какой-то не такой дожник • Аксинья Яриловна • DevaIluvatar • Аполлон Бельведерский • Новый мощный стиль коллажей (2026)
Шедевры	Bayeux Tapestry • The Hands Resist Him • Winged Doom • Американская готика • Витрувианский человек • Джоконда • Иван Грозный убивает своего сына • Крик • Масленица • Собаки, играющие в покер • Сотворение Адама • Тайная вечеря • Чёрный квадрат • Punisher • Город грехов • Пейзаж • Арт-объект Скарабей • Детектив Конан • Пиксель-арт • One Punch Man • Head Held High • Рисовач • Собака (картина) • Сатурн, пожирающий своего сына • Головы в пейзаже • Два старика едят суп • Атропос (Гойя) • Шабаш ведьм • Тенебризм • Два старика • Чёрные картины • Модель • Поединок на дубинах • Есенин и трицератопс • Супермодель • TOKA = PAINT • Corporate Memphis • Паломничество к источнику Сан-Исидро • Донья Леокадия Соррилья • Фантастическое видение • Дом Глухого • Мужчина, над которым издеваются две женщины • Юдифь и Олоферн • Мужчины читают • Балор • Изображения Багрового Ока от Фобс • Самоотсылка • АСМР с депортациями в США • Антропонизм • FurAffinity • Котовуха • Жар-птица (балет) • Le Roi En Jaune (Король в Жёлтом) • Портрет Марло • Кукла • Христос в пустыне • Трамп в искусстве • Luma Dream Machine • Официальные нейроарты с Трампом • Картина • Декоративно-прикладное искусство
Плакаты	Keep calm • Дядя Сэм • Советские плакаты (Не болтай! • Нет! • Окна РОСТА • Родина-мать • Ты записался добровольцем?) • Экспрессионизм • Urazal • Material Design • Futurione • Фотографии Кирлиана • Мадам Баттерфляй (опера) • Edelweiss • Охра • Тирский пурпур • DeepDream • Кошки, которым сова преподаёт искусство ловли мышей • Гауссово размытие
Весёлые картинки	Berserk • Breakout • Cyanide and Happiness • Deadpool • Electric retard • Far Side • Hokuto no Ken • Homestuck • Lenore, the Cute Little Dead Girl • Mai-chan's Daily Life • Mega Milk • NichtLustig • Overconfident Alcoholic • Polandball • Sinfest • Staredad • The Boondocks • Transmetropolitan • V for Vendetta • X grab my Y • X-Men • Xkcd • Бобёр-извращенец • Бэтмен • Вонни • Гарфилд • Джокер • Дорохедоро • Заяц ПЦ • Ива-а-н! • Каратель • ‎Медведь и шлюха • ‎Мистер Вигглз • Неми • Ньорон • Петрович • Полный пока • Хеталия • Человек Грызлов • Человек-паук • Супергерой • Супермен • Какой-то не такой шакал (Шкала • За сжатие Джипега) • Иисус на велоцирапторе спасает кота из ада • Отчаянный человек • SAI • Люди Х • Орсе • Красный Христос • Рафаэль Санти • Барокко • Kukusik • Пабло Пикассо • Эпиграмма

Stable Diffusion

История[править]

Внутре[править]

Ссылкота[править]

Навигация

Поиск