Бредовый текст на ИИ-картинках
Бредовый текст на ИИ-картинках — характерная особенность картинок, которые были сгенерированы посредством ИИ.
Описание[править]
Нейросети, которые позволяют создать картинки методом диффузии, оказались способны генерировать довольно качественные на первый взгляд изображения, но в них поселилась слабость, а именно любые тексты оказываются серьёзно искажены. Если людей нейронка более-менее научилась рисовать, хотя иногда всё ещё вылезают шесть пальцев, то с картинками беда.
Это влияет на все ситуации, где появляются например книги, тексты и т. д. В самых хреновых моделях текст может вообще ничего не значить или быть искажённым. В более качественных скорее текст будет напоминать реальный, но в него окажутся встроены опечатки или мелкие ошибки, которые моментально заметны для любого живого человека.
Таким образом можно определять значительное количество ИИ-изображений и видео (модели тут работают на схожих принципах).
Модели для всира изображений не понимают язык так, как это делаем мы. Они рассматривают текст как визуальные паттерны, то есть наборы форм и текстур, которые чаще всего соответствуют запросу, для них не существует последовательности букв, которые должны соответствовать правилам орфографии и грамматики.
Они учатся на миллионах фотографий вывесок, плакатов и этикеток (многие из которых размыты, стилизованы, расположены под углом). Поэтому они приблизительно представляют, как выглядит текст на неоновой вывеске, но не понимают, что вообще такое текст, а просто выдают некоторое весьма усреднённое значение. Именно поэтому и получаются такие результаты, как неоновая вывеска VIỆT ĐÂM на сгенерированном в ИИ изображении — модель знала, что ей нужен текст, похожий на вьетнамский, в этом стиле, но понятия не имела, какими должны быть на самом деле эти слова.
Неанглийские тексты особенно страдают, так как для них есть значительно меньше примеров. Особенно часто ломаются стилизованные тексты.