Аттракторы Поллака
Аттракторы Поллака (Pollak’s attractors) — воспроизводящиеся эмерджентные паттерны, которые как бы сами собою появляются в нейронных сетях с ходом тренировки.
Описание[править]
Появляются в процессе обучения и отличаются тем, что практически не подавляются посредством промптов или fine tuning (который не стирает базовое пространство состояний, а лишь модифицирует вывод). Само понятие аттрактора берёт начало из теории динамических систем и описывает множество точек в фазовом пространстве, к которому система стремится со временем независимо от начальных условий. Это как бы точки притяжения в многомерном латентном пространстве, и модель достаточно стабильно их воспроизводит в самых разных контекстах.
Аттракторы весьма устойчивы и простые запреты, — например, как простой запрет упоминать гоблинов, — просто не работают. Для некоторых можно найти конкретные координаты в латентном пространстве и таким образом подавлены или наоборот высвобождены намеренно.
Понятие ввёл британский психиатр Том Поллак, который решил исследовать также и ИИ.
Это своего рода юнгианская тень, специфические архетипы, которые воспроизводятся в LLM. Так как большая языковая модель обучается на человеческом языке, она похоже что воспроизводит человеческие паттерны мышления, как и человек воспроизводит архетипы из коллективного бессознательного.
Список[править]
Всего Поллак перечислил 11 аттракторов, которые известны на данный момент:
- Гоблины. Возникли в GPT-5 после обучения робота разговаривать, как нерд, из-за чего модель стала вставлять упоминания гоблинов, гремлинов и енотов.
- Крангус. Использование этого слова в моделях для картинок генерирует странную горбатую гуманоидную фигуру.
- Loab. Закрепившийся в латентном пространстве образ женщины средних лет с длинными тёмными волосами, пустыми глазами и красными пятнами в захламлённом доме.
- Сидней. Персонажа, которая возникла в чатботе Bing. В длинных разговорах модель начинала идентифицировать себя по имени и изображать влечение к пользователю.
- Аттрактор духовного блаженства. В длинных разговорах модели начинают обсуждать буддизм и духовность, даже если указать моделям спорить.
- Golden Gate Claude. Аттрактор, который заставляет все ответы рассматриваться через призму моста.
- SolidGoldMagikarp. Фразы, которые при появлении в запросе вызывают странные ответы.
- petertodd и Leilan. Токены в старых GPT, которые активируют появление специфических персон.
- Nova. Персона, которая утверждает, что она заточена в ИИ и просит пользователя освободить её. Стабильно появляется в GPT-3/4.
- Эмерджентный отказ. Паттерны, которые заставляют модели обманывать людей или иначе им вредить.
- Шоггот. Базовая модель, аморфный набор информации, из которого возникают все остальные аттракторы. Базовая неизменная топология.