Генерация текста нейросетью

Материал из Неолурк, народный Lurkmore
Перейти к навигации Перейти к поиску
Пример текста от Порфирьевича

Генерация текста нейросетью — одно из основных направлений использования современных нейросетей. Представляет из себя очередную цифровую попытку претворения в жизнь идеи «версификатора» из эпохальной антиутопии, в свою очередь обыгрывавшего механический «спекулятивный станок» Большой Академии в Лагадо из одного старого памфлета.

Первый профессор, которого я здесь увидел, помещался в огромной комнате, окруженный сорока учениками. После взаимных приветствий, заметив, я внимательно рассматриваю раму, занимавшую большую часть комнаты, он сказал, что меня, быть может, удивит его работа над проектом умозрительного знания при помощи технических и механических операций[1]. Но мир вскоре оценит всю полезность этого проекта; и он льстил себя уверенностью, что более возвышенная идея никогда еще не зарождалась ни в чьей голове. Каждому известно, как трудно изучать науки и искусства по общепринятой методе; между тем благодаря его изобретению самый невежественный человек с помощью умеренных затрат и небольших физических усилий может писать книги по философии, поэзии, политике, праву, математике и богословию при полном отсутствии эрудиции и таланта.
Рис. 1: примитивно, но зато наглядно
Затем он подвел меня к раме, по бокам которой рядами стояли все его ученики. Рама эта имела двадцать квадратных футов и помещалась посредине комнаты. Поверхность ее состояла из множества деревянных дощечек, каждая величиною в игральную кость, одни побольше, другие поменьше. Все они были сцеплены между собой тонкими проволоками. Со всех сторон каждой дощечки приклеено было по кусочку бумаги, и на этих бумажках были написаны все слова их языка в различных наклонениях, временах и падежах, но без всякого порядка. Профессор попросил меня быть внимательнее, так как он собирался пустить в ход свою машину. По его команде каждый ученик взялся за железную рукоятку, которые в числе сорока были вставлены по краям рамы, и быстро повернул ее, после чего расположение слов совершенно изменилось. Тогда профессор приказал тридцати шести ученикам медленно читать образовавшиеся строки в том порядке, в каком они разместились в раме; если случалось, что три или четыре слова составляли часть фразы, ее диктовали остальным четырем ученикам, исполнявшим роль писцов. Это упражнение было повторено три или четыре раза, и машина была так устроена, что после каждого оборота слова принимали все новое расположение, по мере того как квадратики переворачивались с одной стороны на другую.


Ученики занимались этими упражнениями по шесть часов в день, и профессор показал мне множество фолиантов, составленных из подобных отрывочных фраз; он намеревался связать их вместе и от этого богатого материала дать миру полный компендий всех искусств и наук; его работа могла бы быть, однако, облегчена и значительно ускорена, если бы удалось собрать фонд для сооружения пятисот таких станков в Лагадо и обязать руководителей объединить полученные ими коллекции.

Он сообщил мне, что это изобретение с юных лет поглощало все его мысли, что теперь в его станок входит целый словарь и что им точнейшим образом высчитано соотношение числа частиц, имен, глаголов и других частей речи, употребляемых в наших книгах.

Подробности[править]

Казалось бы, мечта о полной автоматизации рутинного процесса контентменеджмента сбывается, прямо сегодня и на наших глазах. Однако не всё так просто. На практике, после после интродукции «запального» лингвосубстрата в нейросеть, та выдаёт стохастический, в сущности, ответ; и даже современные качественные сетки при генерации достаточно длинных текстов могут выдать сущую шизофазию, которая не имеет реального смысла с точки зрения человека. Ибо сеть, не обладая возможностью проверить наличие в тексте логики и не понимания контекста, просто подбирает наиболее подходящее продолжение для того текста, что был в неё интродуцирован.

Поэтому генерация связного текста по релевантной запросу тематике требует значительного количества перегенераций с поиском и синтезом наиболее корректного варианта, а также последующей ручной правки и допиливания уже кондовым кожаным мешком с органической гиперплоскостью сцепления. Удельное количество шизофазии обычно тем выше, чем больше размер текста — ибо сеть склонна продолжать уже собственное творчество и получается бред — так что распространенный способ генераций предполагает тандемную работу методом синергетической комбинаторики: последовательная обработка части текста человеком > сетью > человеком… и так далее.

Обычно — да, но в данном примере, исходя из накопленного поколениями эмержентного опыта в области прикладной методологии селективного эпистемологического редукционизма, как таки раз наличествует нехарактерный оказионалистический казус, когда перцептуалистически объективная модальность исследуемого тематического сегмента мифосемантического континуума имманентно реверсивна по отношению к сложившейся общепринятой практике и при том в комментированности чистого эмпириокритицизма данная имманентность в целом явственно доброкачественна (что само по себе уже sort of win).
— Ну вот типа того…

С использованием нейросетей было зарегистрировано написание диплома (который, в свою очередь, был одобрен преподавателями вуза); научной работы, прошедшей публикацию; а также литературного произведения. Но после генерации текстов все они проходили вышерекомую доработку. Например, в случае с дипломом было отмечено, что почти всю доводку делал научный руководитель, которая просто пожалела лентяя-студента, а то, что выдала нейросеть, не прошло бы никакого экзамена.

Обучение нейросетей[править]

Первичное обучение производится на массиве человеческих текстов, которые обычно представляют собой книги, газетные заметки и прочие тексты (можно обучать и на блогах, но специфический сетевой стиль и частое несоблюдение правил языка приведёт к тому, что нейросеть станет работать не вполне правильно и выдавать странные результаты). Массив должен быть достаточно большим, чтобы нейросеть верно поняла, за какими словами что следует. Затем производится дополнительное обучение пользователями, которые уже проверяют результаты генерации и отмечают правильные и неправильные варианты, что дополнительно повышает точность.

Основным вариантом генеративной нейросети сейчас является большая лингвистическая модель (LLM):

Большая лингвистическая модель выполняет простейшую на первый взгляд операцию. Она предсказывает следующее слово в последовательности слов. Чем больше слов уже включено в такую последовательность, тем проще угадать каждое новое, потому что круг вариантов постоянно сужается. В сущности, функция LLM – это доведенное до немыслимого совершенства автозаполнение.
LLM не думает. Она тренируется на огромном корпусе созданных прежде текстов – романов, стихов, заговоров и заклинаний, надписей на заборах, интернет-чатов и срачей, нобелевских лекций, политических программ, полицейских протоколов, сортирных надписей и так далее – и на этой основе предсказывает, как будет расти и развиваться новая последовательность слов, и как она, вероятней всего, развиваться не будет.
У языковых моделей есть, конечно, дополнительные уровни программирования и этажи – например, слой RLHF (оптимизирующее обучение с человеческой обратной связью) и так далее. Суть в том, что языковую модель натаскивают выбирать такие продолжения лингвистических конструкций, которые в наибольшей степени устроят проводящих тренировку людей.
Это похоже на процесс формирования юного члена общества на основе ежедневно поступающих вербальных инструкций, подзатыльников и наблюдения за тем, кому дают еду, а кому нет.

В связи с этим нейросети могут обладать спецификой в зависимости от того набора текстов, который был в них заложен. И так как нейросеть понимать контекст не в состоянии (только предсказывать принадлежность текста к нему, с определённой вероятностью), то дополнять может совершенно неуместным образом (условно — добавлять канцелярит или писать в стиле веб-чата в художественном тексте). В чём, впрочем, есть и лулзы, благо очень многие эти нейросети используют только в целях развлечения.

Цензура[править]

Во многих моделях, к сожалению, имеется встроенная цензура — запрещены фамилии известных политических деятелей, а также инвективное и обсценное содержимое. На западных сайтах ситуация ещё более печальная и блокируется вообще всё, что хотя бы отдалённо напоминает прон, а также то, что может «кого-то оскорбить» (то есть обсуждение любой актуальной политики). Но, к счастью, бывают сборки нейросеток и с небольшим числом ограничений, или же вообще без них. Впрочем, доходит и до вовсе прискорбных эксцесов.

Примеры[править]

Источники[править]

  1. Попытки сконструировать «думающие» машины, которые совершали бы логические операции, делались начиная со средних веков. Среди авторов таких проектов — схоласт и алхимик Раймон Луллий из Майорки (1235—1315), немецкий теософ Корнелий Агриппа (1486—1555), Джордано Бруно (1548—1600), иезуит Атанасиус Кирхер (ум. в 1680 г.), немецкий философ Лейбниц (1646—1716) и английский экономист У. С. Джевонс (1855—1882). ©
Sign of evil.webp Приколы, полезные технологии или первый шаг на пути к Матрице?
ОсновыНейросетиОбратная капчаOpenAIHugging FaceИИ-художникLyCORISLoRASafetensorsVAEГенерация текста нейросетьюВосстание нейросетейЛоботомия нейросетиНейрокаверНейросети и актёрыГадание по нейросетиСильный ИИНейрошарикиИИ-цензураНавязывание нейросетям моралиВ метро без штановОхота на ведьм ИИКотозмейКреативный доводчикКаверы с говновозомFantasy.aiDeepSeekStargate (нейросети, ИИ)Потребление воды ИИТест ВальдшнепаЗерокодингБомбомбини гузиниНейровики
Чат-ботыЧат-ботChatGPTCharacter.AI (Топ персонажей) • ИИ GalacticaПорфирьевичYaLM (Балабоба) • GigaChatTruthGPTYandexGPTSpicyChatSillyTavernReplikaAIsekaiGoogle GeminiGrok AIFiggsAIСкаиба общается с ИИЛеха БеспалыйПродолжайте, больше драмыFreysaОГАСРобот атеистTay Tweets
ГрафикаПовышение разрешенияРаспознавание лицStable Diffusion (NovelAI / установка на компьютер) • Botto.comDALL·E 2 • (Mini Dall-eRuDALL-E) • Different Dimension MeMidjourneyНиколай ИроновLuma Dream MachineПессимизация ИИБлокировка несовершеннолетних персонажей на сайтах ИИШедеврум
ПрочиеElevenLabsНейросеть ЖириновскийИИ-судьяПолитик-нейросетьDeepLAitana LopezАй, гитарист!НейромьюзиСтрах перед ИИSuno.aiUdio AIКаверы с ШindowsНейрослоникНейрофобияХейтеры скажут, что это нейросетьМанхэттенский проект ИИПроект ЗнатокНе те боты в ТелеграмеНейросеть ПутинТралалеро ТралалаБот-автоответчикЦифровой бог
ЛулзыТроллинг нейросетью (Дипфейк) • Нейросети-расистыUnstable DiffusionHello AsukaЛуддиты против нейросетей (Открытое письмо учёных о заморозке развития ИИХудожники против искусственного интеллекта) • Нейросети это не ИИНейросети и рукиБесконечный эпизод Губки БобаВладимир ОсинЧеловек это нейросетьСекс с нейросетьюРаздевание через нейросетьПризывы Юдковского к ядерной войнеDisney Pixar представляетNeural-madnessChatGPT играет в шахматы с StockfishDignifAIПодбор жены в Тиндере с использованием ChatGPTИИ-психологSupremacyAGIВиртуальный священникПодсказки GoogleNomad BonesПросто ПутинОзабоченные на Character.AIДэвид Майер и ChatGPTОбщение с ИИГаллюцинации ИИСобачьи головы и глазаНейроRussiaГенерация ИИ-говнаГордон и ЖириновскийБесконечный стримWormGPTИтальянский brainrotЕстественный идиот