Трансформер (ИИ)
Трансформер — архитектура нейронных сетей, основанная на механизмах внимания.
Описание[править]
Создателями архитектуры стали исследователи из Google. Определённые нейросети существовали и ранее, но были крайне узкоспециализированными, а также работали очень медленно, из-за чего их применение в целом было существенно ограничено. Распространение сетей стартовало только после инсталляции понятия трансформера.
Трансформеры предназначены для эффективной обработки последовательностей данных, позволяя моделировать длинные зависимости между элементами параллельно, без последовательного прохода по данным. Так что скорость потужного жужжания нарастает неимоверно и становится буквально шмелевой, и с этим уже можно работать епта.
Механизмы внимания были введены в seq2seq-моделях для машинного перевода около 10 лет назад. Такие механизмы позволяли модели фокусироваться на релевантных частях входа, но всё ещё использовались внутри рекуррентных структур, которые отличались медлительностью и обрабатывали данные в стиле черепахи.
И вот в 2017 году было решено полностью отказаться от рекуррентности и свёрток, заявив, что внимания достаточно. Получившаяся модель весьма хорошо переводила текст.
Классический трансформер имеет структуру encoder-decoder. Каждый состоит из нескольких одинаковых слоёв, которые располагаются друг за другом. Входные данные преобразуются в последовательность токенов, затем в эмбеддинги, к которым добавляется позиционное кодирование, и начинается курсаж информации внутри нейронной сети. Поскольку модель не имеет рекуррентности, необходимо явно указать порядок элементов. В оригинальной работе используется фиксированное синусоидальное кодирование.
Так что можно сказать что известное кино оказалось истинным и трансформеры готовятся захватить мир нах.