Плотная модель
Плотная модель (dense model) — архитектура нейросети, в которой все без исключения параметры используются при каждом запросе.
Описание[править]
Основной частью плотной модели является плотный слой, так называемый dense layer. В этом слое каждый нейрон текущего слоя получает взвешенную сумму входов от всех нейронов предыдущего слоя, к которой добавляется смещение и затем применяется функция активации. Такая полная связность позволяет модели эффективно изучать сложные нелинейные зависимости, но приводит к быстрому росту числа параметров: для слоя с n входами и m выходами требуется n * m весов. Плотные слои чаще всего используются в конце свёрточных или рекуррентных сетей для последней стадии кумеканья.
Полносвязные нейронные сети состоят из нескольких последовательно соединённых плотных слоёв.
В плотной модели LLM все параметры участвуют в обработке каждого токена на каждом этапе передачи сигнала. Если модель содержит 70 млрд параметров, то при генерации ответа задействуются все. Плотные модели проще в дообучении, дистрибуции и отладке, но для достижения целевого уровня требуют огромных вычислительных ресурсов.
Качество модели растёт предсказуемо с увеличением параметров, данных и вычислений, однако также есть и линейная зависимость между размером модели и затратами на инференс.
В большинство ИИ сейчас применяется иная практика, которая получила название смесь экспертов, когда только некоторые из параметров активируются с каждым запросом, что позволяет значительно снизить расходы на обработку запросов. Однако в вопросах типа научных исследований всё ещё применяются плотные модели.