Смесь экспертов
Смесь экспертов (Mixture of Experts, MoE) — современная архитектура нейросети, при которой при поступлении запроса активируются только некоторые параметры.
Описание[править]
Такая технология позволяет эффективно масштабировать модели до триллионов параметров, так как по сути только часть сети активируется для конкретной задачи. Несколько специализированных нейронных сетей совместно решают задачу, а управляющая сеть динамически определяет, какие эксперты и в какой степени участвуют в обработке конкретного промпта.
Сама по себе концепция довольно старая, и появилась ещё в начале 90-х, когда применялась в старых сетях для распознавания речи и классфикации.
В 2017 году команда Google Brain опубликовала научную работу, в которой описала разреженную смесь экспертов для моделей машинного перевода. Модель с 137 млрд параметров показала, что можно существенно увеличить качество вывода без пропорционального роста вычислений.
По сути своей это чисто математическая система: эксперты это набор функций f₁(x), …, fₙ(x), каждая из которых обрабатывает вход x и выдаёт свой выход. При поступлении промпта взвешивающая сеть определяет веса для каждого из экспертов и итоговый вывод определяется посредством функции f(x) = ∑ᵢ₌₁ⁿ w(x)ᵢ fᵢ(x).
В типичной современной LLM при поступлении запроса вначале вызывается небольшая сеть, которая определяет о чём собственно запрос и выбирает несколько экспертных сетей, обычно это всего одна или две подсети, которые собственно затем и обрабатывают запрос. Это количество называется активным числом параметров.
Бывают и гибридные модели, скажем в DeepSeek часть экспертов всегда активна для любого запроса.