Параметры (ИИ)
Параметры — главная характеристика нейросети, которая определяет количество известных ей связей и паттернов.
Описание[править]
Внутренние переменные модели, которые автоматически настраиваются в процессе обучения на данных и определяют, как модель преобразует входные данные в выходные результаты. Это как бы накопленная память модели, её способность распознавать паттерны, обобщать знания и выполнять сложные задачи. Значения их обучаются из данных в процессе оптимизации, после чего нейронная сеть оказывается финализирована и более не может как бы жужжать в себя дополнительные данные, теперь ея задача проста, — инференс.
Основные типы параметров:
- Веса — определяют силу связи между нейронами. Каждый вес — коэффициент, умножаемый на входное значение.
- Смещения — добавочные константы, позволяющие модели сдвигать функцию активации.
- Вложения — векторные представления токенов, используемые в языковых моделях.
По сути своей это абстрактные паттерны и отношения, извлечённые из огромных объёмов данных. В полносвязном слое с m входами и n выходами число параметров примерно равно m × n + n (здесь к ним относятся веса и смещения). В трансформерах, которые сейчас особенно часто применяются, параметры включают матрицы запросов, ключей и значений в механизмах внимания.
Нонче появились модели с триллионами параметров, но они разделяются на плотные модели и смесь экспертов, где активируются на запрос не все из них.
История[править]
Началось всё в потужном 1943 году, когда учёные предложили первую математическую модель нейрона, где веса связей определяли, активируется ли нейрон. Как известно, обычный мозг работает именно так, то есть при поступлении внешнего сигнала электричество курсирует по нейронам и определяет, какая будет реакция.
Однако реальные полноценные сети удалось построить только после открытия обратного распространения ошибки.