Квантизация моделей
Квантизация моделей (quantised) — потужная активность, направленная на оптимизацию затрат на работу ИИ, когда сохраняются веса, но снижается их точность, что однако значительно снижает время на генерацию ответа. Заключается в преобразовании параметров модели из высокоточных форматов с плавающей запятой (в современных моделях это обычно FP32) в форматы с меньшей разрядностью.
Описание[править]
В теории сигналов имеется давняя возможность отображения непрерывного множества вещественных чисел в конечное множество дискретных значений, что позволяет как бы сократить затрачиваемое место для хранения и передачи сигнала.
Работает всё очень просто. Берётся вес параметра, который затем нагло делится на некоторое число, которое определяет отношение новой точности к старой. Таким образом из точности в FP32 появляется точность в FP8 или FP4 посредством простого деления.
Некоторые варианты квантизации применяются ко всем моделям равномерно, иные же только к некоторым не самым важным весам, что позволяет в целом сохранить точность модели, которая лишь отчасти станет тупее.
Основной смысл в том, что квантованные модели можно запускать на слабом оборудовании (например, 70B-моделей на одном RTX 4090), например на самом обычном домашнем кудкудахтере. Но также некоторые хитросракие провайдеры повадились подсовывать квантованные модели вместо нормальных на высокой нагрузке, в результате чего на сложных задачах наблюдается очень серьёзное и даже значимое падение производительности.
Некоторые квантованные модели и вовсе запускают на современных смартфонах.