Инференс
Инференс (Inference) — непосредственно использование модели ИИ для непосредственной цели.
Описание[править]
Вначале модель ИИ обучается на больших массивах информации, именно на этом этапе определяются веса модели и прочие встроенные параметры. Затем проходит fine tuning, когда производится допиливание модели под конкретные задачи, впрочем к сожалению сейчас часто проводится и RLHF, то есть научение модели бессмысленной цензуре.
В отличие от обучения, где параметры модели корректируются с помощью градиентного спуска и обратного распространения ошибки, во время инференса более не происходит обновления весов, то есть делание произвольных запросов уже не оказывает никакого влияния вне конкретно контекста.
Хотя он и требует меньше ресурсов, нежели при обучении, инференс всё равно весьма дорогостоящ. По этой причине локально запускаются только сравнительно маленькие сети, в то время как большие и толстые требуют или весьма дорогой аренды, или применение провайдера инференса, который предоставляет доступ по API.
Для оптимизации, например, применяют квантование, то есть снижение точности весов (от точности вида FP32 переходят к вариантам FP16/INT8/FP8/FP4). Это сокращает занимаемую память и ускоряет вычисления в несколько раз с определённой потерей качества, причём квантование может применяться скрыто при высокой нагрузке.