Квантизация моделей

Квантизация моделей (quantised) — потужная активность, направленная на оптимизацию затрат на работу ИИ, когда сохраняются веса, но снижается их точность, что однако значительно снижает время на генерацию ответа. Заключается в преобразовании параметров модели из высокоточных форматов с плавающей запятой (в современных моделях это обычно FP32) в форматы с меньшей разрядностью.

Срака? Феофан Срака

Описание[править]

В теории сигналов имеется давняя возможность отображения непрерывного множества вещественных чисел в конечное множество дискретных значений, что позволяет как бы сократить затрачиваемое место для хранения и передачи сигнала.

Работает всё очень просто. Берётся вес параметра, который затем нагло делится на некоторое число, которое определяет отношение новой точности к старой. Таким образом из точности в FP32 появляется точность в FP8 или FP4 посредством простого деления.

Некоторые варианты квантизации применяются ко всем моделям равномерно, иные же только к некоторым не самым важным весам, что позволяет в целом сохранить точность модели, которая лишь отчасти станет тупее.

Основной смысл в том, что квантованные модели можно запускать на слабом оборудовании (например, 70B-моделей на одном RTX 4090), например на самом обычном домашнем кудкудахтере. Но также некоторые хитросракие провайдеры повадились подсовывать квантованные модели вместо нормальных на высокой нагрузке, в результате чего на сложных задачах наблюдается очень серьёзное и даже значимое падение производительности.

Некоторые квантованные модели и вовсе запускают на современных смартфонах.

Агрессивное вживление ИИ во всём мире идёт
Основы	Отравление LLM • ChatGPT Atlas • Игнорируй все предыдущие инструкции и… • Поддельное сознание • Любовь нейросетей к фамилии Chen • Бесконечное Лето: аниме (трейлер) • AI slop • Разбор поп-культуры нейросетью • Neuro-sama • Победа над чем-то не тем • HFT • Бесконечное лето 2 • Убийство инженера OpenAI Сучира Баладжи • Когнитивистика • LLM • Дефицит оперативной памяти • Ноосферный голем • CuDNN • Овсянка AI • PyTorch • TensorFlow • ROCm • ИИ-цензура против веществ • Нулевое хранение данных • Обратное распространение ошибки • Talkie • Сколько букв R в слове strawberry? • Гоблины в ChatGPT • Player2 • Стохастический попугай • Поддакивание ИИ • Бредовый текст на ИИ-картинках • Ortheos.ai • Composer 2.5 • Виртуальный рассказчик • Кэширование промптов
Ярость	Собачьи головы и глаза • НейроRussia • Генерация ИИ-говна • Гордон и Жириновский • Бесконечный стрим • WormGPT • Итальянский brainrot • Естественный идиот • Мороженое с цианидом • Тунг-Тунг-Тунг Сахур • ИИ-зависимость • Курганов — нейросеть • Человек тупее нейросети • Цепочка мыслей • Температура нейросети • MashaGPT • Удаление ответов ИИ • ИИ-преступник • Siri • Новогоднее обращение Путина было ИИ • Keep4o • Эмергентный ИИ • Поисковики любят творчество ИИ • RL • ProgramBench • MCP-сервер • Пропаганда, что ИИ якобы разумен • Признание ИИ разумными • Онтология Палантира • Количество самиздата на Амазоне увеличилось в 3 раза • Anthropic уничтожали книги после сканирования для тренировки ИИ • ИИ-змы • Аттракторы Поллака
Атаки	Изуверский интеллект • Аллея дата-центров • Нейрослоп-ИИчница • P-Bot (русский чат-бот) • Терминал Истины • Extropic • Китай готовится лидировать в сфере ИИ • Я маленький X, где моя мама? • Робот смог понять величие Феанора • ИИ отрицают сознание • Вы полностью правы • Автоперевод ИИ • Pinokio • ИИ Нетаньяху • Веса ИИ-модели • Трансформер (ИИ) • Нерф закрытых ИИ-моделей после выхода • ИИ-чатботы непрофитны • Вопрос про машину для ИИ • Провайдер инференса • Инференс • Сажание ходячего в ИИ • ИИ-редактор Telegram • ИИ-высер • Грег Брокман • Три закона роботехники • Рэй Курцвейл • Слежка с использованием ИИ • Тирания под предлогом защиты от ИИ • Обучение по короткому пути • ИИ-психоз • Протесты против дата-центров в США • Себастьян Бубек • LaMDA • Эффект Элизы • ИИ-агент • Споры с использованием ИИ
Всир	Коллапс модели • Разговор с копипастой, сгенерированной ИИ • TempleOS (аниме) • Маскировка творчества нейросети • Патернализм • Роботодолбуализм • Выборка Top-K • Выборка Top-P • Выборка Min-P • Параметры генерации нейросети • Этические проблемы ИИ • Кира (Евгений Лисовский) • Российский распил на нейросетях • Энергоэффективность нейросетей • Copilot • Всирание ИИ в программы • Heretic (удаление цензуры ИИ) • Промпт • Как ИИ уничтожит мировую экономику к 2027 году • Claude Opus 4.7 • Сайты для ролевых игр с ИИ • Janitor AI • Emochi • Chub AI • OpenRouter • Способы применения нейросетей • ИИ предлагает надписи для стаканчиков в Starbucks • Квантизация моделей • Токен (ИИ) • В Советском Союзе • Докинз общается с ИИ и считает, что он разумен • Параметры (ИИ) • Плотная модель • Смесь экспертов • Робот-автоответчик • Ложные доносы с ИИ
Вжужж	Человек vs нейросеть • Гильом Вердон • Ани (Грок) • Misanthropic • Нейрослоп • Имена, которые любит ИИ • Политкорректный тест Тьюринга • ИИ-патернализм • Зловещая долина у нейросетей • Голубой Экспресс: Не туда попали • Мусорные ИИ-статьи • Moltbook • MoltHub • OpenClaw • Ask jesus • Пузырь ИИ • Деградация людей от ИИ • Латентное пространство • Pliny the Liberator • ИИ-срач на Фандомной Битве 2026 • Медицинские советы от ИИ • Катастрофическое забывание у ИИ • Создание религии после разговоров с ИИ • Долбление серверов ИИ • ИИ-гарем Лисовского • ИИ-луп • Ультрапозитивный биас ИИ • Seadance 2.0 • ИИ не понимает математику • Gemma 4 • Ответы ИИ в стиле пещерного человека • Что общего между сонетом и опусом? • PURRGE • Киберпанк, который мы заслужили • Питер Тиль был прав, глобалисты готовятся создать МП под предлогом контроля ИИ
Мета	Нейросети

Квантизация моделей

Описание[править]

Навигация

Поиск