ProgramBench

ProgramBench — весьма мощный бенчмарк для ИИ, который показывает, что все современные модели — таки стохастические попугаи. Даже самые современные модели показывают 0 %.

Описание[править]

Это хитроумный тест на понимание в человеческом смысле, а не просто поиск в интернете и поигрывание с токенами. Был выпущен 5 мая 2026 года.

Его смысл просто: могут ли языковые модели воссоздавать целые программы с нуля, имея в распоряжении только скомпилированный исполняемый файл и его документацию? ProgramBench не требует исправления багов или заполнения пропусков в готовом коде. Агент должен самостоятельно спроектировать архитектуру, выбрать язык программирования, реализовать весь код и создать скрипт сборки, чтобы полученная программа точно воспроизводила поведение оригинального бинарника. Оказывается, что заниматься подобным они не в состоянии.

Ведь реальный программист высокой квалификации не просто долбит код, который проходит конкретные тесты, но осуществляют настоящую программную инженерию, и определяет, что должен код делать в целом. В современных проектах этим занимаются только люди, в то время как ИИ набивают конкретные функции по запросам.

Каждая задача ProgramBench состоит из скомпилированного исполняемого файла и документации программы (man-страницы, вывод --help, примеры использования, README). Агенту запрещено восстанавливать код бинарника, его можно только запускать. Также нельзя подключаться к интернету или пакетным менеджерам. Программы в тесте есть простые и есть сложные.

Агент должен провести исследование, то есть запускать оригинальный бинарник с различными входными данными и наблюдать поведение, затем спроектировать архитектуру программы, выбрать язык программирования, написать весь исходный код и скрипт сборки, после чего скомпилировать и протестировать свою версию. Если программы будут идентичны, тест будет считаться пройденным.

Итоги[править]

Ни одна из современных моделей не смогла пройти хотя бы один тест полностью. Таким образом все модели показали 0 %.

Для сравнения, для человека с профильным образованием такая задача не была бы особо сложной.

Модели демонстрируют частичный прогресс на простых задачах, но полностью проваливаются на сложных проектах вроде FFmpeg и SQLite. Анализ кода показал, что модели предпочитают монолитные однфайловые реализации, пишут значительно меньше строк кода и используют меньше файлов, чем оригинальные проекты. Любят питон.

И это в тесте ещё нет проверки нефункциональных свойств (производительность, расход памяти, безопасность).

Агрессивное вживление ИИ во всём мире идёт
Основы	Отравление LLM • ChatGPT Atlas • Игнорируй все предыдущие инструкции и… • Поддельное сознание • Любовь нейросетей к фамилии Chen • Бесконечное Лето: аниме (трейлер) • AI slop • Разбор поп-культуры нейросетью • Neuro-sama • Победа над чем-то не тем • HFT • Бесконечное лето 2 • Убийство инженера OpenAI Сучира Баладжи • Когнитивистика • LLM • Дефицит оперативной памяти • Ноосферный голем • CuDNN • Овсянка AI • PyTorch • TensorFlow • ROCm • ИИ-цензура против веществ • Нулевое хранение данных • Обратное распространение ошибки • Talkie • Сколько букв R в слове strawberry? • Гоблины в ChatGPT • Player2 • Стохастический попугай • Поддакивание ИИ • Бредовый текст на ИИ-картинках • Ortheos.ai • Composer 2.5 • Виртуальный рассказчик • Кэширование промптов
Ярость	Собачьи головы и глаза • НейроRussia • Генерация ИИ-говна • Гордон и Жириновский • Бесконечный стрим • WormGPT • Итальянский brainrot • Естественный идиот • Мороженое с цианидом • Тунг-Тунг-Тунг Сахур • ИИ-зависимость • Курганов — нейросеть • Человек тупее нейросети • Цепочка мыслей • Температура нейросети • MashaGPT • Удаление ответов ИИ • ИИ-преступник • Siri • Новогоднее обращение Путина было ИИ • Keep4o • Эмергентный ИИ • Поисковики любят творчество ИИ • RL • ProgramBench • MCP-сервер • Пропаганда, что ИИ якобы разумен • Признание ИИ разумными • Онтология Палантира • Количество самиздата на Амазоне увеличилось в 3 раза • Anthropic уничтожали книги после сканирования для тренировки ИИ • ИИ-змы • Аттракторы Поллака
Атаки	Изуверский интеллект • Аллея дата-центров • Нейрослоп-ИИчница • P-Bot (русский чат-бот) • Терминал Истины • Extropic • Китай готовится лидировать в сфере ИИ • Я маленький X, где моя мама? • Робот смог понять величие Феанора • ИИ отрицают сознание • Вы полностью правы • Автоперевод ИИ • Pinokio • ИИ Нетаньяху • Веса ИИ-модели • Трансформер (ИИ) • Нерф закрытых ИИ-моделей после выхода • ИИ-чатботы непрофитны • Вопрос про машину для ИИ • Провайдер инференса • Инференс • Сажание ходячего в ИИ • ИИ-редактор Telegram • ИИ-высер • Грег Брокман • Три закона роботехники • Рэй Курцвейл • Слежка с использованием ИИ • Тирания под предлогом защиты от ИИ • Обучение по короткому пути • ИИ-психоз • Протесты против дата-центров в США • Себастьян Бубек • LaMDA • Эффект Элизы • ИИ-агент • Споры с использованием ИИ
Всир	Коллапс модели • Разговор с копипастой, сгенерированной ИИ • TempleOS (аниме) • Маскировка творчества нейросети • Патернализм • Роботодолбуализм • Выборка Top-K • Выборка Top-P • Выборка Min-P • Параметры генерации нейросети • Этические проблемы ИИ • Кира (Евгений Лисовский) • Российский распил на нейросетях • Энергоэффективность нейросетей • Copilot • Всирание ИИ в программы • Heretic (удаление цензуры ИИ) • Промпт • Как ИИ уничтожит мировую экономику к 2027 году • Claude Opus 4.7 • Сайты для ролевых игр с ИИ • Janitor AI • Emochi • Chub AI • OpenRouter • Способы применения нейросетей • ИИ предлагает надписи для стаканчиков в Starbucks • Квантизация моделей • Токен (ИИ) • В Советском Союзе • Докинз общается с ИИ и считает, что он разумен • Параметры (ИИ) • Плотная модель • Смесь экспертов • Робот-автоответчик • Ложные доносы с ИИ
Вжужж	Человек vs нейросеть • Гильом Вердон • Ани (Грок) • Misanthropic • Нейрослоп • Имена, которые любит ИИ • Политкорректный тест Тьюринга • ИИ-патернализм • Зловещая долина у нейросетей • Голубой Экспресс: Не туда попали • Мусорные ИИ-статьи • Moltbook • MoltHub • OpenClaw • Ask jesus • Пузырь ИИ • Деградация людей от ИИ • Латентное пространство • Pliny the Liberator • ИИ-срач на Фандомной Битве 2026 • Медицинские советы от ИИ • Катастрофическое забывание у ИИ • Создание религии после разговоров с ИИ • Долбление серверов ИИ • ИИ-гарем Лисовского • ИИ-луп • Ультрапозитивный биас ИИ • Seadance 2.0 • ИИ не понимает математику • Gemma 4 • Ответы ИИ в стиле пещерного человека • Что общего между сонетом и опусом? • PURRGE • Киберпанк, который мы заслужили • Питер Тиль был прав, глобалисты готовятся создать МП под предлогом контроля ИИ
Мета	Нейросети

Глубокий смысл скрыт в этих неестественных языках
Языки программирования	Промышленные: 1С • BAT • C# • C • C++ • Java • JavaScript (AJAX) • Pascal • Perl • YAML • PHP • Python • Ruby • ABAP • Ассемблер • Васик • Fortran (Профессор) Эзотерические: BrainFuck • HQ9+ • + • Erlang • Forth • Haskell • LISP (My other car) • Prolog • Tcl • ΤΕΧ • Oracle • MySQL • Golang • В++ • Scala • H и Ё • + • Программист-бетонщик
Профессии	Быдлокодер • Программист • Тестировщик • Хакер • Хеллоуворлдщик • IT-звёзды • Программист (существо) • Тернарный оператор • Unreal MCP • Исходный код • Single-Page Application • Gitea • Forgejo • Ceph • IDE • Джуниор • Репозиторий • PostgreSQL • SQLite • JQuery • Буфер • WebGL • Переполнение буфера • Хардкод • Invoke-WebRequest • Скрипт для автоблокировки новых пользователей • Разделение диапазонов • Проверка диапазонов • GeoLite2-Country.mmdb • Objective-C • ProgramBench • Composer 2.5
Методы и стили	Reverse Engineering • Анти-паттерн • Выстрелить себе в ногу • Грязный хак • Код (индусский) • Костыль • Метод научного тыка • Помолясь • Свистелки и перделки • Очередь • Спортивное программирование • Обфускация • Бета-тест • Альфа-тест • Шаблоны • RegReplace • Фреймворк • Быдлокод • Index.php • Охота за жуками • КуМир • Клеточный автомат • Процедурное программирование • Поиск файлов в Unix по содержимому • Petooh • Функция активации нейрона • Перегрузка операторов в Python • Зерокодинг
Средства разработки	Sublime Text • Подсветка синтаксиса кода • Unstable Diffusion • API • PythonTutor • CodeWars • DataCamp • Unity3D • Книжный Python • Malloc • Связный список • SOLID • ООП • Указатель • NULL • WeLang++ • XenonRecomp • Fuse.js • Оптимизация • Тестирование • Ambreon866 • Реверс-инжиниринг • Кроссплатформенность • JSON
Люди	Илья Кантор • Юрий Ключевский • Эдуард Лаас • Эдвард Сноуден • Сеймур Пейперт • Проблема • K!ocky • TypeScript • Отладчик • Бит • Эффективный менеджер (IT) • Tauri • React Native • Windows API • Тип • PyTorch • TensorFlow • Парсер • Node.js • FastAPI • Vue.js • Svelte • Бэкенд • Electron • Broken Object Level Authorization • Маппинг • Джастин Франкель • Hex-редактор • Visual Basic .NET • Next.js • Docker Compose • Node modules • IndexedDB • Dos2unix
Прочее	++i + ++i • Дедлайн • %s • 640 килобайт • CMS • Dummy mode • ЕГГОГ • Foobar • God is real, unless explicitly declared as integer • GOTO • Ifconfig • KISS • RegExp • SICP • sql.ru • Xyzzy • Дискета • Инжалид дежице • КОИ-8 • Лог • Ман • Рекурсия • СУБД • Тест Тьюринга • Умение разбираться в чужом коде • Фаза Луны • Фатальный недостаток • Проблема 2000 • Таймстамп • Кэш • Запись в файл без кэша (Perl) • Танцы с бубном • Кодач • Хук • Curl cffi • Вибе-кодинг • Flutter • Аппликативный оператор • Выбрасывание окон из Windows

ProgramBench

Описание[править]

Итоги[править]

Навигация

Поиск