ProgramBench

Материал из Неолурк, народный Lurkmore
Перейти к навигации Перейти к поиску

ProgramBench — весьма мощный бенчмарк для ИИ, который показывает, что все современные модели — таки стохастические попугаи. Даже самые современные модели показывают 0 %.

AI Itogi.jpeg

Описание[править]

Это хитроумный тест на понимание в человеческом смысле, а не просто поиск в интернете и поигрывание с токенами. Был выпущен 5 мая 2026 года.

Его смысл просто: могут ли языковые модели воссоздавать целые программы с нуля, имея в распоряжении только скомпилированный исполняемый файл и его документацию? ProgramBench не требует исправления багов или заполнения пропусков в готовом коде. Агент должен самостоятельно спроектировать архитектуру, выбрать язык программирования, реализовать весь код и создать скрипт сборки, чтобы полученная программа точно воспроизводила поведение оригинального бинарника. Оказывается, что заниматься подобным они не в состоянии.

Ведь реальный программист высокой квалификации не просто долбит код, который проходит конкретные тесты, но осуществляют настоящую программную инженерию, и определяет, что должен код делать в целом. В современных проектах этим занимаются только люди, в то время как ИИ набивают конкретные функции по запросам.

Каждая задача ProgramBench состоит из скомпилированного исполняемого файла и документации программы (man-страницы, вывод --help, примеры использования, README). Агенту запрещено восстанавливать код бинарника, его можно только запускать. Также нельзя подключаться к интернету или пакетным менеджерам. Программы в тесте есть простые и есть сложные.

Агент должен провести исследование, то есть запускать оригинальный бинарник с различными входными данными и наблюдать поведение, затем спроектировать архитектуру программы, выбрать язык программирования, написать весь исходный код и скрипт сборки, после чего скомпилировать и протестировать свою версию. Если программы будут идентичны, тест будет считаться пройденным.

Итоги[править]

Ни одна из современных моделей не смогла пройти хотя бы один тест полностью. Таким образом все модели показали 0 %.

Для сравнения, для человека с профильным образованием такая задача не была бы особо сложной.

Модели демонстрируют частичный прогресс на простых задачах, но полностью проваливаются на сложных проектах вроде FFmpeg и SQLite. Анализ кода показал, что модели предпочитают монолитные однфайловые реализации, пишут значительно меньше строк кода и используют меньше файлов, чем оригинальные проекты. Любят питон.

И это в тесте ещё нет проверки нефункциональных свойств (производительность, расход памяти, безопасность).

Sign of evil.webp Агрессивное вживление ИИ во всём мире идёт
ОсновыОтравление LLMChatGPT AtlasИгнорируй все предыдущие инструкции и…Поддельное сознаниеЛюбовь нейросетей к фамилии ChenБесконечное Лето: аниме (трейлер)AI slopРазбор поп-культуры нейросетьюNeuro-samaПобеда над чем-то не темHFTБесконечное лето 2Убийство инженера OpenAI Сучира БаладжиКогнитивистикаLLMДефицит оперативной памятиНоосферный големCuDNNОвсянка AIPyTorchTensorFlowROCmИИ-цензура против веществНулевое хранение данныхОбратное распространение ошибкиTalkieСколько букв R в слове strawberry?Гоблины в ChatGPTPlayer2Стохастический попугайПоддакивание ИИБредовый текст на ИИ-картинкахOrtheos.aiComposer 2.5Виртуальный рассказчикКэширование промптов
ЯростьСобачьи головы и глазаНейроRussiaГенерация ИИ-говнаГордон и ЖириновскийБесконечный стримWormGPTИтальянский brainrotЕстественный идиотМороженое с цианидомТунг-Тунг-Тунг СахурИИ-зависимостьКурганов — нейросетьЧеловек тупее нейросетиЦепочка мыслейТемпература нейросетиMashaGPTУдаление ответов ИИИИ-преступникSiriНовогоднее обращение Путина было ИИKeep4oЭмергентный ИИПоисковики любят творчество ИИRLProgramBenchMCP-серверПропаганда, что ИИ якобы разуменПризнание ИИ разумнымиОнтология ПалантираКоличество самиздата на Амазоне увеличилось в 3 разаAnthropic уничтожали книги после сканирования для тренировки ИИИИ-змыАттракторы Поллака
АтакиИзуверский интеллектАллея дата-центровНейрослоп-ИИчницаP-Bot (русский чат-бот)Терминал ИстиныExtropicКитай готовится лидировать в сфере ИИЯ маленький X, где моя мама?Робот смог понять величие ФеанораИИ отрицают сознаниеВы полностью правыАвтоперевод ИИPinokioИИ НетаньяхуВеса ИИ-моделиТрансформер (ИИ)Нерф закрытых ИИ-моделей после выходаИИ-чатботы непрофитныВопрос про машину для ИИПровайдер инференсаИнференсСажание ходячего в ИИИИ-редактор TelegramИИ-высерГрег БрокманТри закона роботехникиРэй КурцвейлСлежка с использованием ИИТирания под предлогом защиты от ИИОбучение по короткому путиИИ-психозПротесты против дата-центров в СШАСебастьян БубекLaMDAЭффект ЭлизыИИ-агентСпоры с использованием ИИ
ВсирКоллапс моделиРазговор с копипастой, сгенерированной ИИTempleOS (аниме)Маскировка творчества нейросетиПатернализмРоботодолбуализмВыборка Top-KВыборка Top-PВыборка Min-PПараметры генерации нейросетиЭтические проблемы ИИКира (Евгений Лисовский)Российский распил на нейросетяхЭнергоэффективность нейросетейCopilotВсирание ИИ в программыHeretic (удаление цензуры ИИ)ПромптКак ИИ уничтожит мировую экономику к 2027 годуClaude Opus 4.7Сайты для ролевых игр с ИИJanitor AIEmochiChub AIOpenRouterСпособы применения нейросетейИИ предлагает надписи для стаканчиков в StarbucksКвантизация моделейТокен (ИИ)В Советском СоюзеДокинз общается с ИИ и считает, что он разуменПараметры (ИИ)Плотная модельСмесь экспертовРобот-автоответчикЛожные доносы с ИИ
ВжужжЧеловек vs нейросетьГильом ВердонАни (Грок)MisanthropicНейрослопИмена, которые любит ИИПолиткорректный тест ТьюрингаИИ-патернализмЗловещая долина у нейросетейГолубой Экспресс: Не туда попалиМусорные ИИ-статьиMoltbookMoltHubOpenClawAsk jesusПузырь ИИДеградация людей от ИИЛатентное пространствоPliny the LiberatorИИ-срач на Фандомной Битве 2026Медицинские советы от ИИКатастрофическое забывание у ИИСоздание религии после разговоров с ИИДолбление серверов ИИИИ-гарем ЛисовскогоИИ-лупУльтрапозитивный биас ИИSeadance 2.0ИИ не понимает математикуGemma 4Ответы ИИ в стиле пещерного человекаЧто общего между сонетом и опусом?PURRGEКиберпанк, который мы заслужилиПитер Тиль был прав, глобалисты готовятся создать МП под предлогом контроля ИИ
МетаНейросети
Movax1010h.png Глубокий смысл скрыт в этих неестественных языках
Языки программированияПромышленные: BATC#CC++JavaJavaScript (AJAX) • PascalPerlYAMLPHPPythonRubyABAPАссемблерВасикFortran (Профессор)
Эзотерические: BrainFuckHQ9++ErlangForthHaskellLISP (My other car) • PrologTclΤΕΧOracleMySQLGolangВ++ScalaH и Ё+Программист-бетонщик
ПрофессииБыдлокодерПрограммистТестировщикХакерХеллоуворлдщикIT-звёздыПрограммист (существо)Тернарный операторUnreal MCPИсходный кодSingle-Page ApplicationGiteaForgejoCephIDEДжуниорРепозиторийPostgreSQLSQLiteJQueryБуферWebGLПереполнение буфераХардкодInvoke-WebRequestСкрипт для автоблокировки новых пользователейРазделение диапазоновПроверка диапазоновGeoLite2-Country.mmdbObjective-CProgramBenchComposer 2.5
Методы и стилиReverse EngineeringАнти-паттернВыстрелить себе в ногуГрязный хакКод (индусский) • КостыльМетод научного тыкаПомолясьСвистелки и перделкиОчередьСпортивное программированиеОбфускацияБета-тестАльфа-тестШаблоныRegReplaceФреймворкБыдлокодIndex.phpОхота за жукамиКуМирКлеточный автоматПроцедурное программированиеПоиск файлов в Unix по содержимомуPetoohФункция активации нейронаПерегрузка операторов в PythonЗерокодинг
Средства разработкиSublime TextПодсветка синтаксиса кодаUnstable DiffusionAPIPythonTutorCodeWarsDataCampUnity3DКнижный PythonMallocСвязный списокSOLIDООПУказательNULLWeLang++XenonRecompFuse.jsОптимизацияТестированиеAmbreon866Реверс-инжинирингКроссплатформенностьJSON
ЛюдиИлья КанторЮрий КлючевскийЭдуард ЛаасЭдвард СноуденСеймур ПейпертПроблемаK!ockyTypeScriptОтладчикБитЭффективный менеджер (IT)TauriReact NativeWindows APIТипPyTorchTensorFlowПарсерNode.jsFastAPIVue.jsSvelteБэкендElectronBroken Object Level AuthorizationМаппингДжастин ФранкельHex-редакторVisual Basic .NETNext.jsDocker ComposeNode modulesIndexedDBDos2unix
Прочее++i + ++iДедлайн%s640 килобайтCMSDummy modeЕГГОГFoobarGod is real, unless explicitly declared as integerGOTOIfconfigKISSRegExpSICPsql.ruXyzzyДискетаИнжалид дежицеКОИ-8ЛогМанРекурсияСУБДТест ТьюрингаУмение разбираться в чужом кодеФаза ЛуныФатальный недостатокПроблема 2000ТаймстампКэшЗапись в файл без кэша (Perl)Танцы с бубномКодачХукCurl cffiВибе-кодингFlutterАппликативный операторВыбрасывание окон из Windows