Теории аналитика 5 мин 9 мая 2026 г.

Бенчмарк перестал быть одним числом. Эпоха насыщения reasoning-метрик закрылась за апрель 2026-го

Грег Бёрнем (Epoch AI) призывает «отказаться хотя бы от одного из четырёх свойств классического бенчмарка»: text-only, short time horizon, easy to grade, expert human superiority. Eric Bezzam с командой HuggingFace вводит private hold-out от Appen и DataoceanAI как защиту от benchmaxxing. ARC Research поднимает уровень дискуссии до mechanistic-evaluation. Zvi Mowshowitz фиксирует, что system card к GPT-5.5 продаёт ограничения, не достижения. Это четыре независимых сигнала одного и того же сдвига — рынок измерения AI-моделей перестраивается на multi-endpoint.

Редакционная обложка SCQR: одна цифра разламывается на восемь параметров; шкала вместо одной превращается в радар-диаграмму; внизу — лабораторный стол с пробирками.

5 мая 2026-го Грег Бёрнем выпустил в Epoch AI Substack материал «RIP Classic Reasoning Benchmarks». Тон — почти панегирик: классические текстовые reasoning-бенчмарки исчерпаны. GPQA, по словам автора, «clearly saturated». На GraphWalks Claude Mythos дотащился до 80% — год назад там было меньше 40%. И главный методологический вывод формулируется одной строкой: «Just relax one of the elements: text only, easy to grade, short time horizon, and expert human superiority». Чтобы делать осмысленный новый бенчмарк в 2026-м, нужно отказаться хотя бы от одного из четырёх классических свойств.

Через сутки в HuggingFace Blog вышел материал команды Eric Bezzam про Open ASR Leaderboard. Там та же мысль с другой стороны — добавлен «benchmaxxer repellant»: private hold-out, на который leaderboard смотрит, но не возвращает в open dataset. Партнёры — Appen и DataoceanAI — обязуются не отдавать те же данные клиентам как обучающую выборку. Эпиграф материала — закон Гудхарта: «When a measure becomes a target, it ceases to be a good measure». Это уже не панегирик, а инженерная защита от паттерна, который видели много раз.

7 мая ARC Research / alignment.org — формально alignment-исследование, но с тем же подспудным посылом: оценивать модели нужно не одной цифрой и не end-to-end-проверкой, а через mechanistic estimation — анализ внутренних активаций и трасс. Это уровень, на который большинство публичных бенчмарков пока не зашло. И параллельно Zvi Mowshowitz в своём разборе system card к GPT-5.5 фиксирует: ограничений в карточке стало больше, чем заявленных способностей. О маркетинге ограничений мы писали 1 мая (см. наш материал «Рынок начал продавать ограничения»). Сейчас стоит дописать вторую главу: маркетинг ограничений происходит на новом уровне измерений.

Четыре независимых сигнала на одной неделе — Epoch AI, HuggingFace, ARC, Zvi — складываются в одну линию. Рынок AI evaluation вышел за пределы одного числа. Эра, в которой модель приходила с одной строкой пресс-релиза «MMLU 88.7% — SOTA», закрылась. Дальше — multi-endpoint: long-horizon agentic reliability, alignment-checks, anti-benchmaxxing, multimodal coverage, system card disclosures. Сразу несколько шкал, и ни одна не доминирует.

Параллель здесь не риторическая, а структурная. 10 октября 1962 года президент Кеннеди подписал Kefauver-Harris Amendment к закону о пище и лекарствах. До этого FDA одобряла препарат на основании одного критерия — безопасности. Эффективность доказывать не требовалось; реклама силы препарата была свободной; LD50 (доза, при которой умирает половина животных) был основной метрикой. После талидомидной катастрофы — поправка ввела другую модель: новый препарат должен пройти «adequate and well-controlled investigations», эффективность доказывается, а не декларируется, появляется фазовая структура клинических испытаний (phase 1, 2, 3), informed consent, отчётность по нежелательным реакциям. Старые препараты, одобренные до 1962-го, прошли через Drug Efficacy Study Implementation — переоценку. Реклама силы превратилась в раскрытие профиля безопасности.

Через десять лет фарма работала по новому стандарту. Через двадцать — стандарт стал глобальным; ICH (1990) сделал его международным. Через шестьдесят — препарат без полной phase 1/2/3-документации просто не продаётся. Это и есть траектория структурного сдвига measurement-режима. Бёрнем, Bezzam, ARC и Zvi на одной неделе — это аналог тех, кто в начале 1960-х замечал, что одной LD50 для оценки лекарств уже недостаточно.

Что меняется для рынка ИИ-моделей. До 2026-го продуктовая риторика релиза держалась на одной шкале: лучший score на главном бенчмарке, плюс несколько уточнений о латентности и цене. С 2026-го — релиз становится полноценным дoссье. Минимум восемь измерений идут в публичную part: классические capability-бенчмарки (для исторической сопоставимости), agentic long-horizon, multimodal coverage, alignment red-team-результаты, profile безопасности (что модель отказывается делать), затраты на inference, retention и стабильность через дообучение, post-deployment monitoring. Половина этих шкал — новые; вторая половина — старые, но переосмысленные. Покупатель в 2026-м должен начать читать model card как clinical trial summary, а не как один номер в таблице.

Для HuggingFace-Bezzam-проблемы добавляется ещё один параметр — private hold-out как стандарт. Goodhart’s Law не отменим: что измеряем — то и оптимизируем. Решение — не убирать измерения, а делать их частично закрытыми. Через 6–12 месяцев это станет ожиданием в любом серьёзном leaderboard. Через 24 — публикация без private hold-out начнёт читаться как несерьёзная.

Для ARC-уровня параметр другой — mechanistic. Это альтернатива end-to-end-метрикам: вместо «насколько модель отвечает правильно» проверяется, что её внутренние активации выглядят разумно для соответствующих задач. Эта линия пока в research-фазе, но через 18–24 месяца появятся корпоративные red-team-сервисы, которые делают mechanistic-аудит фронтирных моделей — точно так же, как сейчас существуют SOC-аудиторы для компаний. Возможно, я ошибаюсь, но индустрия mechanistic-проверки выглядит как одна из самых дорогих сделок 2027–2028-х.

Российский фронтир сидит в этой картине на специфическом месте. Сбер, Яндекс, MTS AI, MTS Web Services сейчас публикуют технические отчёты и benchmark scores в формате 2024-го: одна-две метрики, без detailed model card, без private hold-out, без alignment red-team. У этого есть институциональная причина — российская публичная отчётность по моделям не требует ничего из перечисленного, и российский корпоративный покупатель пока не научился читать model card как clinical trial summary. Но окно очень короткое: к концу 2026-го международные клиенты, на которых ориентируется любой российский экспортный AI-проект, начнут требовать full model card как условие due diligence. Лаборатория, которая первой опубликует системную model card по американским/европейским стандартам, получит экспортное преимущество на 12–18 месяцев. Это не идеологический выбор; это арифметика международных контрактов.

И отдельная нота про экономику. Multi-endpoint измерения дороже одного числа. Phase 1/2/3 в фарме стоит сегодня сотни миллионов долларов; полный stack AI-evaluation в 2027-м — десятки миллионов долларов на модель. Это меняет порог входа: лаборатории второго ряда (Mistral, Cohere, Stepfun, Z.ai, российские) либо платят за полный stack, либо публикуют облегчённые версии и отказываются от части корпоративного рынка. Через 18 месяцев появится отдельная индустрия independent evaluation labs — METR, Apollo Research, Redwood Research уже занимают эти позиции; добавятся коммерческие игроки уровня PwC-аудитор моделей. Это новый сегмент, которого сегодня нет.

P.S. Бёрнем заканчивает свой материал примечанием, которое стоит держать в голове: «Reasoning benchmarks aren’t dead yet». Классические scoring-метрики не исчезают — они становятся частью большего набора. Это важно для российского контекста: не нужно сразу отказываться от MMLU/GPQA в собственных отчётах. Нужно достроить вокруг них альтернативные измерения. Через два года российская лаборатория, которая публикует одновременно классический benchmark score и собственную version system card с long-horizon-результатами и alignment-проверками, будет выглядеть как фронтирный игрок. Та, что публикует только классический score — как лаборатория-2024. Шкала измерений сменилась тихо, и это самый структурный сдвиг недели.

Дальше по теме Белый дом включил режим предварительного одобрения. ИИ-фронтир входит в эпоху лицензии на релиз

Microsoft, Google и xAI 5 мая дали государству право тестировать свои модели до релиза — присоединились к Anthropic и OpenAI, у которых аналогичные соглашения с 2024 года. На той же неделе Белый дом приказал Anthropic не расширять доступ к Claude Mythos в рамках Project Glasswing. Это уже не «только информация», это рычаг — через федеральные контракты и угрозу repurposing. Структурный сдвиг США в сторону модели, которую Россия и Китай выстраивают через сертификацию.