5 мая 2026-го Грег Бёрнем выпустил в Epoch AI Substack материал «RIP Classic Reasoning Benchmarks». Тон — почти панегирик: классические текстовые reasoning-бенчмарки исчерпаны. GPQA, по словам автора, «clearly saturated». На GraphWalks Claude Mythos дотащился до 80% — год назад там было меньше 40%. И главный методологический вывод формулируется одной строкой: «Just relax one of the elements: text only, easy to grade, short time horizon, and expert human superiority». Чтобы делать осмысленный новый бенчмарк в 2026-м, нужно отказаться хотя бы от одного из четырёх классических свойств.
Через сутки в HuggingFace Blog вышел материал команды Eric Bezzam про Open ASR Leaderboard. Там та же мысль с другой стороны — добавлен «benchmaxxer repellant»: private hold-out, на который leaderboard смотрит, но не возвращает в open dataset. Партнёры — Appen и DataoceanAI — обязуются не отдавать те же данные клиентам как обучающую выборку. Эпиграф материала — закон Гудхарта: «When a measure becomes a target, it ceases to be a good measure». Это уже не панегирик, а инженерная защита от паттерна, который видели много раз.
7 мая ARC Research / alignment.org — формально alignment-исследование, но с тем же подспудным посылом: оценивать модели нужно не одной цифрой и не end-to-end-проверкой, а через mechanistic estimation — анализ внутренних активаций и трасс. Это уровень, на который большинство публичных бенчмарков пока не зашло. И параллельно Zvi Mowshowitz в своём разборе system card к GPT-5.5 фиксирует: ограничений в карточке стало больше, чем заявленных способностей. О маркетинге ограничений мы писали 1 мая (см. наш материал «Рынок начал продавать ограничения»). Сейчас стоит дописать вторую главу: маркетинг ограничений происходит на новом уровне измерений.
Четыре независимых сигнала на одной неделе — Epoch AI, HuggingFace, ARC, Zvi — складываются в одну линию. Рынок AI evaluation вышел за пределы одного числа. Эра, в которой модель приходила с одной строкой пресс-релиза «MMLU 88.7% — SOTA», закрылась. Дальше — multi-endpoint: long-horizon agentic reliability, alignment-checks, anti-benchmaxxing, multimodal coverage, system card disclosures. Сразу несколько шкал, и ни одна не доминирует.
Параллель здесь не риторическая, а структурная. 10 октября 1962 года президент Кеннеди подписал Kefauver-Harris Amendment к закону о пище и лекарствах. До этого FDA одобряла препарат на основании одного критерия — безопасности. Эффективность доказывать не требовалось; реклама силы препарата была свободной; LD50 (доза, при которой умирает половина животных) был основной метрикой. После талидомидной катастрофы — поправка ввела другую модель: новый препарат должен пройти «adequate and well-controlled investigations», эффективность доказывается, а не декларируется, появляется фазовая структура клинических испытаний (phase 1, 2, 3), informed consent, отчётность по нежелательным реакциям. Старые препараты, одобренные до 1962-го, прошли через Drug Efficacy Study Implementation — переоценку. Реклама силы превратилась в раскрытие профиля безопасности.
Через десять лет фарма работала по новому стандарту. Через двадцать — стандарт стал глобальным; ICH (1990) сделал его международным. Через шестьдесят — препарат без полной phase 1/2/3-документации просто не продаётся. Это и есть траектория структурного сдвига measurement-режима. Бёрнем, Bezzam, ARC и Zvi на одной неделе — это аналог тех, кто в начале 1960-х замечал, что одной LD50 для оценки лекарств уже недостаточно.
Что меняется для рынка ИИ-моделей. До 2026-го продуктовая риторика релиза держалась на одной шкале: лучший score на главном бенчмарке, плюс несколько уточнений о латентности и цене. С 2026-го — релиз становится полноценным дoссье. Минимум восемь измерений идут в публичную part: классические capability-бенчмарки (для исторической сопоставимости), agentic long-horizon, multimodal coverage, alignment red-team-результаты, profile безопасности (что модель отказывается делать), затраты на inference, retention и стабильность через дообучение, post-deployment monitoring. Половина этих шкал — новые; вторая половина — старые, но переосмысленные. Покупатель в 2026-м должен начать читать model card как clinical trial summary, а не как один номер в таблице.
Для HuggingFace-Bezzam-проблемы добавляется ещё один параметр — private hold-out как стандарт. Goodhart’s Law не отменим: что измеряем — то и оптимизируем. Решение — не убирать измерения, а делать их частично закрытыми. Через 6–12 месяцев это станет ожиданием в любом серьёзном leaderboard. Через 24 — публикация без private hold-out начнёт читаться как несерьёзная.
Для ARC-уровня параметр другой — mechanistic. Это альтернатива end-to-end-метрикам: вместо «насколько модель отвечает правильно» проверяется, что её внутренние активации выглядят разумно для соответствующих задач. Эта линия пока в research-фазе, но через 18–24 месяца появятся корпоративные red-team-сервисы, которые делают mechanistic-аудит фронтирных моделей — точно так же, как сейчас существуют SOC-аудиторы для компаний. Возможно, я ошибаюсь, но индустрия mechanistic-проверки выглядит как одна из самых дорогих сделок 2027–2028-х.
Российский фронтир сидит в этой картине на специфическом месте. Сбер, Яндекс, MTS AI, MTS Web Services сейчас публикуют технические отчёты и benchmark scores в формате 2024-го: одна-две метрики, без detailed model card, без private hold-out, без alignment red-team. У этого есть институциональная причина — российская публичная отчётность по моделям не требует ничего из перечисленного, и российский корпоративный покупатель пока не научился читать model card как clinical trial summary. Но окно очень короткое: к концу 2026-го международные клиенты, на которых ориентируется любой российский экспортный AI-проект, начнут требовать full model card как условие due diligence. Лаборатория, которая первой опубликует системную model card по американским/европейским стандартам, получит экспортное преимущество на 12–18 месяцев. Это не идеологический выбор; это арифметика международных контрактов.
И отдельная нота про экономику. Multi-endpoint измерения дороже одного числа. Phase 1/2/3 в фарме стоит сегодня сотни миллионов долларов; полный stack AI-evaluation в 2027-м — десятки миллионов долларов на модель. Это меняет порог входа: лаборатории второго ряда (Mistral, Cohere, Stepfun, Z.ai, российские) либо платят за полный stack, либо публикуют облегчённые версии и отказываются от части корпоративного рынка. Через 18 месяцев появится отдельная индустрия independent evaluation labs — METR, Apollo Research, Redwood Research уже занимают эти позиции; добавятся коммерческие игроки уровня PwC-аудитор моделей. Это новый сегмент, которого сегодня нет.
P.S. Бёрнем заканчивает свой материал примечанием, которое стоит держать в голове: «Reasoning benchmarks aren’t dead yet». Классические scoring-метрики не исчезают — они становятся частью большего набора. Это важно для российского контекста: не нужно сразу отказываться от MMLU/GPQA в собственных отчётах. Нужно достроить вокруг них альтернативные измерения. Через два года российская лаборатория, которая публикует одновременно классический benchmark score и собственную version system card с long-horizon-результатами и alignment-проверками, будет выглядеть как фронтирный игрок. Та, что публикует только классический score — как лаборатория-2024. Шкала измерений сменилась тихо, и это самый структурный сдвиг недели.