system card
Материалы SCQR, упоминающие тему «system card» — короткие сигналы, разборы и колонки в одной подборке.
Бенчмарк перестал быть одним числом. Эпоха насыщения reasoning-метрик закрылась за апрель 2026-го
Грег Бёрнем (Epoch AI) призывает «отказаться хотя бы от одного из четырёх свойств классического бенчмарка»: text-only, short time horizon, easy to grade, expert human superiority. Eric Bezzam с командой HuggingFace вводит private hold-out от Appen и DataoceanAI как защиту от benchmaxxing. ARC Research поднимает уровень дискуссии до mechanistic-evaluation. Zvi Mowshowitz фиксирует, что system card к GPT-5.5 продаёт ограничения, не достижения. Это четыре независимых сигнала одного и того же сдвига — рынок измерения AI-моделей перестраивается на multi-endpoint.
Рынок начал продавать ограничения. «Слишком опасно для релиза» стало нормой фронтира
GPT-Rosalind, Claude Mythos и другие сильнейшие модели уходят за дверь — лаборатории ограничивают доступ из-за рисков двойного назначения в биологии и кибербезопасности. Институциональный язык safety, о котором мы писали в марте, превращается в обязательную часть продукта. Происходит то же, что в 1962-м с фармацевтикой: реклама силы препарата уступает место раскрытию противопоказаний.