ТЕМА

system card

Материалы SCQR, упоминающие тему «system card» — короткие сигналы, разборы и колонки в одной подборке.

2 материалов ← Архив
Редакционная обложка SCQR: одна цифра разламывается на восемь параметров; шкала вместо одной превращается в радар-диаграмму; внизу — лабораторный стол с пробирками.
Теории аналитика 5 мин 9 мая 2026 г.

Бенчмарк перестал быть одним числом. Эпоха насыщения reasoning-метрик закрылась за апрель 2026-го

Грег Бёрнем (Epoch AI) призывает «отказаться хотя бы от одного из четырёх свойств классического бенчмарка»: text-only, short time horizon, easy to grade, expert human superiority. Eric Bezzam с командой HuggingFace вводит private hold-out от Appen и DataoceanAI как защиту от benchmaxxing. ARC Research поднимает уровень дискуссии до mechanistic-evaluation. Zvi Mowshowitz фиксирует, что system card к GPT-5.5 продаёт ограничения, не достижения. Это четыре независимых сигнала одного и того же сдвига — рынок измерения AI-моделей перестраивается на multi-endpoint.

AI evaluationEpoch AIGreg BurnhamGraphWalks
Редакционная обложка SCQR: на витрине лаборатории слева — список того, что модель умеет, справа — отдельный детализированный список того, что она не делает; правая витрина больше.
Регуляторика колонка 3 мин 1 мая 2026 г.

Рынок начал продавать ограничения. «Слишком опасно для релиза» стало нормой фронтира

GPT-Rosalind, Claude Mythos и другие сильнейшие модели уходят за дверь — лаборатории ограничивают доступ из-за рисков двойного назначения в биологии и кибербезопасности. Институциональный язык safety, о котором мы писали в марте, превращается в обязательную часть продукта. Происходит то же, что в 1962-м с фармацевтикой: реклама силы препарата уступает место раскрытию противопоказаний.

AI safetysystem cardCSETOpenAI