ТЕМА

AI evaluation

Материалы SCQR, упоминающие тему «AI evaluation» — короткие сигналы, разборы и колонки в одной подборке.

1 материалов ← Архив
Редакционная обложка SCQR: одна цифра разламывается на восемь параметров; шкала вместо одной превращается в радар-диаграмму; внизу — лабораторный стол с пробирками.
Теории аналитика 5 мин 9 мая 2026 г.

Бенчмарк перестал быть одним числом. Эпоха насыщения reasoning-метрик закрылась за апрель 2026-го

Грег Бёрнем (Epoch AI) призывает «отказаться хотя бы от одного из четырёх свойств классического бенчмарка»: text-only, short time horizon, easy to grade, expert human superiority. Eric Bezzam с командой HuggingFace вводит private hold-out от Appen и DataoceanAI как защиту от benchmaxxing. ARC Research поднимает уровень дискуссии до mechanistic-evaluation. Zvi Mowshowitz фиксирует, что system card к GPT-5.5 продаёт ограничения, не достижения. Это четыре независимых сигнала одного и того же сдвига — рынок измерения AI-моделей перестраивается на multi-endpoint.

AI evaluationEpoch AIGreg BurnhamGraphWalks