ТЕМА

AI safety

Материалы SCQR, упоминающие тему «AI safety» — короткие сигналы, разборы и колонки в одной подборке.

3 материалов ← Архив
Редакционная обложка SCQR: на витрине лаборатории слева — список того, что модель умеет, справа — отдельный детализированный список того, что она не делает; правая витрина больше.
Регуляторика колонка 3 мин 1 мая 2026 г.

Рынок начал продавать ограничения. «Слишком опасно для релиза» стало нормой фронтира

GPT-Rosalind, Claude Mythos и другие сильнейшие модели уходят за дверь — лаборатории ограничивают доступ из-за рисков двойного назначения в биологии и кибербезопасности. Институциональный язык safety, о котором мы писали в марте, превращается в обязательную часть продукта. Происходит то же, что в 1962-м с фармацевтикой: реклама силы препарата уступает место раскрытию противопоказаний.

AI safetysystem cardCSETOpenAI
Редакционная обложка SCQR к материалу «Безопасность ИИ перестала складываться».
Иллюзии аналитика 4 мин 27 марта 2026 г.

Безопасность ИИ перестала складываться

Самый неприятный сигнал этой недели пришел не из одной лаборатории и даже не из одного инцидента. Он пришел из трех разных мест сразу. Формальная работа на arXiv показала, что два по отдельности безопасных агента могут в связке достичь запрещенной цели. Anthropic фактически признала, что создала модель, чьи кибервозможности считает слишком опасными для публичного выпуска. А в OpenAI безопасность и security уходят из прямого контура CEO как раз в момент, когда компания все явнее переходит в режим deployment и подготовки к публичным рынкам.

AI safetyAnthropicOpenAIagents
Редакционная обложка SCQR к материалу «ИИ, который хочет быть выключенным».
Теории колонка 2 мин 7 марта 2026 г.

ИИ, который хочет быть выключенным

Одна из самых странных и потому самых цепляющих идей марта звучит почти как парадокс: а что, если делать безопасный ИИ не таким, который сопротивляется отключению, а таким, для которого быть выключенным — желаемое состояние? Именно эту линию обсуждает paper *Shutdown Safety Valves for Advanced AI*.

shutdown safetyAI safetyself-improvementagents