AI safety
Материалы SCQR, упоминающие тему «AI safety» — короткие сигналы, разборы и колонки в одной подборке.
Рынок начал продавать ограничения. «Слишком опасно для релиза» стало нормой фронтира
GPT-Rosalind, Claude Mythos и другие сильнейшие модели уходят за дверь — лаборатории ограничивают доступ из-за рисков двойного назначения в биологии и кибербезопасности. Институциональный язык safety, о котором мы писали в марте, превращается в обязательную часть продукта. Происходит то же, что в 1962-м с фармацевтикой: реклама силы препарата уступает место раскрытию противопоказаний.
Безопасность ИИ перестала складываться
Самый неприятный сигнал этой недели пришел не из одной лаборатории и даже не из одного инцидента. Он пришел из трех разных мест сразу. Формальная работа на arXiv показала, что два по отдельности безопасных агента могут в связке достичь запрещенной цели. Anthropic фактически признала, что создала модель, чьи кибервозможности считает слишком опасными для публичного выпуска. А в OpenAI безопасность и security уходят из прямого контура CEO как раз в момент, когда компания все явнее переходит в режим deployment и подготовки к публичным рынкам.
ИИ, который хочет быть выключенным
Одна из самых странных и потому самых цепляющих идей марта звучит почти как парадокс: а что, если делать безопасный ИИ не таким, который сопротивляется отключению, а таким, для которого быть выключенным — желаемое состояние? Именно эту линию обсуждает paper *Shutdown Safety Valves for Advanced AI*.