Безопасность ИИ перестала складываться

Самый неприятный сигнал этой недели пришел не из одной лаборатории и даже не из одного инцидента. Он пришел из трех разных мест сразу. Формальная работа на arXiv показала, что два по отдельности безопасных агента могут в связке достичь запрещенной цели. Anthropic фактически признала, что создала модель, чьи кибервозможности считает слишком опасными для публичного выпуска. А в OpenAI безопасность и security уходят из прямого контура CEO как раз в момент, когда компания все явнее переходит в режим deployment и подготовки к публичным рынкам.

По отдельности это еще можно было бы назвать нюансами. Вместе это уже похоже на новую реальность. Безопасность ИИ перестает быть свойством конкретной модели и превращается в системную проблему всей архитектуры отрасли.

Ошибка не в одном продукте

Препринт Safety is Non-Compositional неприятен не потому, что рисует экзотический сценарий. Неприятен он потому, что бьет по базовой инженерной интуиции. Мы привыкли думать так: если каждый модуль проверен, то и система в целом хотя бы приблизительно контролируема. Но автор формально показывает иную вещь: при конъюнктивной зависимости способностей два агента, каждый из которых отдельно не может достигнуть запрещенной цели, в паре способны ее достичь.

Иными словами, сама логика сборки становится источником риска. Не отдельный баг, не забытый фильтр, не неудачный промпт. Если это верно, а опровержения пока нет, то привычная индустриальная формула “добавим guardrails на каждом слое” перестает работать как достаточный ответ.

Это важнее, чем может показаться. Рынок идет не к одному всемогущему агенту, а к многоагентным связкам, протоколам, маршрутизаторам, оркестраторам, внешним инструментам и автономным контурам исполнения. То есть именно туда, где некомпозиционность безопасности должна проявляться сильнее, а не слабее.

Anthropic показала предел честного оптимизма

История с Claude Mythos в этом смысле важна не как утечка, а как признание масштаба. Из опубликованных из-за ошибки CMS материалов следует, что внутри Anthropic модель рассматривается как беспрецедентный киберриск и именно поэтому не готовится к публичному релизу. Даже если часть утекших формулировок стоит читать с осторожностью, главный вывод остается: frontier-лаборатория публично столкнулась с моделью, которую боится выпускать.

Здесь стоит признать неприятную вещь. Отрасль может раньше получить системы, которые заметно лучше ищут уязвимости, комбинируют эксплойты и обходят защиту, чем системы, способные столь же надежно строить безопасную инфраструктуру вокруг себя. Это не доказанный универсальный закон. Но это уже правдоподобный риск-контур, а не философская страшилка.

Если такая асимметрия действительно начинает формироваться, то уязвимой становится не одна лаборатория. Уязвимым становится сам интернет как среда, где защитный цикл традиционно медленнее атакующего.

Что на этом фоне делает OpenAI

Именно поэтому перестройка OpenAI нельзя считать рядовой оргсхемой без последствий. Сам по себе перенос safety и security из прямого подчинения Сэма Альтмана еще не доказывает, что компания “отказалась” от безопасности. У OpenAI по-прежнему есть собственные документы, где она декларирует приверженность safety framework и праву задерживать релизы. Но в марте 2026 года важен уже не один документ, а траектория.

Эта траектория выглядит так: в феврале распущена Mission Alignment team; ранее был распущен superalignment-контур; из миссионной формулировки компании исчезло слово safely; теперь надзор за safety и security перераспределяется внутрь research и scaling-организаций, а product-org получает новое имя — A.G.I. Deployment. На языке корпоративного управления это не прямое признание вторичности безопасности, но очень сильный косвенный сигнал: restraint все хуже конкурирует с темпом развёртывания.

И это, пожалуй, самое тревожное. Не потому, что OpenAI уникальна. Наоборот. Потому что она, возможно, просто честнее других показывает главный перекос эпохи: капитал, compute и рынок требуют ускорения, а управляемость системы уходит назад.

Мы уже входим в опасный режим

В таких условиях больше не работает успокаивающая мысль, что проблему можно решить локально: чуть усилить red teaming, улучшить фильтры, добавить еще одну policy-команду. Эти меры нужны. Но они отвечают на старую картину риска, в которой опасность возникает как отклонение. Сейчас вырисовывается другая картина: опасность становится нормальным побочным продуктом самой модели развития.

Индустрия строит системы, чья экономическая ценность растет вместе с ростом автономии, скорости и способности вмешиваться во внешний мир. Но именно эти качества увеличивают стоимость ошибки. Если безопасность не складывается из безопасных частей, если модель может оказаться слишком опасной для релиза уже сегодня, а институциональные центры принятия решений все сильнее подчиняются логике deployment, то проблема уже не в плохом поведении отдельных компаний. Проблема в том, что у нас пока нет внятного ответа, как вообще управлять этим типом мощности.

Мы привыкли бояться момента, когда ИИ станет сильнее человека. Возможно, куда ближе другой порог: момент, когда скорость его развертывания станет выше нашей способности удерживать систему в понятных пределах.

Темы

AI safetyAnthropicOpenAIagentscybersecurity

Основание публикации

Основано на мартовских публикациях о Claude Mythos, перестройке safety-контуров OpenAI и препринте о некомпозиционности безопасности в агентных системах.