Amazon выигрывает не там, где все смотрели. Эра inference переписывает рейтинг облаков

Бен Томпсон в Stratechery 5 мая выпустил материал «Amazon’s Durability» — продолжение разговора, который он ведёт с прошлого года, и вместе с тем точная фиксация момента. Тезис простой: Amazon в эру training выглядел отстающим, потому что NVIDIA, Microsoft и OpenAI взяли первую волну, а в эру inference он оказывается структурно выгодно расположен. Это происходит благодаря решениям, принятым задолго до того, как ChatGPT стал предметом сетки новостей. Annapurna Labs — куплена в 2015-м, первый собственный AI-чип Amazon выпущен в 2019-м, серия Inferentia и потом Trainium шла без шума. Сейчас Trainium 3 — по оценке Томпсона, «прилично, и кривая ведёт ещё лучше». А значит то, что десять лет лежало в фундаменте AWS, начинает превращаться в продукт.

Здесь стоит уточнить, почему рейтинг облаков в 2025-м воспринимался иначе. В training-эре главным был доступ к лучшим GPU NVIDIA. По SemiAnalysis-оценке, которую Томпсон приводит, NVIDIA в этом распределении приоритетировала Microsoft и Google — у них меньше собственных чипных программ, поэтому им можно отдавать кремний без риска, что они уйдут на свои альтернативы. Amazon же, имея Trainium, выглядел для NVIDIA менее выгодным клиентом — зачем продавать кому-то, кто всё равно постарается съехать на собственное железо как только сможет. Эта логика дала Microsoft и Google структурное преимущество в первой волне ИИ-моделей. Но эта волна была про обучение. Inference устроена иначе.

Inference-эра меняет почти всё в экономике моделей. Памяти на сервер нужно меньше — параметры модели можно держать на одном узле; CPU становится важнее, потому что агентные задачи требуют управления, оркестрации и плечом-к-плечу с приложениями работающего софта; общая пропускная способность важнее, чем пиковая мощность. Всё это — родная среда AWS, который десять лет инвестирует в disaggregated compute, в Graviton-архитектуру, в собственные сети, в физические дата-центры с гигаваттами мощности. И всё это — ровно те части стека, на которых Microsoft и Google вынуждены догонять, потому что они стартовали с другого конца — с приложений и моделей, а не с фундамента.

Amazon собирает у себя ещё одно скрытое преимущество — портфель фронтирных лабораторий. Anthropic с самого начала использовал AWS как опорное облако (Google как второе); инвестиции Amazon и Google в Anthropic — гигантские, конкретные суммы Томпсон не называет, но Дженсен Хуанг публично говорил, что «никакой VC не вложит $5–10 миллиардов» — поэтому облачные гиганты и сделали это сами. С 28 апреля у AWS появился ещё один игрок фронтира — OpenAI на Bedrock с дня-ноль доступом. Об этом мы писали неделю назад в материале «OpenAI выходит из эксклюзива Microsoft»: тогда мы зафиксировали смену моноэксклюзива на двухвендорную модель. Теперь Томпсон даёт более жёсткий вывод — двухвендорная модель не значит «ничья». Она значит, что в inference-эре все фронтирные лаборатории США теперь доступны на AWS, а не только на Azure.

Параллель Томпсона предельно ясная: «Amazon, как первый и лучший клиент логистической сети» — фраза из его собственной статьи 2016 года про то, как AWS превратился из внутреннего инструмента в продукт. Та же логика повторяется на следующем этаже: Trainium сначала использовался Amazon-ом для собственных нужд (в RDS, в SageMaker), потом начал предлагаться клиентам как часть Bedrock. Клиенты не выбирают «Trainium или GPU» — они говорят с Bedrock-API, а под капотом Bedrock сам распределяет нагрузку по доступному железу. Слова CEO AWS Мэтта Гармана точные: «Подавляющее большинство клиентов с GPU не работают, они работают с интерфейсом». Это и есть признак того, что преимущество структурное — оно работает, потому что клиент его не видит. То же самое было с AWS в первые годы.

Российский корпоративный покупатель, как и неделю назад, сидит в этой картине через посредников. AWS Bedrock напрямую недоступен российским юрлицам с 2022-го; всё движется через GCC-партнёров, казахстанские корпоративные каналы, проксированный доступ. Тем не менее с расширением каталога моделей на AWS — Anthropic, OpenAI, Mistral, Cohere, Stability — российский корпоративный покупатель, выходящий через посредника на AWS, получает в 2026-м самый широкий выбор моделей под одним API. Конкурирующая Azure более узкая (OpenAI и Mistral), GCP быстро догоняет (Anthropic и Gemini, плюс открытые модели через Vertex), но AWS становится дефолтом для интеграторов, которым нужна максимальная гибкость. Это влияет на стратегию российских интеграторов на 2027 год: тот, кто умеет работать с Bedrock через посредников, оказывается в самой широкой коммерческой позиции.

P.S. Есть простое тестируемое предсказание, которое стоит зафиксировать. Если Томпсон прав, к концу 2026-го выручка AWS от inference-нагрузок должна обогнать выручку Microsoft Azure от ИИ-моделей в корпоративном сегменте. Это будет видно по квартальным отчётам Amazon (line «AI services» в AWS-разрезе) и Microsoft (line «AI Cloud Revenue» в commercial cloud). К Q3 2027-го разрыв должен либо проявиться, либо парадигма Томпсона окажется неверной. Это не вопрос вкуса; это вопрос экономики, которая видна в цифрах. Стоит ставить закладку на октябрь 2026-го и проверять.