inference
Материалы SCQR, упоминающие тему «inference» — короткие сигналы, разборы и колонки в одной подборке.
Inference расколется на три. Бен Томпсон фиксирует следующую развилку compute-инфраструктуры
WSE-3 у Cerebras: 44 ГБ SRAM при 21 ПБ/с — против 80 ГБ HBM у H100 при 3,35 ТБ/с. Шестикратная разница в пропускной способности при половине памяти. После IPO акция Cerebras улетела с диапазона $115–125 до $150–160. Nvidia запускает Dynamo-фреймворк, который сам разделяет компоненты inference. Старое железо возвращается в orbit — Томпсон конкретно описывает, почему space data centers становятся пригодными именно сейчас. Это не «GPU больше не нужен» — это «GPU становится одним из трёх компонентов в трёх разных режимах».
Amazon выигрывает не там, где все смотрели. Эра inference переписывает рейтинг облаков
Amazon купил Annapurna Labs в 2015-м, выпустил первый собственный AI-чип в 2019-м, и десять лет это выглядело как боковой проект на фоне NVIDIA. В 2026-м Trainium 3 пошёл в продукт, у Anthropic по-прежнему AWS как опорный облачный партнёр, на той же неделе Bedrock получил OpenAI с дня-ноль. Структурное преимущество, в которое долго инвестировали, начинает работать — ровно как однажды это сделал сам AWS.