agentic inference
Материалы SCQR, упоминающие тему «agentic inference» — короткие сигналы, разборы и колонки в одной подборке.
1 материалов ← Архив
Inference расколется на три. Бен Томпсон фиксирует следующую развилку compute-инфраструктуры
WSE-3 у Cerebras: 44 ГБ SRAM при 21 ПБ/с — против 80 ГБ HBM у H100 при 3,35 ТБ/с. Шестикратная разница в пропускной способности при половине памяти. После IPO акция Cerebras улетела с диапазона $115–125 до $150–160. Nvidia запускает Dynamo-фреймворк, который сам разделяет компоненты inference. Старое железо возвращается в orbit — Томпсон конкретно описывает, почему space data centers становятся пригодными именно сейчас. Это не «GPU больше не нужен» — это «GPU становится одним из трёх компонентов в трёх разных режимах».
StratecheryBen Thompsoninferenceagentic inference