Современные ускорители всё чаще упираются не в математику, а в перемещение данных. Время и энергия уходят не только на сами операции, но и на подачу весов и активаций между памятью и вычислительными ядрами. Разрыв фон Неймана никуда не исчез, он просто вырос до масштаба, где его уже считают мегаваттами.
Именно поэтому две линии развития всё сильнее идут навстречу друг другу. С одной стороны, вычислитель притягивает к себе всё больше памяти: стеки HBM растут, а новые поколения вроде HBM4 поднимают пропускную способность и физически придвигают память к ядрам. С другой стороны, память сама начинает брать на себя часть логики: processing-in-memory выносит операции туда, где данные лежат, чтобы сократить самый дорогой участок пути.
По смыслу это один и тот же маршрут. Рынок движется к стеку, в котором память и вычисление перестают быть двумя разными мирами. Самый радикальный пример здесь даёт Cerebras: гигантский wafer-scale кристалл, сотни тысяч ядер и память, встроенная прямо в вычислительное поле. По инженерной интуиции такая архитектура должна выигрывать за счёт меньших задержек и меньшей цены трафика.
Но в 2026 году реальный рынок пока голосует иначе. NVIDIA по-прежнему остаётся стандартом для обучения передовых моделей, и это уже трудно объяснить одной только физикой железа. Побеждает не столько более красивая архитектура, сколько инфраструктура вокруг неё.
За пятнадцать лет вокруг NVIDIA сложился почти непробиваемый программный слой: CUDA, библиотеки, компиляторы, среды обучения и целая армия инженеров, которые умеют всё это обслуживать. Чтобы альтернативная архитектура действительно сдвинула рынок, ей мало быть рациональнее на бумаге. Она должна стать дешевле для всей индустрии сразу: для обучения, эксплуатации, найма и миграции.
Именно здесь память с логикой остаются самой недооценённой ставкой. Это почти наверняка то направление, в котором должна идти физика прогресса. Но окно для большого перелома откроется не в момент очередного эффектного релиза, а тогда, когда экономика обучения крупных моделей станет настолько тяжёлой, что переписать стек окажется выгоднее, чем продолжать платить за движение данных внутри привычной экосистемы.