11 мая Бен Томпсон выпустил на Stratechery материал «The Inference Shift» — самостоятельный, ровно тогда, когда нужен. После «Amazon’s Durability» 5 мая, на который мы отвечали 6-го, Томпсон делает следующий логический шаг и описывает, как именно перестроится compute-инфраструктура под inference в ближайшие 18 месяцев. Тезис простой и резко-операциональный: AI-вычисления разделятся на три категории, каждая с собственной экономикой и собственным железом.
Категория первая — training. Самая капиталоёмкая, самая близкая к фронтиру, оплачивается из венчурных и облачных бюджетов фронтирных лабораторий. Здесь продолжается гонка за лучшим кремнием: NVIDIA H200/B100, собственные Trainium у Amazon, TPU у Google, Maia у Microsoft. На этой категории сейчас сосредоточена почти вся индустриальная дискуссия о compute — потому что training-релизы делают media-shum, а корпоративный покупатель пока тренировку моделей не делает. Категория важна, но по объёму нагрузок она будет меньше двух других к концу 2027-го.
Категория вторая — answer inference. Это то, что пользователь видит сегодня в ChatGPT и Claude: ввёл вопрос, ждёт ответ за секунду-две, latency решает. Здесь правит Cerebras и Groq с их специализированными inference-чипами. WSE-3 у Cerebras — 44 ГБ SRAM при 21 ПБ/с пропускной способности; для сравнения, NVIDIA H100 имеет 80 ГБ HBM при 3,35 ТБ/с — шестикратная разница в bandwidth при половине памяти. Это не fair comparison в общем смысле, но это правильное сравнение для answer inference. После апрельского IPO акция Cerebras поднялась с диапазона $115–125 до $150–160 — рынок голосует за специализацию. В этой категории NVIDIA сохраняет долю, но теряет монополию.
Категория третья — самая интересная и самая большая. Agentic inference — это то, что AWS открыл 7 мая с AgentCore Payments и OS-Level Actions: агенты выполняют длинные многошаговые задачи без человека в петле. Когда человека нет, latency перестаёт быть важной. Можно делать вычисления медленно, можно ждать секунды между шагами, можно использовать недорогую DRAM вместо высокоскоростной HBM. Главное здесь не speed, а память и стоимость. И это меняет архитектуру дата-центра.
Здесь Томпсон поворачивает аргумент в неожиданное место. Старое железо возвращается. Чипы поколения H100, A100, даже V100, которые сейчас уходят из training-flow на cutting-edge модели, могут быть очень эффективны для agentic inference. То же касается чипов вне американского экспортного контроля — китайских Huawei Ascend, российских Yandex YaTI, Эльбрусов в специализированных конфигурациях. Если для agentic нужен «good enough», а не «лучший», то рынок разделяется по совсем другим линиям, чем training.
И ещё один кусок аргумента — data centers вне Земли. Когда latency не важна, спутниковые data centers (которые Starcloud, Lonestar Lunar и подобные операторы строят с 2024-го) становятся практически осмысленными. Старое железо в космосе работает дольше — меньше тепла, меньше деградации, отсутствие земных incident’ов. Томпсон это упоминает не как фантастику, а как инвестиционный класс на 24–36 месяцев.
Параллель здесь работает не риторическая, а структурная. GPU в 2000-х прошёл ту же траекторию. До 2007-го GPU был инструментом графики; рисование пикселей и AI-вычисления — параллельные задачи, и обе требовали одинаковой архитектуры. NVIDIA не делала «GPU для AI»; она делала GPU, который оказался хорош для AI. Через 7 лет (около 2014-го) появились специализированные TPU — оттуда пошёл раскол на «общий GPU vs специализированный AI-чип». Сейчас тот же раскол происходит внутри AI-сегмента: один GPU был адекватен и для training, и для inference; теперь inference сам делится на answer и agentic, каждый со своим железом.
Что меняется для покупателя. Корпоративный заказчик в 2026-м планировал бюджет под «AI compute» одной строкой. С 2027-го бюджет начнёт делиться на три строки: расходы на training (если компания дообучает свои модели), на answer inference (для пользовательских интерфейсов), на agentic inference (для длинных задач — back-office автоматизация, code generation, search, аналитика). Каждая строка с разной экономикой: training — высокая фиксированная стоимость, answer — premium-цена за low latency, agentic — самая низкая удельная цена за токен. Покупатель, который не разделяет бюджет, переплачивает.
Для покупателей через посредников (российский корпоративный сегмент, GCC-каналы, казахстанский AWS) самое интересное — третья категория. Agentic inference допускает «good enough» железо, в том числе китайские чипы, которые проходят через посредников без жёсткого экспортного контроля. Если российский интегратор сейчас строит агентскую платформу для бэк-офис-сценариев — банковский compliance, документооборот, склады — он может строить её на удешевлённом железе и получать конкурентную удельную стоимость токена. Год назад это было нерационально — стоимость inference диктовалась training-сегментом. Сейчас агентский сегмент отделяется и открывает новый ценовой коридор.
NVIDIA это видит. На 6 мая компания запустила Dynamo — фреймворк, который разделяет компоненты inference между разными типами железа: prefill на одних чипах, decoding на других, KV-cache в DRAM. Это инструмент именно под раскол, который описывает Томпсон. NVIDIA не сопротивляется, она готовится; и тот, кто первым сделает на Dynamo рабочую агентскую платформу, получит ранний коммерческий преимущество. По нашей оценке, такие платформы появятся в Q3–Q4 2026-го — у NVIDIA, AWS, Microsoft.
P.S. Один любопытный момент, который Томпсон явно не делает, но который стоит держать в голове. Раскол inference меняет инвестиционную тезу для всего сегмента. До этой статьи аналитики оценивали AI-инфраструктуру как один рынок с одним leader’ом (NVIDIA). После — это три рынка, и leader на каждом разный. Cerebras и Groq получат премию по своему сегменту; AWS и Microsoft — premium за agentic-сегмент через свои собственные чипы (Trainium, Maia); NVIDIA сохранит доминирование в training. Через 12 месяцев валовый margin в AI-чип-индустрии перестанет коррелировать с долей рынка одним числом. Это меняет всё, что мы думаем про оценку AI-компаний в 2027-м.