Силвер ставит миллиард на конец data-hungry эпохи. Что значит self-play на масштабе фронтира

Дэвид Силвер из DeepMind — один из авторов AlphaGo и AlphaZero, человек, который в 2017 году научил машину играть в Go и шахматы лучше всех в мире, не показав ей ни одной человеческой партии — основал собственную лабораторию Ineffable Intelligence. За четыре месяца после основания она подняла $1.1 миллиарда при оценке $5.1 миллиарда. Ни одного публичного результата, ни одной демки, ни одной модели на бенчмарках — только тезис основателя. Тезис простой: следующий рубеж — это модели, которые учатся без человеческих данных вообще. Через симуляцию и self-play.

Контекст важнее раунда. Дискуссия о грядущем потолке текстовых данных в интернете идёт уже два года. Epoch AI оценивает, что весь корпус качественного открытого текста, который имеет смысл скармливать фронтирной модели, исчерпывается между 2026 и 2028 годом. Дальше масштабирование за счёт объёма данных просто перестанет работать: в интернете нет ещё одного интернета. Лаборатории до этого момента жили в формуле «модель тем сильнее, чем больше данных она видела» — и эта формула в конце десятилетия ломается. Силвер делает ставку на то, что у модели может быть другой источник опыта: симуляция, в которой модель порождает данные сама и сама же на них учится.

У этой ставки есть прямой исторический прецедент в собственной биографии Силвера. AlphaZero, 2017 год. Алгоритм получил только правила шахмат — без единой партии гроссмейстеров, без библиотеки дебютов, без позиционных оценок. За девять часов self-play он научился играть на уровне, недостижимом для Stockfish, который в тот момент был сильнейшей шахматной программой в мире и обучался десятилетиями на человеческих партиях. Похожее повторилось с Go и с японскими сёги. Тезис Силвера, сжатый в название его академической работы — «Reward Is Enough»: для обучения интеллектуальной системы достаточно среды и сигнала вознаграждения; человеческие данные — удобный костыль для бутстрапа, не фундаментальная необходимость.

В шахматах это сработало. В языке — пока нет. Главная сложность: для шахмат среда хорошо определена (правила, состояние доски, конечный результат партии); для языка среда плохо определена (что считать «правильным ответом» на философский вопрос?). Силвер планирует решить это через композицию задач, у которых есть проверяемый внешний сигнал: математические доказательства, программный код с тестами, формальная логика, симулированные среды управления. То есть начать с языка не как такового, а с тех его сегментов, где «победа» формально определима. Дальше — расширять домен.

Что значат $5.1 миллиарда оценки за четыре месяца? Это венчур, который проголосовал не за результат, а за траекторию. Похожие ставки уже были: Inflection AI в 2023 году тоже подняли миллиарды до публичной модели; SSI Илья Суцкевер в 2024-м поднял $5 миллиардов при оценке $30 миллиардов на формулировке «safe superintelligence», без единой демки. Часть этих ставок не выйдет в продукт; часть — выйдет и определит парадигму. Венчурный рынок ИИ перешёл от «инвестируем в работающую модель» к «инвестируем в гипотезу о следующей парадигме». Силвер с биографией AlphaZero — одна из самых дорогих гипотез на рынке.

Что это значит для рынка ближе. В горизонте 12 месяцев — мало что: лаборатория только что собрана, инфраструктура строится. В горизонте 24–36 месяцев это либо новый класс моделей с отсутствующим потолком масштабирования, либо тихий поворот к более скромным результатам. Если первое — рынок ИИ перестроится снова, и масштабирование снова станет вопросом вычислений, не данных. Если второе — это обозначит границу применимости подхода Силвера к языку и закроет одну из открытых на сегодня гипотез. В любом случае, $1.1 миллиарда даёт лаборатории горизонт работы 5–7 лет — этого достаточно, чтобы либо доказать тезис, либо честно похоронить.

Российский ИИ-фронтир пока работает в data-hungry парадигме: Сбер, Яндекс, MTS AI наращивают корпуса, ищут новые источники данных, переводят и фильтруют. Это правильная стратегия для текущей фазы — копить fuel, пока он ещё есть. Но стоит держать в голове, что через 24–36 месяцев топливо может стать неважным. Серьёзная работа по self-play и симуляционному обучению — это не про сегодня, но про закладку, которая через два года начнёт выглядеть как стратегическое решение.

P.S. Есть ещё одно следствие, которое мало проговаривается. Если Силвер прав, парадигма «данные — конкурентное преимущество» закончится. Сейчас крупный игрок инвестирует в эксклюзивные контракты с издателями, в digitization архивов, в private dataset partnerships. После self-play-эпохи всё это станет лишним. Ренту начнёт собирать тот, у кого больше вычислений и точнее симуляторы. Это резко перераспределит позиции на рынке: компании с уникальным data-asset (Reddit, Stack Overflow, медийные группы, академические издательства) могут оказаться в позиции, в которой оказались газеты после интернета. Стоит закладку поставить и сюда тоже.