Николо Боски опубликовал сообщение в апреле 2026 года, в котором утверждалось, что [10 миллионов токенов — единственный имеющий значение тест памяти](https://medium.com/@nicoloboschi/why-10-million-tokens-is-the-only-memory-benchmark-that-matters-c8c9fb7553d4). Его аргумент конкретен. Когда контекстные окна достигли 1 миллиона токенов, перебор контекста прошел существующие тесты памяти без какого-либо конвейера извлечения. Вы просто сбрасываете все в контекстное окно. Тесты тестировали размер контекстного окна, а не архитектуру памяти.

Это исправляет [тест BEAM](https://arxiv.org/abs/2504.01076). Он тестирует токены от 500 тыс. до 10 млн. В 10M ни одна серийная модель не имеет такого контекстного окна. Контекстное наполнение не может работать. Требуется реальная архитектура памяти.

Система Боски, [Hindsight](https://vectorize.io), набирает 64,1% на уровне 10M. Второе место (Хончо) набирает 40,6%. Стандартный базовый показатель RAG составляет 24,9%. Разрыв возникает из-за поиска с несколькими стратегиями: семантический поиск, сопоставление ключевых слов, обход графа и временная фильтрация, объединенные посредством взаимного слияния рангов. Добавьте предварительно вычисленные наблюдения и разрешение объектов по миллионам токенов, и составной эффект станет значительным.

Результаты поиска реальные. При выпуске токенов 10 млн вам нужна архитектура, а не большее контекстное окно. BEAM доказывает это.

Недавно я писал о том, [почему ни один тест памяти AI не тестирует то, что на самом деле ломается](/posts/no-ai-memory-benchmark-tests-what-actually-breaks): отраслевые тесты измеряют извлечение данных, но не целостность записи. BEAM — лучший эталон поиска, который я когда-либо видел. Он по-прежнему тестирует только один из двух режимов отказа. Он спрашивает, можете ли вы найти правильный факт. Он не спрашивает, верен ли найденный вами факт.

Этот пост о том, когда активируется каждый из режимов сбоя и почему ответ важен для того, что вы строите в первую очередь.

## Пороговый вопрос

BEAM спрашивает: в каком масштабе токенов архитектура памяти имеет значение для извлечения данных?

Ответ: 10 миллионов токенов.

Есть второй вопрос, который BEAM не задает: в каком масштабе целостность государства имеет значение для доверия?

Этот ответ другой. Целостность состояния ухудшается при использовании токенов от 500 тыс. до 2 млн. Примерно от одной пятой до одной десятой масштаба, в котором архитектура поиска становится критически важной.

## Четыре уровня

При количестве токенов от 100 000 до 500 000 (несколько дней интенсивного использования агента) извлечение осуществляется нормально. Его закрывает контекстное окно 1M. Никакой поисковой архитектуры не требуется. Но целостность государства уже деградирует. «Acme Corp», «ACME CORP» и «Acme Corporation» объединяются в отдельные предприятия. Исправления перезаписываются автоматически. Пользователи компенсируют вручную. Раздражающе, но управляемо.

При количестве токенов от 500 тыс. до 2 млн (несколько недель использования многофункционального агента) достигается стена целостности состояния. Варианты разрешения сущностей создают настоящую путаницу в сотнях ссылок. Дрейф состояния между сеансами означает, что исправления прошлой недели могут сохраниться, а могут и не сохраниться. Межинструментальная фрагментация означает, что один и тот же объект имеет разные представления в Claude, Cursor и ChatGPT. Память платформы несколько раз незаметно возвращала или перезаписывала состояние без какого-либо контрольного журнала. Именно здесь пользователи начинают создавать обходные пути: файлы SOUL.md, файлы Heartbeat JSON, CRM с уценкой. Стоимость компенсации превышает толерантность.

При объеме от 2 до 10 миллионов токенов (месяцев использования агента) обе проблемы усугубляются. Стандартный RAG возвращает фрагменты информации о трех разных «Алисах». Даже если при поиске найден нужный объект, вы не можете подтвердить, что это последняя версия. Была ли применена поправка от 15 марта? Какова цепочка происхождения? BEAM обращается к этому уровню для поиска. Никто не оценивает его с точки зрения государственной целостности.

При токенах размером 10 млн и более контекстная подстановка невозможна. Выживает только настоящая архитектура памяти. Именно здесь проявляются 64,1% у Hindsight против 24,9% у RAG. Но без структурированного состояния при поиске требуется 10 миллионов токенов шума.

## Разрыв в масштабах

Государственная целостность не имеет безопасного порога, ниже которого она не существует. Первое противоречивое наблюдение — это первая проблема целостности. Первая перезапись «последняя запись выигрывает» — это первая потерянная коррекция. Они складываются нелинейно. К тому времени, когда пользователи достигают накопленного состояния от 500 тыс. до 2 млн токенов, стоимость обходного решения превышает допустимые пределы.

Люди, с которыми я общаюсь при помощи агентов, не имеют 10 миллионов токенов. Они от 500К до 2М. Они управляют 25 автономными циклами с CRM со скидкой на 112 человек. Они запускают конвейеры для развития бизнеса. У их агентов сессионная амнезия между запланированными запусками. Боль за целостность государства уже острая. Поисковый вопрос еще не активирован.

## Конвергентная архитектура

Четыре выигрышные возможности Hindsight с 10 миллионами токенов сходятся в тех же структурных примитивах, которые я встраиваю в [Neotoma](https://neotoma.io), но с противоположной стороны.

Предварительно рассчитанные наблюдения в Hindsight объединяют закономерности в фактах еще до запроса. Детерминированные редукторы Neotoma вычисляют канонические снимки из истории наблюдений до времени запроса. Оба метода выполняют предварительные вычисления, а не повторное вычисление во время запроса. Neotoma добавляет гарантию детерминизма: одни и те же наблюдения, тот же снимок на выходе.

Разрешение сущностей в картах Hindsight «Алиса», «Алиса Чен» и «Алиса С». к каноническим сущностям с типизированными ребрами графа. Разрешение объектов Neotoma на основе хэша нормализует и хэширует до канонических идентификаторов с типизированными границами отношений. Оба варианта решения. Разрешение Neotoma детерминировано: одно и то же имя всегда дает один и тот же идентификатор.

Обход графа в Hindsight следует по ссылкам на сущности, чтобы найти причинно связанные факты, которые не учитываются при внедрении поиска. Граф памяти Neotoma пересекает объекты, наблюдения и события с типизированными ребрами. Оба используют структуру графа для поиска, чего не может сделать поиск по сходству.

Временная фильтрация в областях Hindsight приводит к правильному временному окну перед семантическим ранжированием. Временные шкалы событий Neotoma преобразуют поля дат в типизированные события для временного упорядочения и фильтрации.

Эти параллели не случайны. В масштабе обе системы приходят к одним и тем же примитивам: объектам, отношениям, временному упорядочению, заранее рассчитанным сводкам. Они различаются тем, что оптимизируют. Hindsight оптимизирует поиск по 10 миллионам токенов истории. Neotoma гарантирует, что факты детерминированы, имеют версии и подлежат проверке при обнаружении.

## Дополняют друг друга, а не конкурируют

Сопоставление систем памяти, ориентированных на поиск и состояние, друг против друга является категориальной ошибкой. Они касаются режимов сбоя, которые активируются в разных масштабах и усугубляются независимо.

Лучшее извлечение токенов 10M не исправляет исправление, которое было незаметно перезаписано на 500K. Улучшение целостности состояния на уровне 500 000 не поможет вам найти нужную сущность среди 10 миллионов токенов истории разговоров.

В производственных масштабах агентам необходимо и то, и другое: способность находить соответствующий контекст и уверенность в том, что контекст правильный. BEAM оказался первой проблемой. Второе — это место, где я строю.