Nicolò Boschi 在 2026 年 4 月发表了一篇文章，认为 [1000 万代币是唯一重要的内存基准](https://medium.com/@nicoloboschi/why-10-million-tokens-is-the-only-memory-benchmark-that-matters-c8c9fb7553d4)。他的论点很具体。当上下文窗口达到 100 万个标记时，暴力上下文填充可以通过现有的内存基准测试，而无需任何检索管道。您只需将所有内容转储到上下文窗口中即可。基准测试正在测试上下文窗口大小，而不是内存架构。

[BEAM 基准测试](https://arxiv.org/abs/2504.01076) 修复了这个问题。它在 500K 到 10M 令牌上进行测试。在 10M 时，没有任何生产模型具有该上下文窗口。上下文填充不起作用。需要实内存架构。

Boschi 的系统 [Hindsight](https://vectorize.io) 在 10M 级别得分为 64.1%。第二名（本町）得分为40.6%。标准 RAG 基线得分为 24.9%。差距来自多策略检索：语义搜索、关键词匹配、图遍历和时间过滤，通过倒数排名融合进行合并。在数百万个代币中添加预先计算的观察结果和实体解析，复合效果非常显着。

检索结果真实。对于 10M 令牌，您需要架构，而不是更大的上下文窗口。 BEAM 证明了这一点。

我最近写了一篇关于[为什么没有人工智能内存基准测试实际破坏的内容](/posts/no-ai-memory-benchmark-tests-what-actually-breaks)：行业基准测试检索而不是写入完整性。 BEAM 是我见过的最好的检索基准。它仍然只测试两种故障模式中的一种。它询问你是否能找到正确的事实。它不会询问您发现的事实是否仍然正确。

这篇文章是关于每种故障模式何时激活，以及为什么答案对您首先构建的内容很重要。

## 阈值问题

BEAM 提出的问题是：内存架构对于检索来说在什么令牌规模上很重要？

答：1000万个代币。

BEAM 没有提出第二个问题：国家完整性在多大程度上对信任很重要？

这个答案是不同的。状态完整性在 500K 到 2M 令牌时会降低。大约是检索架构变得至关重要的规模的五分之一到十分之一。

## 四层

在 100K 到 500K 令牌（大量代理使用几天）时，检索效果很好。一个 1M 的上下文窗口覆盖了它。不需要检索架构。但国家诚信已经在下降。 “Acme Corp”、“ACME CORP”和“Acme Corporation”作为单独的实体累积。更正会被默默地覆盖。用户手动补偿。烦人但可以管理。

当代币数量达到 50 万到 200 万（使用多工具代理数周）时，状态完整性墙就会受到冲击。实体解析变体在数百个引用中产生了真正的混乱。跨会话状态漂移意味着上周的修正可能会持续，也可能不会持续。跨工具碎片化意味着同一实体在 Claude、Cursor 和 ChatGPT 中具有不同的表示形式。平台内存已多次悄悄恢复或覆盖状态，没有审计跟踪。这是用户开始构建解决方法的地方：SOUL.md 文件、JSON 心跳文件、Markdown CRM。补偿成本超出了承受范围。

当代币数量达到 200 万到 1000 万个（代理使用数月）时，这两个问题就会变得更加复杂。标准 RAG 返回有关三个不同“Alice”的块。即使检索找到正确的实体，您也无法确认它是最新版本。 3 月 15 日的修正是否已应用？什么是溯源链？ BEAM 针对这一层进行检索。没有人将其作为国家完整性的基准。

在 10M 令牌及以上，上下文填充是不可能的。只有真正的内存架构才能幸存。这就是 Hindsight 的 64.1% 与 RAG 的 24.9% 对比的体现。但如果没有结构化状态，检索就会有 10M 个噪声标记需要搜索。

## 规模差距

状态完整性没有安全阈值，低于该阈值就不存在。第一个相互矛盾的观察是第一个完整性问题。第一个最后写入获胜的覆盖是第一个丢失的更正。这些非线性复合。当用户累积状态代币达到 500K 到 2M 时，解决方法的成本超出了容忍范围。

与我交谈的与代理一起构建的人没有 1000 万代币。它们在 500K 到 2M 之间。他们使用 112 人的 Markdown CRM 管理 25 个自主循环。他们正在运行心跳管道以进行业务开发。他们的特工在预定的运行之间有会话失忆症。国家诚信的痛苦已经很严重了。检索问题尚未激活。

## 融合架构

Hindsight 在 10M 代币上的四种获胜能力从相反的方向汇聚到我在 [Neotoma](https://neotoma.io) 中构建的相同结构原语。

Hindsight 中预先计算的观察结果会在查询之前整合事实的模式。 Neotoma 的确定性缩减器在查询时间之前根据观察历史记录计算规范快照。两者都在查询时进行预计算而不是重新推导。 Neotoma 添加了确定性保证：相同的观察结果，相同的快照。

事后看来，实体解析映射了“Alice”、“Alice Chen”和“Alice C”。具有类型图边缘的规范实体。 Neotoma 基于散列的实体解析标准化并散列为具有类型化关系边缘的规范 ID。两者都解决变体。 Neotoma 的解析是确定性的：相同的名称总是产生相同的 ID。

事后诸葛亮中的图遍历遵循实体链接来查找嵌入搜索遗漏的因果相关事实。 Neotoma 的内存图遍历具有类型化边缘的实体、观察结果和事件。两者都使用图结构进行相似性搜索无法做到的检索。

事后看来，时间过滤会在语义排名之前将结果推向正确的时间窗口。 Neotoma 的事件时间线将日期字段提取到类型化事件中，以进行时间排序和过滤。

这些相似之处并非巧合。在规模上，两个系统都达到相同的原语：实体、关系、时间顺序、预先计算的摘要。它们的不同之处在于优化的内容。 Hindsight 优化了 10M 个历史标记的检索。 Neotoma 确保事实在发现时具有确定性、版本化且可审计。

## 互补，而非竞争

将以检索为中心的记忆系统和以状态为中心的记忆系统相互对立是一种类别错误。它们解决了在不同规模下激活并独立复合的故障模式。

10M 令牌的更好检索并不能修复在 500K 时被默默覆盖的更正。 500K 更好的状态完整性并不能帮助您在 10M 会话历史记录中找到正确的实体。

在生产规模上，代理需要同时满足以下两个条件：找到相关上下文的能力，以及上下文正确性的信心。 BEAM证明了第一个问题。第二个是我正在建设的地方。