上下文图谱：为 AI 智能体时代构建生产世界模型

本文译自 Context Graphs: Building Production World Models for the Age of AI Agents。这篇来自 PlayerZero 的深度长文探讨了上下文图谱如何成为下一个万亿美元平台的基础——通过捕捉连接数据与行动的推理，而非简单地向现有系统记录添加 AI。可以和上下文图谱：AI 的万亿美元机遇结合起来阅读。

上下文图谱：为 AI 智能体时代构建生产世界模型

AI 生成代码的能力非常出色。但这是它难以做到的：理解生产现实。生产以碎片形式存在。代码描述应该发生什么；可观测性工具看到信号；工单系统看到问题；CI/CD 看到更改。每个表面都看到生产的一个切片。没有一个维持系统实际如何工作的连贯模型。

同样的碎片化存在于人员和角色之间：SRE、支持、QA、开发、产品经理。没有对生产软件如何工作的集中理解。即使在团队内部，个人的知识孤岛也会给组织带来问题。

生产理解是隐含且碎片化的——它存在于代码、仪表板、工单、部落知识以及少数高级工程师的头脑中。因此，当需要在生产中解决客户问题时，响应反映了现实：它是脱节的、缓慢的和孤立的。

为了让 AI 真正提供帮助，它需要理解”为什么”，即关键决策的背景。不仅仅是我们今天在哪里，还有我们是如何到达这里的。

双时钟问题

当前状态与历史状态之间的这种差距被称为”双时钟问题”。这里有一个类比可能有助于你理解它：你的 CRM 存储最终交易价值，而不是谈判。你的工单系统存储”已解决”，而不是推理。你的代码库存储当前状态，而不是产生它的两次架构辩论。

我们已经为现在的真实情况构建了万亿美元的基础设施。对于它为什么变成真实的情况，几乎什么都没有。

当人类是推理层时，这是有道理的。组织大脑分布在人类头脑中，通过对话按需重建。现在我们希望 AI 系统做出决定，而我们没有给它们任何可以推理的东西。我们要求模型在没有访问先例的情况下行使判断力。这就像在没有判例法的情况下用判决训练律师一样。

配置文件说 timeout=30s。它曾经说 timeout=5s。有人把它增加了两倍。为什么？git blame 显示是谁。推理已经消失了。

这种模式无处不在。CRM 说”关闭丢失”。

企业软件在存储状态方面变得非常出色，但它在存储决策方面仍然很糟糕。大多数系统可以告诉你现在什么是真实的以及发生了什么，但它们不会保留为什么在那个时刻做出选择——考虑了哪些输入、哪些约束是绑定的、以及什么权衡实际上驱动了结果。这就是为什么”将 LLM 连接到你的系统”经常令人失望的原因：模型可以看到数据，但它看不到组织的决策逻辑。如果你希望 AI 可靠地行动，你需要一种方式来表示不仅仅是状态，还有将状态转化为行动的推理。

有价值的层不是文档；而是那些文档所告知的决策以及这些文档是如何创建的。合作伙伴实际上是如何构建或有支出的？为什么分析师拒绝了那个风险？是什么让临床医生偏离了协议？

决策轨迹是组织智能实际存在的地方。但决策轨迹比文档更难匿名化。你可以对实体进行伪匿名化。你不能轻易匿名化判断模式。“当交易对手的律师来自 X 律所时，我们总是采取更强硬的立场”即使在 X 被掩盖的情况下也会暴露一些东西。

上下文图谱实际上是什么

下一个万亿美元平台不会通过向现有系统记录添加 AI 来构建，而是通过在上下文图谱中捕捉连接数据与行动的推理来构建。上下文图谱捕捉系统记录明确没有捕捉的东西：历史、“为什么”、“我们是如何到达这里的？”

当上下文图谱累积足够的结构时，它们可以成为世界模型。它们编码组织物理——决策动态、状态传播、实体交互。你可以在这些模型中运行模拟或测试。你可以问”如果会怎样？“并得到有用的答案，而不是疯狂的幻觉，因为你已经构建了真实的东西。

上下文图谱不是名词的图；它是带有证据、约束和结果的决策的图。

当你可以将混乱的运营变成可重放的东西时，“上下文图谱”就变得真实了：不仅仅是事件，而是带有可用证据、绑定约束、获胜的权衡以及随后发生的事情的决策。没有这一点，你要么得到一个不驱动行动的漂亮模型，要么得到一个无法从中学习的活动消防水带。

这在实践中是什么样子？续约智能体提议 20% 的折扣。政策将续约上限设定为 10%，除非批准服务影响例外。智能体从 PagerDuty 提取三个 SEV-1 事件、Zendesk 中未解决的”除非修复否则取消”升级，以及上季度副总裁批准类似例外的先前续约线程。它将例外路由给财务。财务批准。CRM 最终得到一个事实：“20% 折扣”。

一旦你有了决策记录，“为什么”就变成了一流数据。随着时间的推移，这些记录自然形成一个上下文图谱：企业已经关心的实体（账户、续约、工单、事件、政策、批准者、智能体运行）通过决策事件（重要时刻）和”为什么”链接连接起来。公司现在可以审计和调试自治，并将例外变成先例，而不是每季度在 Slack 中重新学习相同的边缘案例。

反馈循环使这变得复合。捕捉到的决策轨迹变成可搜索的先例。而每个自动化决策都会向图中添加另一条轨迹。

这一切都不需要第一天就完全自治。它从人类在环中开始：智能体提议、收集上下文、路由批准并记录轨迹。随着时间的推移，随着类似案例重复，更多路径可以自动化，因为系统具有先前决策和例外的结构化库。即使当人类仍然做出决定时，图也会继续增长，因为工作流层将输入、批准和理由捕获为持久先例，而不是让它们在 Slack 中消亡。

如果上下文图谱如此明显地必不可少，为什么我们没有看到更多？

为什么上下文图谱很少见：五坐标系问题

上下文图谱今天在野外并不真正存在，因为它们需要跨越不共享键的坐标系的连接。传统数据库在几十年前解决了连接问题。你有一个 customer_id、一个 order_id、一个外键关系。连接是离散的；键是稳定的；操作是定义明确的。组织推理需要不同类型的连接。你需要连接：发生了什么（事件）到它何时发生（时间线）到它意味着什么（语义）到谁拥有它（归因）到它导致了什么（结果）。这是五个不同的坐标系。没有一个共享主键。而且键本身是流动的。电子邮件中的”Jaya Gupta”、合同中的”J. Gupta”、Slack 中的”@JayaGup10”。相同的实体，没有共享标识符。连接条件不是相等。它是潜在空间中表示的概率解析。每个现有数据系统都在单个坐标空间内优化连接。上下文图谱需要同时跨越所有五个坐标系进行连接。

五个坐标系，五种连接类型：

**时间线连接：**跨时间连接状态。配置现在是 30s。上周二是 5s。连接这些需要时间索引，其中”之前”和”之后”是一流操作，而不是过滤器。
**事件连接：**将发生的事情连接成序列。部署发生了，然后警报触发了，然后回滚了。顺序很重要。因果相关的窗口很重要。连接条件是事件空间中的接近度，而不是键相等。
**语义连接：**跨表示连接含义。支持工单中的”流失风险”与销售笔记中的”保留担忧”相关。连接是向量相似性，而不是字符串匹配。本质上是模糊的。
**归因连接：**将行动与行动者连接到所有权。谁批准了这个？谁拥有那个决定？连接遍历组织结构、权限层次结构、批准链。拓扑本身就是连接条件。
**结果连接：**将决策与后果连接。这个定价变化导致了那个收入影响。连接是因果的，而不是相关的。它需要反事实推理：否则会发生什么？每种连接类型都有不同的几何形状。时间线是线性的。事件是顺序的。语义存在于向量空间中。归因是图结构的。结果是因果 DAG。

没有共享的坐标系或通用键。当你意识到你不是有意创建它们时，上下文图谱问题变得可以解决；它们是智能体和人类如何交互的副产品。

上下文图谱如何变得可处理：智能体轨迹作为训练数据

上下文图谱现在可行的原因是我们可以学习一个共享坐标系，使这些连接变得可表达。

智能体轨迹（随着它们开始拥有有意义的工作）是一个新兴的训练信号。当智能体解决问题时，它隐式地执行所有五种连接类型。它解析跨表示的实体。它对事件进行排序。它连接含义。它遍历所有权。它追踪结果。轨迹是成功多坐标连接的样本。

随着时间的推移累积足够的轨迹，你会学习编码跨坐标系连接兼容性的嵌入。在轨迹中共同出现的实体是在实践中连接良好的实体。嵌入空间变成了学习的连接索引。结构表示需要与语义表示协作。语义嵌入编码含义相似性。从轨迹中学到的结构嵌入编码操作耦合。它们一起给你一个空间，其中”找到相关决策”可以意味着：时间相关、含义相关、所有权相关、结果相关。

跨坐标系的任意连接谓词的任何加权组合。上下文图谱尚未构建，因为用流动键跨越五种不同几何形状需要从操作数据中学习共享表示。智能体轨迹提供了该数据，数学现在存在，并且智能体人机工程学刚刚进入企业。

局部游走（可能回溯）学习同质性——节点相似是因为它们是连接的。全局游走（向外推进）学习结构等价——节点相似是因为它们扮演类似的角色，即使从未直接连接。

考虑一家公司的两名高级工程师。一个在支付方面工作，一个在通知方面工作。没有共享工单、没有重叠代码、没有公共 Slack 频道。同质性不会认为它们相似。但在结构上它们是等价的——在不同子图中的相同角色、相似的决策模式、相似的升级路径。结构等价揭示了这一点。

智能体是知情的（不是随机的）游走者。

当智能体调查问题或完成任务时，它遍历组织状态空间。它接触系统、读取数据、调用 API。轨迹是通过组织实体图的游走。

与随机游走不同，智能体轨迹是问题导向的。智能体根据它发现的内容进行调整。调查生产事件时，它可能从广泛开始——所有系统最近更改了什么？这是全局探索，结构等价领域。随着证据累积，它缩小到特定服务、特定部署历史、特定请求路径。这是局部探索，同质性领域。

随机游走通过蛮力覆盖发现结构。知情游走通过问题导向覆盖发现结构。智能体去问题带它去的地方，而问题揭示实际重要的东西。

正确设计后，智能体轨迹变成事件时钟。

每个轨迹采样组织结构，偏向于对实际工作重要的部分。累积数千个，你会得到组织如何运作的学习表示，通过使用发现。

本体论从游走中出现。重复出现的实体是重要的实体。遍历的关系是真实的关系。当不同智能体解决不同问题遵循类似路径时，结构等价会自我揭示。

这里有经济优雅。智能体不是在构建上下文图谱——它们在解决值得付费的问题。上下文图谱是废气。更好的上下文使智能体更有能力；有能力的智能体被部署更多；部署生成轨迹；轨迹构建上下文。但这只有在智能体做了证明计算合理的工作时才有效。

随着时间的推移，随着上下文图谱累积足够的知识，它们可以变成更多：完整的可导航生产世界模型。

上下文图谱可以构建成为生产世界模型

生产世界模型是环境如何运作的学习的压缩表示。它编码动态，即当你在特定状态下暂停采取行动时会发生什么。它捕获结构：存在哪些实体以及它们如何关联。并且它启用预测：给定当前状态和提议的行动，接下来会发生什么？

世界模型展示了重要的东西：智能体可以学习环境的压缩表示，并完全在”梦境”中训练——通过潜在空间的模拟轨迹。世界模型变成模拟器。你可以运行假设并得到有用的答案，而无需在真实环境中执行。

这在机器人学中有明显的类比。捕获物理（物体如何下落、力如何传播）的世界模型让你在执行之前模拟机器人行动、在想象中训练策略、安全地探索危险场景，并转移到物理硬件。你的物理模型越好，你的模拟就越有用。

同样的逻辑适用于组织，但物理是不同的。

组织物理不是质量和动量。它是决策动态。例外如何被批准？升级如何传播？当你在该功能标志启用的同时更改此配置时会发生什么？给定当前依赖状态，部署到此服务的爆炸半径是什么？

状态告诉你什么是真实的。事件时钟告诉你系统如何表现——而行为是你需要模拟的。

具有足够累积结构的上下文图谱变成组织物理的世界模型。它编码决策如何展开、状态更改如何传播、实体如何交互。一旦你有了这个，你就可以模拟。

在 PlayerZero，我们构建代码模拟——将假设更改投影到我们的生产系统模型上并预测结果。给定提议的更改、当前配置和功能标志、用户使用系统的模式：这会破坏什么吗？故障模式是什么？哪些客户受到影响？

这些模拟不是魔法。它们是对累积结构的推断。我们已经通过生产问题观察了足够的轨迹，以学习模式——哪些代码路径是脆弱的、哪些配置危险地交互、哪些部署序列导致事件。世界模型编码了这一点。模拟是用假设查询模型。

模拟是理解的测试。如果你的上下文图谱不能回答”如果会怎样？“，它只是一个搜索索引。

对持续学习辩论的影响

许多人认为 AI 没有改变经济，因为模型不能在工作中学习——我们被困在为每个能力构建自定义训练循环，这无法扩展到组织知识的长尾。他对诊断是正确的。

但是，如果标准框架是一种分心呢？持续学习问：我们如何从正在进行的经验中更新权重？这很难——灾难性遗忘、分布偏移、昂贵的重新训练。

世界模型提出了一种替代方案：保持模型固定，改进它推理的世界模型。如果世界模型继续扩展，模型不需要学习。

这就是智能体可以在累积的上下文图谱上做的事情。每个轨迹都是关于组织动态的证据。在决策时，对这个证据执行推断：给定捕获的关于该系统如何行为的所有内容，给定当前观察，关于正在发生什么的后验是什么？什么行动成功？

更多轨迹，更好的推断。不是因为模型更新了，而是因为世界模型扩展了。

而且因为世界模型支持模拟，你得到更强大的东西：反事实推理。不只是”在类似情况下发生了什么？“而是”如果我采取这个行动会发生什么？“智能体想象未来，评估它们，相应地选择。

这就是有经验的员工拥有而新员工没有的东西。不是不同的认知架构，而是更好的世界模型。他们已经看到足够多的情况来模拟结果。“如果我们在周五推出，值班人员会度过一个糟糕的周末。“这不是检索。这是对系统行为内部模型的推断。

经济变革性 AI 的路径可能不需要解决持续学习。它可能需要构建世界模型，让静态模型表现得好像它们在学习一样，通过扩展证据库和推理时计算来推理和模拟它们。

模型是引擎。上下文图谱是使引擎有用的世界模型。

世界模型的一个潜在依赖是通用本体论，所以值得探索规定的和学习的本体论两者。

规定的与学习的本体论：组织结构的两种方法

许多人错误地认为上下文图谱是图数据库或结构化内存。这不是真的。上下文图谱需要从根本上不同的模式和表示方法。

当团队伸手去拿熟悉的工具（Neo4j、向量存储、知识图）并想知道为什么他们的智能体没有变得更聪明时，这很重要。原语是错误的。

“本体论”是一个过载的术语。有规定的本体论（规则引擎、工作流、治理层）。Palantir 在这上面建立了一家 500 亿美元的公司：一个将企业数据映射到对象和关系的定义层。你定义模式。你强制执行它。当你预先知道结构时，它有效。

下一家 500 亿美元的公司将建立在学习的本体论上。从工作实际发生的方式中出现的结构，而不是你设计它发生的方式。这很重要，因为决策中有如此多的隐性知识，我们在当下甚至没有意识到，而智能体会复制我们的判断！

企业 AI 必须导航两者。规定的本体论有很多先验。学习、表示和更新隐性的基础设施几乎不存在。隐性关系（哪些实体被一起接触、什么在决策链中共同出现）是差距。这就是为什么记忆不能解决问题。

记忆假设你知道存储什么以及如何检索它。但最有价值的上下文是在智能体通过使用发现它之前你不知道存在的结构。

另一个误解：“决策轨迹只是轨迹日志。“这就像说嵌入只是关键字索引。技术上相邻，概念上错误。

还记得嵌入看起来像外星技术的时候吗？一种表示相似性的概率方法，使模糊搜索的”已解决”问题看起来很古老。人们问，“当我有 Elasticsearch 时，为什么需要这个？”

我们正处于结构学习的类似拐点。轨迹日志存储发生了什么。决策轨迹（做得正确）学习为什么发生。哪些实体重要。什么模式重复出现。推理如何流过组织状态空间。

区别：日志是仅追加的记录。决策轨迹是生产世界模型的训练数据。模式不是你预先定义的东西。它从游走中出现。

这一切可能听起来非常学术或假设，但上下文图谱今天存在于野外，并且将来会越来越多。

上下文图谱实际在哪里实现

当你可以将混乱的运营变成可重放的东西时，上下文图谱就变得真实了：不仅仅是事件，而是带有可用证据、绑定约束、获胜的权衡以及随后发生的事情的决策。没有这一点，你要么得到一个不驱动行动的漂亮模型，要么得到一个无法从中学习的活动消防水带。

首先，决策表面必须是清晰的。某些领域有干净的”提交”：分类调用、调度重新分配、偏差批准、升级决策，以清晰的”我们正在做 X”结束。这些是可学习的，因为审议和承诺之间有边界。其他环境蔓延在半决策和可逆移动上。如果你无法识别实际上什么算作决策，你最终会建模噪音而不是判断。这就是许多通用”流程挖掘 + LLM”努力停滞的地方：它们捕获活动，但没有决策边界。

其次，捕获摩擦很重要，因为它决定了获取决策轨迹有多难。这种努力因行业而异。在某些环境中，决策已经存在于软件内部，所以轨迹自然出现。在其他环境中，真正的决策以口头方式发生：在升级、交接、调度调用、重新规划讨论、谈判中。这就是为什么语音是许多物理世界行业的解锁：它让你可以在口头决策发生时捕获它们的元素，而无需强迫人们在事后将他们的判断翻译成表格和字段。

第三，仅捕获是不够的。捕获的上下文可能是错误的、过时的或悄悄被取代的。上下文图谱继承了组织的缺陷：变成传说的乐观分析、在会议上被推翻的书面宣布的决策、不再真实但从未被重新审视的假设。

本体稳定性也很重要，但它的含义分歧，这就是市场分裂的地方。

在资产重的领域，世界的显式结构相对稳定。这就是为什么本体优先平台根本有效。但这些相同的领域历史上被迫支付昂贵的前期建模税，因为真正的决策层没有实时连续捕获。机会是保留底层，但添加另一个学习循环：将规定的模型视为脚手架，让轨迹持续教系统决策实际如何做出。随着时间的推移，部署变得不那么依赖定制发现周期，而通过累积先例变得更具防御性。

在科技中，出现了相反的问题。本体论是不稳定的，因为业务本身正在不断被重构。产品发布和弃用功能。团队重组。上市策略改变。新定价模型出现，旧的消失。

即使在同一家公司内，不同的职能也在根本不同的对象和时间线上运作，特别是在 B2B 销售中，其中交易、账户、区域、批准和折扣逻辑因细分市场、地区和季度而异。名词不只是演变；它们碎片化。

这种碎片化是错位出现的地方。公司的不同部分承载着”我们相信什么”的不同版本：漂移的战略叙事、变异的指标定义、被例外重写的政策、与产品意图矛盾的销售策略。在纯人类组织中，这通过会议和升级被掩盖过去。在智能体组织中，它立即变得可操作，因为智能体会根据它们可以检索的任何上下文行动。矛盾的上下文不会产生更好的决策，它会产生浪费的工作、重新诉讼以及撤销其他行动的行动。随着组织变化保持连贯性变成困难的部分。

随着时间的推移，组织产生的最有价值的东西不是数据。而是决策的集合。

决策实际如何做出的累积模式：什么证据重要、哪些约束是绑定的、哪些例外是正常的、哪些权衡是可接受的变成组织的 IP。这是业务的运作核心，而今天它大多存在于人们身上并最终消失。

应用公司有一个开口，因为它们坐在决策表面上。如果你可以作为执行的副产品捕获判断并保持它最新，你可以构建上下文图谱：变成护城河的复合决策记忆。

检测决策，然后编译缺失层。随着时间的推移，有一种倒置变得更加可行。不是首先声明世界，而是在承诺时刻捕获决策，并从判断在实践中如何应用中学习。

当决策发生时，你捕获参考的资源、应用的约束、做出的权衡、采取的行动以及后来如何评估它。随着时间的推移，这些轨迹编译成决策实际如何做出的记忆。

这不会替换形式本体，也不会一次性发生。规定的模型对于共享语义、状态和硬约束仍然很重要。可学习的部分是本体优先平台不能可靠免费获得的层：软约束、例外模式和确定结果的隐性启发式。

在医疗保健中，系统知道先前授权已提交。它不知道确定患者是在三天还是三周内得到护理的模式：付款人响应哪种文档格式、什么时候上诉翻转、什么时候需要主动启动同行对同行，以及哪些”标准步骤”是死胡同。该逻辑不在模式中。它存在于组织的累积先例中。

这也改变了产品经济学。不是预先支付全额建模税，你可以从薄底层开始，让最高价值的层从实际运营中出现。价值复合，因为处理的每个边缘案例变成训练数据，并且每次更正变成信号。

大多数系统可以告诉你发生了什么；几乎没有一个可以在重要时刻重建为什么发生。上下文图谱不是名词的图；它是带有证据、约束和结果的决策的图。

为什么现有企业无法构建上下文图谱

一些人乐观地认为现有参与者会演变成这种架构。数据仓库变成”真理注册表”，而 CRM 变成”带有 API 的状态机”。这是演进的叙事，而不是替换。

这可能适用于使现有数据更易于访问。但它不适用于捕获决策轨迹。

运营现有企业是孤立的，并且优先考虑当前状态。

Salesforce 正在推动 Agentforce，ServiceNow 有 Now Assist，Workday 正在为 HR 构建智能体。他们的说辞是”我们拥有数据，现在我们添加智能”。

但这些智能体继承了其母公司的架构限制。Salesforce 建立在当前状态存储之上：它知道机会现在是什么样子，而不是决策时的样子。当折扣被批准时，证明它合理的上下文没有被保存。你无法重放决策时的世界状态，这意味着你无法审计决策、从中学习或将其用作先例。

它们还继承了其母公司的盲点。支持升级不仅仅存在于 Zendesk 中。它取决于 CRM 中的客户层级、计费中的 SLA 条款、PagerDuty 中的近期中断以及标记流失风险的 Slack 线程。没有现有企业看到这一点，因为没有现有企业处于跨系统路径中。

存在于系统交叉点的组织是一个信号。RevOps 的存在是因为有人必须协调销售、财务、营销和客户成功。DevOps 的存在是因为有人必须弥合开发、IT 和支持之间的差距。安全运营处于 IT、工程和合规之间。

这些”胶水”功能是一个信号。它们正是因为没有单个系统记录拥有跨职能工作流而出现。组织结构图创建了一个角色来承载软件没有捕获的上下文。

自动化该角色的智能体不只是更快地运行步骤。它可以持久化该角色被创建来产生的决策、例外和先例。这就是通往新系统记录的路径：不是通过移除现有企业，而是通过捕获只有当智能体处于工作流中时才变得可见的一类真理。

这意味着什么：三个难题

上下文图谱需要解决三个问题：

双时钟问题。我们已经为状态构建了万亿美元的基础设施，而为推理几乎什么都没有构建。事件时钟必须被重建。

模式作为输出。你不能预先定义组织本体论。智能体轨迹通过问题导向遍历发现结构。嵌入是结构的，不是语义的——捕获邻域和推理模式，而不是含义。

世界模型，不是检索系统。累积足够结构的上下文图谱变成模拟器。它们编码组织物理——决策动态、状态传播、实体交互。模拟是测试。如果你可以问”如果会怎样？“并得到有用的答案，你已经构建了真实的东西。

做到这一点的公司将具有质的不同的东西。不是完成任务的智能体——复合和演进的组织智能。模拟未来，而不只是检索过去。从学习的世界模型推理，而不是从零开始。

这就是解锁。不是更好的模型。更好的基础设施，用于使部署的智能累积。