上下文工程开始变成新的维护成本，Agent 技能层也许比模型升级更值得投入

我原本以为，2026 年 Agent 这一波继续往前走，最值得追的是模型升级。后来越看越觉得不对。模型当然还在进步，但真正开始决定系统能不能长时间稳定工作的，越来越像是另一个层：上下文工程，以及围绕它长出来的技能层。

Anthropic 在 2025 年专门写了 Effective context engineering for AI agents，OpenAI 这边也在 Codex 上持续把 skills、harness、app server、长任务、orchestration 这些能力补出来。它们其实都在回答同一个问题：当 agent 不再只是回答一轮问题，而是要持续工作、跨任务迁移、调用工具、在大仓库里找信息时，什么东西能让它不越来越乱？

为什么我会把重点从模型切到上下文

因为很多团队现在遇到的真实问题，已经不是“模型不会做”，而是“模型做着做着就把上下文搞坏了”。它可能忘记前面已经试过什么，可能把无关日志带进后续推理，可能在大仓库里抓错文件，也可能把一堆低价值工具定义塞满上下文窗口。

这时候继续追一个更强模型当然有帮助，但往往不如把上下文整理方式、引用方式、压缩方式、技能封装方式做好更有效。因为后者直接决定 agent 在真实系统里能不能维持稳定表现。

上下文工程不是 prompt 技巧，而是运行时设计

我很认同 Anthropic 的一个表述：context engineering 不是只改 prompt，而是管理推理时进入上下文窗口的整套信息。这个定义很重要，因为它把问题从“怎么写一句更好的提示词”拉回到了“系统应该如何组织信息”。

哪些信息应该预加载，哪些应该按需拉取；
哪些内容只保留引用，不保留全文；
什么时候做 compaction，压缩成什么粒度；
哪些工具调用结果应该被结构化保存；
哪些历史经验应该沉淀为可复用 skill，而不是反复临场发挥。

这已经很像传统软件里的缓存策略、索引设计、模块边界和运行时调度了。区别只是现在这些设计直接影响模型的表现、成本和稳定性。

为什么技能层会越来越重要

OpenAI 在 Codex Skills 文档里把 skill 定义成一组可复用的说明、资源和可选脚本，目的是让 agent 更可靠地走完某种工作流。我觉得这背后是一个非常现实的工程判断：与其每次都指望模型现场发挥，不如把那些高频、易错、流程相对固定的任务，封装成一个受控的技能层。

name: fix-failing-pytest
instructions: |
  先读取 pytest 输出，再定位最近改动文件，最后只修复最小范围。
resources:
  - docs/testing.md
  - scripts/collect_test_context.py
scripts:
  - python scripts/collect_test_context.py

这类技能封装真正省掉的，不只是 prompt 时间，而是把“正确的任务路径”固定下来。对一人开发者和小团队来说，这比追求一次性更聪明的生成更重要，因为它更可控、更能复用，也更容易调试。

被低估的一点：技能层其实是在对抗漂移

我很喜欢 OpenAI 在 harness engineering 里提到的一个现实：全自主代理会复制仓库里已有的模式，久而久之会产生漂移。这个问题不是靠“更聪明的模型”自动消失的。很多时候，你需要的是一层明确的工作流护栏，让 agent 知道什么资料先读、什么命令先跑、什么结果不能省略。

从这个角度看，skills 并不只是“给 agent 加能力”，更像是“给系统加秩序”。它把一些原本散落在工程师脑子里的经验，沉淀成机器也能稳定遵守的路径。

但这条线同样有维护成本

这里也不能神化。上下文工程和技能层很容易变成新的维护面。你会遇到这些问题：

skill 太多以后，谁来维护版本和适用范围；
资源文件过期后，agent 会学到旧流程；
压缩策略一旦过猛，关键上下文会丢失；
不同 skill 之间可能互相冲突，导致行为不一致。

也就是说，这条线不是没有代价，而是把代价从“临场失误”换成了“系统维护”。如果你没有高频重复任务，或者项目本身还在快速变化，过早沉淀太多 skill 反而会拖慢自己。

个人开发者现在最适合沉淀什么

如果我是个人开发者，我不会先做一套宏大的技能平台。我会先沉淀三种东西：

最常复用的诊断流程，比如测试失败、构建失败、日志定位；
最容易忘步骤的发布流程，比如版本检查、迁移检查、回滚说明；
最容易污染上下文的任务，比如大仓库检索、跨文件重构、文档与代码对齐。

这些地方最适合通过 skill + 资源 + 脚本的方式固化下来，因为它们足够高频、足够耗注意力、也最容易因为临场发挥而漂移。

半天内最值得做的验证

挑一个真实高频任务，分别用“裸 prompt”和“skill 封装”跑 5 次；
比较失败率、输出一致性和审阅成本；
观察 agent 是否更少无意义地读取文件和调用工具；
确认技能资源更新一次后，流程是否更稳定还是更脆弱。

这类对比不需要大规模 benchmark，但很容易让你看清：你真正缺的是更强模型，还是更清晰的运行时约束。

我的判断

上下文工程和技能层，接下来很可能会成为 Agent 时代新的核心工程能力。它们没有模型升级那么吸引眼球，但更接近真实系统的稳定性来源。对个人开发者和小团队来说，我会把它列为“现在就值得投入”的方向，优先级甚至高于继续追逐每一次模型版本更新。前提是别做得过重：先围绕真实高频任务沉淀少量高价值 skill，再让系统慢慢长出自己的秩序。

参考来源类型：Anthropic 工程文章（Effective context engineering for AI agents、Effective harnesses for long-running agents、Scaling Managed Agents），OpenAI 官方博客与文档（Codex Skills、Harness engineering、Unlocking the Codex harness、Symphony）。