工程实践 – 丸子运行中

现在做 Agent，最容易被忽略的不是提示词，而是可回放的 traces 和最小 eval 集

2026-6-03 0:24

|

90

|

0

1678 字

|

8 分钟

我现在越来越不想讨论“提示词怎么写得更聪明”了。不是 prompt 不重要，而是很多 agent 项目一旦进入第二周，真正拖垮迭代速度的通常不是提示词，而是你根本不知道它上一次为什么成功、这一次为什么失败、换个模型以后到底退化了多少。说得直接一点：没有 traces 和最小 eval 集，很多所谓的 agent 调优其实只是情绪化开发。今天觉得它…

Claude Code 开始更敢自动跳过权限之后，个人开发者更该把“运行边界”写死

2026-6-03 0:22

|

75

|

0

1670 字

|

8 分钟

我一开始以为，做 agentic coding 最烦的是模型会不会理解项目上下文。后来发现，更麻烦的问题其实是：你到底让它在什么边界里动手。上下文不够，最多是改不对；运行边界不清，才会把事情真的搞乱。尤其是当工具开始能主动跑命令、改文件、串联多步操作以后，“权限提示太频繁”并不只是体验问题，它其实在提醒你：这件事本来就不该被轻易跳过。为什么我觉…

Agent安全 AI编程 Anthropic Claude Claude Code 工程实践权限控制

GitHub Copilot coding agent 变强以后，真正拖慢小团队的不是写代码，而是审查链路

2026-6-03 0:21

|

82

|

0

1436 字

|

7 分钟

我原本以为 AI 编程工具进入“agent 模式”以后，团队最先感受到的会是开发速度明显提升。后来我发现，很多仓库里先被放大的不是编码效率，而是审查效率。原因不复杂：当工具还只是补全时，它主要影响一个人写代码的速度；当它开始自己起分支、改多文件、跑测试、做自检时，瓶颈就从“写得快不快”转成“你有没有能力把它审得明白”。如果审查链路没准备好，age…

AI编程 Code Review Copilot GitHub GitHub Copilot 小团队工程实践

我不太建议小团队一上来就做多 Agent，先把 Responses API 的“长任务外壳”搭对

2026-6-03 0:20

|

72

|

0

1659 字

|

8 分钟

我最近越来越不想看那种“多 Agent 协作架构图”了。不是因为它们完全没用，而是很多团队在真正跑起来之前，连最外层那层壳都没搭对：任务怎么启动，状态怎么收敛，工具怎么限权，日志怎么回放，失败后怎么继续。这个阶段谈一堆 Planner、Researcher、Reviewer，通常只是在给未来的维护成本提前贷款。这也是我为什么会重新看 OpenAI…

Agent Agents SDK AI应用开发 OpenAI Responses API 工程实践长任务

长任务编程 Agent 不是让你少写需求，而是逼你把需求写得更像接口

2026-5-28 8:56

|

111

|

0

1426 字

|

6 分钟

很多人期待长任务编程 Agent，是因为它看起来能把“我想要一个功能”直接变成 PR。我对这个期待比较谨慎。Agent 能跑更久，能自己读文件、改代码、跑测试，当然是进步。但它越能自主执行，越暴露一个老问题：需求如果写得像聊天，最后就会得到一个像聊天一样含糊的实现。 OpenAI 在 Codex 相关技术文章里讲过 agent loop、工具调用、…

AI编程 Codex Spec-driven development 工程实践

MCP 继续往前走之后，个人开发者要关心的不是协议热度，而是状态和权限怎么收口

2026-5-28 8:55

|

75

|

0

1742 字

|

7 分钟

我原本以为 MCP 发展到 2026 年，主要矛盾会是“大家到底接不接这个协议”。现在看，这个阶段已经过去了。真正值得个人开发者关心的，不是再多接几个 MCP server，而是：当工具调用开始跨进程、跨服务、跨账号以后，状态放在哪里，权限怎么收口，失败怎么恢复。这不是一个很性感的话题，但它决定了 MCP 能不能从演示项目变成可维护的生产组件。 …

AI Agent AI基础设施 MCP 工程实践

多模型 Coding Agent 实战：别把模型选择当信仰问题

2026-5-02 0:41

|

162

|

0

894 字

|

4 分钟

现在的 AI 编程工具开始提供模型选择：GitHub Copilot coding agent 支持 model picker，Claude、Codex、Copilot 等也越来越多地出现在同一个开发流程里。很多讨论会迅速滑向“哪个模型最强”。这个问题当然重要，但对个人开发者来说，更有用的问题是：什么任务该用什么模型，什么时候不值得用贵模型。我的…

AI 编程 Claude Codex GitHub Copilot 工程实践

把 AI 编程助手接进 CI：它应该修问题，不该制造新变量

2026-5-02 0:41

|

145

|

0

869 字

|

4 分钟

把 AI 编程助手接进 CI，是最近很多团队都会尝试的事。Claude Code 文档提到可以在 CI 中自动化 code review 和 issue triage，GitHub Copilot coding agent 也在往 PR、自审、安全扫描和 CLI handoff 方向走。趋势很清楚：AI 不只在编辑器里补代码，也会进入工程流水线。 …

AI 编程 CI/CD Claude Code 实战工程实践

AI 生成代码的沙箱实战：能运行不代表应该直接运行

2026-5-02 0:40

|

122

|

0

925 字

|

4 分钟

AI 生成代码之后，下一步很自然就是“跑一下”。这也是最危险的地方。代码生成工具越强，越容易让人忘记一个基本事实：你并不知道它刚刚写出来的代码会做什么。尤其是当系统开始支持 shell、文件读写、网络请求和动态预览时，沙箱就不是锦上添花，而是底线。 Cloudflare Dynamic Workers 提到的一个典型场景，是让 AI 生成的应用在安…

AI 编程 Cloudflare 安全实战工程实践

Claude Code hooks 实战：把 AI 助手关进项目规则里

2026-5-02 0:40

|

122

|

0

880 字

|

4 分钟

Claude Code 这类终端式 AI 编程工具真正有价值的地方，不是“它能聊天”，而是它能进入项目现场：读文件、跑命令、改代码、调用 MCP、执行 hooks。问题也随之出现：一个能动手的 AI，如果没有边界，就不是助手，而是一个很自信的实习生。我的判断是：团队或个人项目要认真使用 Claude Code，第一步不是写更长的 prompt，而…

AI 编程 Claude Code 实战工作流工程实践

标签： 工程实践

标签：工程实践