我用多个 Agent 从头干到尾，AI 干得更好了

12 小时前

我用多个 Agent 从头干到尾，AI 干得更好了。

一开始我用 Claude 做项目，基本还是一个窗口干到底。
我会丢一个比较大的目标，比如：

帮我优化首页性能。

然后让它自己查代码、自己改文件、自己跑测试、自己总结。

前半段经常还挺顺。但任务一长，就开始有点乱。

它前面看过什么文件，后面不一定记得清。哪些判断只是猜测，哪些已经验证过，也会混在一起。

最麻烦的是，聊天记录越来越长，日志、报错、diff、临时想法全挤在一个上下文里。

后来我发现，不是 Agent 不能做长任务，是我一直让它用一个脑子同时做三件事：探索、执行、审查。
现在我更常用的是把一个复杂任务拆成几个角色，让每个 Agent 只干一件事。
举个最实际的。

我要优化一个前端页面，不会直接让一个 Agent 从头改到尾。我会先开一个 Explorer，只让它读代码，不准改文件。

我会这样写：

只读代码，不要修改文件。
找出首页首屏性能相关的组件、请求链路和可能瓶颈。
最后写入 PLAN.md，并给出 3-5 个可执行的小任务。

这一步的目标是产出一张地图。

它要告诉我：相关文件有哪些，调用链大概是什么，哪些地方可能有风险，下一步应该从哪里开始。

然后我再开 Worker。

Worker 不重新探索整个项目，只读 PLAN.md 和 `TODO.md`，然后执行下一个小任务。

提示词大概是：

先读取 PLAN.md 和 TODO.md。
只执行下一个未完成任务。
完成后更新 TODO.md 和 PROGRESS.md。
不要顺手做额外优化。

很多 Agent 跑偏，
看到一个命名不舒服，顺手改一下。
最后本来只是优化首屏，变成半个页面重写。

所以我现在会给它很明确的边界：它负责什么，不能碰什么，最后交付什么。

每个窗口都是一个独立任务。

不要让它们抢同一个目录，也不要让它们同时改同一批文件。

最后再开一个 Reviewer，只看本轮 diff。

Reviewer 不继续加功能，不继续优化，只回答几个问题：

这次改动是否符合 PLAN.md？
有没有过度修改？
有没有验证方式？
还有哪些风险？

这样做以后，整个过程会稳定很多。
因为每个 Agent 的脑子都很干净。

Explorer 只探索。

Worker 只执行。

Reviewer 只审查。

而 PLAN.md`、`TODO.md`、`PROGRESS.md 就像接力棒。

以前是我一个人排队问 AI。

现在更像是我开了几个小工位：有人摸清地图，有人改代码，有人看风险。