我用多个 Agent 从头干到尾,AI 干得更好了。
一开始我用 Claude 做项目,基本还是一个窗口干到底。
我会丢一个比较大的目标,比如:
帮我优化首页性能。
然后让它自己查代码、自己改文件、自己跑测试、自己总结。
前半段经常还挺顺。但任务一长,就开始有点乱。
它前面看过什么文件,后面不一定记得清。哪些判断只是猜测,哪些已经验证过,也会混在一起。
最麻烦的是,聊天记录越来越长,日志、报错、diff、临时想法全挤在一个上下文里。
后来我发现,不是 Agent 不能做长任务,是我一直让它用一个脑子同时做三件事:探索、执行、审查。
现在我更常用的是把一个复杂任务拆成几个角色,让每个 Agent 只干一件事。
举个最实际的。
我要优化一个前端页面,不会直接让一个 Agent 从头改到尾。我会先开一个 Explorer,只让它读代码,不准改文件。
我会这样写:
只读代码,不要修改文件。
找出首页首屏性能相关的组件、请求链路和可能瓶颈。
最后写入 PLAN.md,并给出 3-5 个可执行的小任务。
这一步的目标是产出一张地图。
它要告诉我:相关文件有哪些,调用链大概是什么,哪些地方可能有风险,下一步应该从哪里开始。
然后我再开 Worker。
Worker 不重新探索整个项目,只读
PLAN.md 和 `TODO.md`,然后执行下一个小任务。
提示词大概是:
先读取 PLAN.md 和 TODO.md。
只执行下一个未完成任务。
完成后更新 TODO.md 和 PROGRESS.md。
不要顺手做额外优化。
很多 Agent 跑偏,
看到一个命名不舒服,顺手改一下。
最后本来只是优化首屏,变成半个页面重写。
所以我现在会给它很明确的边界:它负责什么,不能碰什么,最后交付什么。
每个窗口都是一个独立任务。
不要让它们抢同一个目录,也不要让它们同时改同一批文件。
最后再开一个 Reviewer,只看本轮 diff。
Reviewer 不继续加功能,不继续优化,只回答几个问题:
这次改动是否符合 PLAN.md?
有没有过度修改?
有没有验证方式?
还有哪些风险?
这样做以后,整个过程会稳定很多。
因为每个 Agent 的脑子都很干净。
Explorer 只探索。
Worker 只执行。
Reviewer 只审查。
而
PLAN.md`、`TODO.md`、`PROGRESS.md 就像接力棒。
以前是我一个人排队问 AI。
现在更像是我开了几个小工位:有人摸清地图,有人改代码,有人看风险。