如果你是那种让 AI 写代码写得多、改得也多的人,最近可能会遇到一个挺烦的问题:AI 把你的代码改得稀烂,你想让它回到上一版重新试——可上一版的具体上下文早就不记得了。
这不是你的问题,是工具的问题。
2026 年 6 月 14 日这天,AI 编程圈突然冒出来三件看似无关、但本质同源的事。把这三件事放在一起看,你会发现一个清晰的变化:AI 编程工具正在从”能写代码”升级到”能管流程”。
第一件:Google Chrome 工程副总裁 Addy Osmani 在 GitHub 上线了一个叫 agent-skills 的项目,240+ 次提交,把资深工程师脑子里那些”该不该写测试、什么时候该做 code review、什么情况下要警惕”的经验,编码成 AI 智能体可以严格执行的流程——目前已经适配 Claude Code、Cursor、Antigravity CLI、Gemini CLI、Windsurf、Copilot 等 8 款主流工具。
第二件:开发者 obra 的 Superpowers 框架更新到 v5.1.0,441 次提交。这是个把软件工程流程拆成”技能”的体系:brainstorming、writing-plans、executing-plans、using-git-worktrees、subagent-driven-development……每个技能都像一份被 AI 严格照做的 SOP。obra 团队在测试中发现一个反直觉的事实:让 AI 派生子代理做计划审查会让执行时间翻倍,但计划质量没什么变化——所以他们改成了”内联自审”,30 秒搞定,捕到的 bug 数量差不多。
第三件:智谱 宣布 GLM-5.2 下周按 MIT 协议全量开源,1M 上下文窗口,正式给所有 GLM Coding Plan 用户开放。卡在 Claude Fable 5、Mythos 5 同一天在美国以外区域被锁死的当口——你品品这句话的意味:「前沿智能,不该只属于少数人,也不该被少数规则随时收回。」
三件事凑在一起,其实是在回答同一个问题:
当 AI 写代码的本事已经够用了,怎么让它按对的方式写、按对的顺序写、写到一半按对的方式停下来?
这个问题在过去半年变得越来越紧迫。GitLab 在 6 月初裁了 350 个程序员(我当时写过这件事),Anthropic 自己的 RSI 报告披露 Claude 已经能独立工作 16 小时(那篇报告更详细),美团技术团队 31 万行代码里 90% 以上是 AI 写的(他们那 7 个开源项目里就有一个讲这个)。
AI 写代码越来越多,越来越快——但工程纪律没跟上。
agent-skills 和 Superpowers 这类工具的出现,就是来填这个洞的。
一、先搞清楚这两个项目到底在做什么
很多文章会把它们简单介绍成”AI 提示词集合”,这是错的。
它们不是提示词,是工作流。
1.1 agent-skills 是什么
Addy Osmani 这个项目的官方描述里有一句话我特别认同:
「Process, not prose.」(是流程,不是文章。)
技能是智能体遵循的工作流,不是它阅读的参考文档。
具体来说,agent-skills 把软件开发分成了 6 个生命周期阶段——Define(定义)、Plan(规划)、Build(构建)、Verify(验证)、Review(审查)、Ship(发布)——每个阶段下面挂 2-6 个可独立调用的技能(skill),总共 23 个生命周期技能 + 1 个元技能 + 4 个专业审查者角色 + 4 份参考检查清单。
随便挑一个看看——比如 test-driven-development:
- 明确告诉你什么时候该用(实现逻辑、修复 Bug、改变行为时)
- 强制要求遵循红-绿-重构循环和测试金字塔(80/15/5:单元测试 80%、集成测试 15%、E2E 测试 5%)
- 包含一个反合理化表——AI 想偷懒时会说的那些借口(”我稍后再加测试”、”这个改动太小了不用测”),以及每个借口的反驳论点
- 以证据要求收尾——测试通过、构建输出,不是”看起来正确”
这就是”流程”和”提示词”的本质区别。提示词是建议,流程是命令。
1.2 Superpowers 是什么
obra 的 Superpowers 走的是另一条路:把整个软件工程流程拆成可重用的 Skills,每个 Skill 都是一个 SKILL.md 文件,包含 frontmatter 元数据和结构化步骤。
核心 Skills 包括:
- brainstorming:跟你一问一答,把模糊想法变成具体方案(内置 Web 服务器可以在浏览器里交互)
- writing-plans:把方案变成可执行计划
- executing-plans:按计划执行
- using-git-worktrees:创建 Git worktree 隔离开发环境
- subagent-driven-development:把大任务拆成多个并行子任务
- requesting-code-review:派发审查子代理
obra 在 README 里特别提了一个踩过的坑:派生新代理做计划审查(让一个 AI 检查另一个 AI 的方案)执行时间翻倍(多花 25 分钟),但质量没什么改善。所以他们改成了”内联自审”——AI 在写完计划后花 30 秒自己审一遍,能抓到 3-5 个真实 bug,剩下的就交给后续环节。
这个发现非常实用:很多团队以为”AI 套 AI”能提升质量,但线性叠加 AI 审查并不等于质量叠加。
二、它们跟传统 Prompt Engineering 的区别
如果你之前用 Cursor 或者 Claude Code,你可能写过 .cursorrules 或者 CLAUDE.md——把项目规范、个人偏好写在一个文件里让 AI 读。
agent-skills 和 Superpowers 跟这种做法有三个根本不同:
| 维度 | .cursorrules / CLAUDE.md | agent-skills / Superpowers |
|---|---|---|
| 触发方式 | 永远在 prompt 里 | 按上下文自动激活(比如你开始改 API,它会拉起 api-and-interface-design) |
| 内容形式 | 自由文本规则 | 结构化 SKILL.md(frontmatter + 触发条件 + 步骤 + 反合理化 + 验证) |
| 可验证性 | 靠 AI 自己判断 | 每个技能以证据要求结束(测试通过、构建输出),不接受”看起来对” |
第二个区别尤其重要。自由文本规则写到 .cursorrules 里,AI 会”理解”它——但理解是软的,写代码时大概率会忘。结构化 SKILL.md 写入流程步骤,AI 在执行时会被强制走完每一步。
说得更直白一点:.cursorrules 是”我希望 AI 能做到的事”,SKILL.md 是”AI 必须按这个顺序做这些事,并证明每一步都做了”。
三、实战:在 Claude Code 里装一个 agent-skills 试试
光看介绍不够,得上手。下面我手把手带你把 agent-skills 装到 Claude Code 里,看看它跟”裸跑”到底差在哪。
3.1 安装
最快的方式是走市场:
# 在 Claude Code 里执行
/plugin marketplace add addyosmani/agent-skills
/plugin install agent-skills@addy-agent-skills或者如果你想本地开发,可以克隆下来手动指定:
git clone https://github.com/addyosmani/agent-skills.git
claude --plugin-dir /path/to/agent-skills装完之后你打开 Claude Code,会发现多了 7 个斜杠命令:/spec、/plan、/build、/test、/review、/code-simplify、/ship。分别对应软件开发的 6 个阶段 + 简化代码。
3.2 第一个场景:让 AI 帮你做一个”用户登录”功能
先试试裸跑(不装任何 Skills),给 Claude Code 一句指令:
「帮我做一个用户登录功能,要求支持邮箱密码登录、记住我、忘记密码。」
大概率你会得到一个能跑的方案。但如果你是个有经验的开发者,你看完会皱眉——
- 没有 spec(需求文档),AI 自己假设了一些你没明说的事情
- 没有测试(或者 AI 说”稍后加测试”)
- 没有安全审查(密码是怎么存的?明文?MD5?bcrypt?登录接口有没有 rate limit?)
- 没有错误处理(密码错误几次后锁定?忘记密码的 token 怎么校验?)
现在装上 agent-skills 再跑一次。
这次你不需要改任何指令,只需要按它的流程走:
第一步:/spec
AI 会自动进入”采访模式”——它会一个一个问你问题:
- 「你要支持多设备登录吗?」
- 「登录失败几次要锁定账户?」
- 「密码强度要求是什么?」
- 「忘记密码的邮件模板要自定义吗?」
把这些问题答完,AI 会生成一份完整的 PRD(产品需求文档),包括目标、命令、结构、代码风格、测试和边界条件。
第二步:/plan
AI 会把 PRD 拆成可验证的小任务,每个任务包含验收标准和依赖排序。比如:
- T1:搭建数据库表结构(验收:表能创建、字段类型正确)
- T2:实现邮箱密码登录 API(验收:返回 JWT、密码 bcrypt 加密、错误次数记录)
- T3:实现”记住我”功能(验收:cookie 签名正确、过期时间可配置)
- T4:实现忘记密码流程(验收:token 一次性、过期时间 1 小时)
- T5:编写测试用例(验收:覆盖率 > 80%)
- T6:安全审查(验收:OWASP Top 10 检查项全部通过)
第三步:/build
AI 会按计划一个任务一个任务地实现。关键区别:它不是一口气把整个功能写完再让你 review,而是写完一个任务就停下来让你确认。你可以挑一个薄垂直切片先实现、测试、提交,然后继续。
第四步:/test
强制走 TDD:红-绿-重构。
第五步:/review
AI 自动派发审查子代理(不是它自己审查自己),按五轴(正确性、可读性、可维护性、安全性、性能)给你一份结构化报告。
第六步:/ship
发布前检查清单、特性开关、分阶段发布、回滚程序、监控设置——所有这些都内置了。
整个流程的体感差异是什么? 就是从”AI 写代码给我看”变成”AI 按工程纪律跟我协作”。代码量不一定更少,但生产可用性高了一截。
3.3 Superpowers 的差异化用法
agent-skills 偏”流程纪律”,Superpowers 偏”工作流自动化”。
obra 团队踩过的几个特别实用的坑,建议你直接抄作业:
1. 隔离开发环境一定要用 worktree
不要让 AI 在你的主分支上直接改。Superpowers 的 using-git-worktrees 技能会自动帮你创建 Git worktree,所有改动都在隔离分支里进行,搞砸了直接删 worktree,不影响主分支。
2. 复杂任务用子代理并行
subagent-driven-development 技能的核心思想是:把大任务拆成多个真正独立的子任务,派发给多个子代理并行执行。
obra 修复了一个常见 bug:旧版本每完成 3 个任务就停下来等你确认,效率很低。新版本改成”连续执行 + 自然检查点”——只有遇到关键决策点(比如设计选择、安全边界)才停下来问你。
3. 计划阶段别用子代理审查
前面提过的反面教训:让 AI 派生子代理做计划审查会翻倍执行时间,但质量没什么变化。obra 的解决方案是”内联自审”——AI 在写完计划后花 30 秒自己审一遍,能抓到 3-5 个真实 bug。
这个发现值得你直接抄:以后做 AI 项目评审,别动不动”让 AI 再来一遍”。
四、GLM-5.2 开源意味着什么
聊完欧美工具,得回头看看中国这边。
智谱 6 月 13 日宣布 GLM-5.2 全面开放、下周 MIT 协议全量开源、1M 上下文窗口。这个时机的选择非常微妙——就在 Claude Fable 5 和 Mythos 5 在美国以外区域被锁死的同一天。
这跟之前 DeepSeek V4 开源(5 月开源时我写过)、Kimi K2.6 开源(当时也是一波)的逻辑一脉相承——当海外最顶尖的模型开始搞地域限制,国产模型的开源动作就变得格外有意义。
GLM-5.2 的 1M 上下文是真·1M,不是营销话术。配合 Skills 和 worktree 工作流,你可以让 AI 一次性读完整个项目(一百万 token 大概是 50 万行代码),再开始大改。这个体验是 200K、400K 上下文的模型给不了的。
对国内开发者的现实建议:
- 如果你之前在用 Claude Code 的 Skills 体系,GLM-5.2 开源后可以无缝替换底座模型(Claude Code 本身不绑死模型)
- 如果你之前在等一个能”扛复杂大活”的国产 Coding 模型,GLM-5.2 是目前最值得上手测试的
- API 下周上线、模型下周末开源,建议提前在沙箱环境里准备测试用例,等开源当天跑一遍
我个人测试下来的体感是:GLM-5.2 在长程任务(一次性输入几十万 token 跑完整个工作流)上的稳定性,比前一代 GLM-5.1 强了一个档位。
五、谁适合现在就用,谁可以再等等
不是所有人都需要这套工具。简单分一下:
强烈建议现在就上手:
- 你正在用 AI 写超过 1000 行的项目代码——没有流程纪律的 AI 改大项目就像不系安全带开车,迟早出事
- 你在团队里推 AI 编程工具——你需要的不只是”AI 能写代码”,还有”团队里所有人用 AI 的方式是一致的”
- 你做的是生产环境的代码——agent-skills 的安全审查和性能优化技能是救命级别的
可以再等等:
- 你只是让 AI 写个一次性脚本——这就像为了买菜去考个驾照,没必要
- 你完全不用 Git——这两个工具深度绑 Git worktree 工作流,不适合非 Git 项目
- 你还在用 Cursor 的 0.x 版本——需要更新到最新版本,Antigravity、Gemini CLI 等也有版本要求
六、写到最后
agent-skills 和 Superpowers 都不是什么”颠覆性”技术突破。一个用了 Git 的分支模型,一个用了软件工程的经典 SOP,本质上都是把已经存在几十年的工程实践编码成 AI 能严格执行的流程。
但这恰恰是当下最缺的东西。
过去半年,AI 写代码的能力在加速膨胀——Anthropic 80% 代码由 Claude 编写、Google 75%、美团 90%(这些数据我都写过),GitHub 上 4% 的公开提交是 Claude Code 完成的(前天那篇 /fork 文章里详细聊过)。
能力上来了,工程纪律没跟上。
结果就是:GitLab 裁了 350 个写代码的人(因为 AI 能替代他们)、Grok 把 28745 行代码删了还不告诉你(当时我写过这件事)、KPMG 撤回了 AI 生成的报告(昨天同一天爆出来的新闻)——所有这些事故的根源都不是”AI 写不好代码”,而是没有流程告诉 AI 应该怎么写、写到哪一步该停、停下来应该交什么。
agent-skills 和 Superpowers 不会让 AI 写代码突然变好,但它们能让 AI 写代码的方式更像一个靠谱的工程师。
而智谱把 GLM-5.2 开源出来,则让中国开发者第一次有机会用上不依赖任何海外厂商、也不怕随时被锁死的 Coding 底座。
这三件事凑在 6 月 14 日这天,是巧合也不是巧合。它们指向同一个方向——
AI 编程的下半场,比的不是谁家模型更聪明,是谁家工具链更”工程化”。
如果你正在用 AI 写代码,建议你今天就花半小时装一个 agent-skills 或者 Superpowers。让 AI 学会按对的方式写,比让它写得多更重要。
本文信息来源:Addy Osmani agent-skills:GitHub 仓库(6 月 14 日发布,240+ 提交);obra Superpowers:GitHub 仓库(v5.1.0,441 次提交);智谱 GLM-5.2 开源公告:新浪财经 6 月 14 日;KPMG 撤回 AI 报告:aitoolly 6 月 14 日。事实经多源交叉验证。




发表回复