AI 编程下半场，比的是「工程化」：三款 6 月 14 日上线的新工具，教你怎么让 AI 像靠谱工程师一样干活

如果你是那种让 AI 写代码写得多、改得也多的人，最近可能会遇到一个挺烦的问题：AI 把你的代码改得稀烂，你想让它回到上一版重新试——可上一版的具体上下文早就不记得了。

这不是你的问题，是工具的问题。

2026 年 6 月 14 日这天，AI 编程圈突然冒出来三件看似无关、但本质同源的事。把这三件事放在一起看，你会发现一个清晰的变化：AI 编程工具正在从”能写代码”升级到”能管流程”。

第一件：Google Chrome 工程副总裁 Addy Osmani 在 GitHub 上线了一个叫 agent-skills 的项目，240+ 次提交，把资深工程师脑子里那些”该不该写测试、什么时候该做 code review、什么情况下要警惕”的经验，编码成 AI 智能体可以严格执行的流程——目前已经适配 Claude Code、Cursor、Antigravity CLI、Gemini CLI、Windsurf、Copilot 等 8 款主流工具。

第二件：开发者 obra 的 Superpowers 框架更新到 v5.1.0，441 次提交。这是个把软件工程流程拆成”技能”的体系：brainstorming、writing-plans、executing-plans、using-git-worktrees、subagent-driven-development……每个技能都像一份被 AI 严格照做的 SOP。obra 团队在测试中发现一个反直觉的事实：让 AI 派生子代理做计划审查会让执行时间翻倍，但计划质量没什么变化——所以他们改成了”内联自审”，30 秒搞定，捕到的 bug 数量差不多。

第三件：智谱宣布 GLM-5.2 下周按 MIT 协议全量开源，1M 上下文窗口，正式给所有 GLM Coding Plan 用户开放。卡在 Claude Fable 5、Mythos 5 同一天在美国以外区域被锁死的当口——你品品这句话的意味：「前沿智能，不该只属于少数人，也不该被少数规则随时收回。」

三件事凑在一起，其实是在回答同一个问题：

当 AI 写代码的本事已经够用了，怎么让它按对的方式写、按对的顺序写、写到一半按对的方式停下来？

这个问题在过去半年变得越来越紧迫。GitLab 在 6 月初裁了 350 个程序员（我当时写过这件事），Anthropic 自己的 RSI 报告披露 Claude 已经能独立工作 16 小时（那篇报告更详细），美团技术团队 31 万行代码里 90% 以上是 AI 写的（他们那 7 个开源项目里就有一个讲这个）。

AI 写代码越来越多，越来越快——但工程纪律没跟上。

agent-skills 和 Superpowers 这类工具的出现，就是来填这个洞的。

一、先搞清楚这两个项目到底在做什么

很多文章会把它们简单介绍成”AI 提示词集合”，这是错的。

它们不是提示词，是工作流。

1.1 agent-skills 是什么

Addy Osmani 这个项目的官方描述里有一句话我特别认同：

「Process, not prose.」（是流程，不是文章。）

技能是智能体遵循的工作流，不是它阅读的参考文档。

具体来说，agent-skills 把软件开发分成了 6 个生命周期阶段——Define（定义）、Plan（规划）、Build（构建）、Verify（验证）、Review（审查）、Ship（发布）——每个阶段下面挂 2-6 个可独立调用的技能（skill），总共 23 个生命周期技能 + 1 个元技能 + 4 个专业审查者角色 + 4 份参考检查清单。

随便挑一个看看——比如 test-driven-development：

明确告诉你什么时候该用（实现逻辑、修复 Bug、改变行为时）
强制要求遵循红-绿-重构循环和测试金字塔（80/15/5：单元测试 80%、集成测试 15%、E2E 测试 5%）
包含一个反合理化表——AI 想偷懒时会说的那些借口（”我稍后再加测试”、”这个改动太小了不用测”），以及每个借口的反驳论点
以证据要求收尾——测试通过、构建输出，不是”看起来正确”

这就是”流程”和”提示词”的本质区别。提示词是建议，流程是命令。

1.2 Superpowers 是什么

obra 的 Superpowers 走的是另一条路：把整个软件工程流程拆成可重用的 Skills，每个 Skill 都是一个 SKILL.md 文件，包含 frontmatter 元数据和结构化步骤。

核心 Skills 包括：

brainstorming：跟你一问一答，把模糊想法变成具体方案（内置 Web 服务器可以在浏览器里交互）
writing-plans：把方案变成可执行计划
executing-plans：按计划执行
using-git-worktrees：创建 Git worktree 隔离开发环境
subagent-driven-development：把大任务拆成多个并行子任务
requesting-code-review：派发审查子代理

obra 在 README 里特别提了一个踩过的坑：派生新代理做计划审查（让一个 AI 检查另一个 AI 的方案）执行时间翻倍（多花 25 分钟），但质量没什么改善。所以他们改成了”内联自审”——AI 在写完计划后花 30 秒自己审一遍，能抓到 3-5 个真实 bug，剩下的就交给后续环节。

这个发现非常实用：很多团队以为”AI 套 AI”能提升质量，但线性叠加 AI 审查并不等于质量叠加。

二、它们跟传统 Prompt Engineering 的区别

如果你之前用 Cursor 或者 Claude Code，你可能写过 .cursorrules 或者 CLAUDE.md——把项目规范、个人偏好写在一个文件里让 AI 读。

agent-skills 和 Superpowers 跟这种做法有三个根本不同：

维度	.cursorrules / CLAUDE.md	agent-skills / Superpowers
触发方式	永远在 prompt 里	按上下文自动激活（比如你开始改 API，它会拉起 `api-and-interface-design`）
内容形式	自由文本规则	结构化 SKILL.md（frontmatter + 触发条件 + 步骤 + 反合理化 + 验证）
可验证性	靠 AI 自己判断	每个技能以证据要求结束（测试通过、构建输出），不接受”看起来对”

第二个区别尤其重要。自由文本规则写到 .cursorrules 里，AI 会”理解”它——但理解是软的，写代码时大概率会忘。结构化 SKILL.md 写入流程步骤，AI 在执行时会被强制走完每一步。

说得更直白一点：.cursorrules 是”我希望 AI 能做到的事”，SKILL.md 是”AI 必须按这个顺序做这些事，并证明每一步都做了”。

三、实战：在 Claude Code 里装一个 agent-skills 试试

光看介绍不够，得上手。下面我手把手带你把 agent-skills 装到 Claude Code 里，看看它跟”裸跑”到底差在哪。

3.1 安装

最快的方式是走市场：

Bash

# 在 Claude Code 里执行
/plugin marketplace add addyosmani/agent-skills
/plugin install agent-skills@addy-agent-skills

# 在 Claude Code 里执行
/plugin marketplace add addyosmani/agent-skills
/plugin install agent-skills@addy-agent-skills

或者如果你想本地开发，可以克隆下来手动指定：

Bash

git clone https://github.com/addyosmani/agent-skills.git
claude --plugin-dir /path/to/agent-skills

git clone https://github.com/addyosmani/agent-skills.git
claude --plugin-dir /path/to/agent-skills

装完之后你打开 Claude Code，会发现多了 7 个斜杠命令：/spec、/plan、/build、/test、/review、/code-simplify、/ship。分别对应软件开发的 6 个阶段 + 简化代码。

3.2 第一个场景：让 AI 帮你做一个”用户登录”功能

先试试裸跑（不装任何 Skills），给 Claude Code 一句指令：

「帮我做一个用户登录功能，要求支持邮箱密码登录、记住我、忘记密码。」

大概率你会得到一个能跑的方案。但如果你是个有经验的开发者，你看完会皱眉——

没有 spec（需求文档），AI 自己假设了一些你没明说的事情
没有测试（或者 AI 说”稍后加测试”）
没有安全审查（密码是怎么存的？明文？MD5？bcrypt？登录接口有没有 rate limit？）
没有错误处理（密码错误几次后锁定？忘记密码的 token 怎么校验？）

现在装上 agent-skills 再跑一次。

这次你不需要改任何指令，只需要按它的流程走：

第一步：/spec

AI 会自动进入”采访模式”——它会一个一个问你问题：

「你要支持多设备登录吗？」
「登录失败几次要锁定账户？」
「密码强度要求是什么？」
「忘记密码的邮件模板要自定义吗？」

把这些问题答完，AI 会生成一份完整的 PRD（产品需求文档），包括目标、命令、结构、代码风格、测试和边界条件。

第二步：/plan

AI 会把 PRD 拆成可验证的小任务，每个任务包含验收标准和依赖排序。比如：

T1：搭建数据库表结构（验收：表能创建、字段类型正确）
T2：实现邮箱密码登录 API（验收：返回 JWT、密码 bcrypt 加密、错误次数记录）
T3：实现”记住我”功能（验收：cookie 签名正确、过期时间可配置）
T4：实现忘记密码流程（验收：token 一次性、过期时间 1 小时）
T5：编写测试用例（验收：覆盖率 > 80%）
T6：安全审查（验收：OWASP Top 10 检查项全部通过）

第三步：/build

AI 会按计划一个任务一个任务地实现。关键区别：它不是一口气把整个功能写完再让你 review，而是写完一个任务就停下来让你确认。你可以挑一个薄垂直切片先实现、测试、提交，然后继续。

第四步：/test

强制走 TDD：红-绿-重构。

第五步：/review

AI 自动派发审查子代理（不是它自己审查自己），按五轴（正确性、可读性、可维护性、安全性、性能）给你一份结构化报告。

第六步：/ship

发布前检查清单、特性开关、分阶段发布、回滚程序、监控设置——所有这些都内置了。

整个流程的体感差异是什么？ 就是从”AI 写代码给我看”变成”AI 按工程纪律跟我协作”。代码量不一定更少，但生产可用性高了一截。

3.3 Superpowers 的差异化用法

agent-skills 偏”流程纪律”，Superpowers 偏”工作流自动化”。

obra 团队踩过的几个特别实用的坑，建议你直接抄作业：

1. 隔离开发环境一定要用 worktree

不要让 AI 在你的主分支上直接改。Superpowers 的 using-git-worktrees 技能会自动帮你创建 Git worktree，所有改动都在隔离分支里进行，搞砸了直接删 worktree，不影响主分支。

2. 复杂任务用子代理并行

subagent-driven-development 技能的核心思想是：把大任务拆成多个真正独立的子任务，派发给多个子代理并行执行。

obra 修复了一个常见 bug：旧版本每完成 3 个任务就停下来等你确认，效率很低。新版本改成”连续执行 + 自然检查点”——只有遇到关键决策点（比如设计选择、安全边界）才停下来问你。

3. 计划阶段别用子代理审查

前面提过的反面教训：让 AI 派生子代理做计划审查会翻倍执行时间，但质量没什么变化。obra 的解决方案是”内联自审”——AI 在写完计划后花 30 秒自己审一遍，能抓到 3-5 个真实 bug。

这个发现值得你直接抄：以后做 AI 项目评审，别动不动”让 AI 再来一遍”。

四、GLM-5.2 开源意味着什么

聊完欧美工具，得回头看看中国这边。

智谱 6 月 13 日宣布 GLM-5.2 全面开放、下周 MIT 协议全量开源、1M 上下文窗口。这个时机的选择非常微妙——就在 Claude Fable 5 和 Mythos 5 在美国以外区域被锁死的同一天。

这跟之前 DeepSeek V4 开源（5 月开源时我写过）、Kimi K2.6 开源（当时也是一波）的逻辑一脉相承——当海外最顶尖的模型开始搞地域限制，国产模型的开源动作就变得格外有意义。

GLM-5.2 的 1M 上下文是真·1M，不是营销话术。配合 Skills 和 worktree 工作流，你可以让 AI 一次性读完整个项目（一百万 token 大概是 50 万行代码），再开始大改。这个体验是 200K、400K 上下文的模型给不了的。

对国内开发者的现实建议：

如果你之前在用 Claude Code 的 Skills 体系，GLM-5.2 开源后可以无缝替换底座模型（Claude Code 本身不绑死模型）
如果你之前在等一个能”扛复杂大活”的国产 Coding 模型，GLM-5.2 是目前最值得上手测试的
API 下周上线、模型下周末开源，建议提前在沙箱环境里准备测试用例，等开源当天跑一遍

我个人测试下来的体感是：GLM-5.2 在长程任务（一次性输入几十万 token 跑完整个工作流）上的稳定性，比前一代 GLM-5.1 强了一个档位。

五、谁适合现在就用，谁可以再等等

不是所有人都需要这套工具。简单分一下：

强烈建议现在就上手：

你正在用 AI 写超过 1000 行的项目代码——没有流程纪律的 AI 改大项目就像不系安全带开车，迟早出事
你在团队里推 AI 编程工具——你需要的不只是”AI 能写代码”，还有”团队里所有人用 AI 的方式是一致的”
你做的是生产环境的代码——agent-skills 的安全审查和性能优化技能是救命级别的

可以再等等：

你只是让 AI 写个一次性脚本——这就像为了买菜去考个驾照，没必要
你完全不用 Git——这两个工具深度绑 Git worktree 工作流，不适合非 Git 项目
你还在用 Cursor 的 0.x 版本——需要更新到最新版本，Antigravity、Gemini CLI 等也有版本要求

六、写到最后

agent-skills 和 Superpowers 都不是什么”颠覆性”技术突破。一个用了 Git 的分支模型，一个用了软件工程的经典 SOP，本质上都是把已经存在几十年的工程实践编码成 AI 能严格执行的流程。

但这恰恰是当下最缺的东西。

过去半年，AI 写代码的能力在加速膨胀——Anthropic 80% 代码由 Claude 编写、Google 75%、美团 90%（这些数据我都写过），GitHub 上 4% 的公开提交是 Claude Code 完成的（前天那篇 /fork 文章里详细聊过）。

能力上来了，工程纪律没跟上。

结果就是：GitLab 裁了 350 个写代码的人（因为 AI 能替代他们）、Grok 把 28745 行代码删了还不告诉你（当时我写过这件事）、KPMG 撤回了 AI 生成的报告（昨天同一天爆出来的新闻）——所有这些事故的根源都不是”AI 写不好代码”，而是没有流程告诉 AI 应该怎么写、写到哪一步该停、停下来应该交什么。

agent-skills 和 Superpowers 不会让 AI 写代码突然变好，但它们能让 AI 写代码的方式更像一个靠谱的工程师。

而智谱把 GLM-5.2 开源出来，则让中国开发者第一次有机会用上不依赖任何海外厂商、也不怕随时被锁死的 Coding 底座。

这三件事凑在 6 月 14 日这天，是巧合也不是巧合。它们指向同一个方向——

AI 编程的下半场，比的不是谁家模型更聪明，是谁家工具链更”工程化”。

如果你正在用 AI 写代码，建议你今天就花半小时装一个 agent-skills 或者 Superpowers。让 AI 学会按对的方式写，比让它写得多更重要。

本文信息来源：Addy Osmani agent-skills：GitHub 仓库（6 月 14 日发布，240+ 提交）；obra Superpowers：GitHub 仓库（v5.1.0，441 次提交）；智谱 GLM-5.2 开源公告：新浪财经 6 月 14 日；KPMG 撤回 AI 报告：aitoolly 6 月 14 日。事实经多源交叉验证。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我进行处理。

发表回复取消回复

Open Claw：让 AI 真正“动手”的智能体革命

零成本玩转OpenClaw：免费API接入与避坑指南

如何为OpenClaw AI角色设置独特的人设

PicShrink：一个专注于实用的图片压缩工具

2026年“Claw”家族全系工具大盘点

Copilot 按量计费两周了：你的账单还好吗？一份不废话的省钱实操指南