当AI程序员有了”超能力”：4大技能框架横评，告诉我你选哪个？

2026年，AI编程助手已经不是什么新鲜玩意儿了。Claude Code、Cursor、Codex、Gemini CLI……这些工具你可能都在用。

但你有没有发现一个问题——AI写得代码是快了，可质量怎么保证？流程怎么规范？context window塞满了怎么办？

今天这篇文章，我来帮你评测4个当下最火的AI编程技能框架，告诉你哪个适合你，哪个可能是坑。

先说结论

如果你懒得看完全文，直接记住这三句话：

追求代码质量 → 用 Superpowers
想要多快好省 → 用 get-shit-done
PRD驱动开发 → 用 Ralph
要虚拟工程团队 → 用 gstack

一、Superpowers：最严谨的”老大哥”

来自 obra/superpowers，123k Stars

如果说其他工具是教你”怎么写代码”，Superpowers 是在教你”怎么做工程”。

它提供了14个技能，分成四大类：

调试类：systematic-debugging、verification-before-completion
测试类：test-driven-development（是的，强制TDD）
协作类：brainstorming、writing-plans、code review系列
Meta类：writing-skills、using-superpowers

核心哲学是：AI不应该是冲动编码的机器，而应该遵循系统性开发流程。

所以它的流程是：brainstorming → 写计划 → TDD → 代码审查 → 分支完成。每一步都有”铁律”约束。

好在哪

流程最严谨：强制 brainstorming → plans → TDD → review，不是你想跳过就能跳过的
三层审查：implementer → spec reviewer → code quality reviewer，CI能过但生产爆炸的bug它能揪出来
文档质量极高：铁律、红旗、表格对比，AI能看懂，你也能看懂
技能可组合：14个技能可以独立用，也可以组合用，看你心情

坑在哪

学习曲线陡：14个技能的调用顺序和依赖关系，新手得啃几天
流程较重：写个hello world也要走完整套流程？还真得走
不适合简单任务：快速原型、脚本编写，用这个就是杀鸡用牛刀

适合谁

中大型项目、追求代码质量、有标准化开发流程的团队。如果你是在创业公司一个人当十个人用，可能觉得这个太”重”了。

二、gstack：YC CEO的虚拟工程团队

来自 garrytan/gstack，55.7k Stars

这是Y Combinator CEO Garry Tan开源的项目，他声称用这套工具在60天内输出了60万行生产代码（还包含35%的测试）。

gstack的思路完全不同：把Claude Code变成一支虚拟工程团队，29个slash命令模拟不同角色的专家。

看这个阵容：

/office-hours：CEO/创始人视角重新定义产品
/plan-eng-review：工程经理锁定架构和数据流
/qa：QA负责人测试并自动提交修复
/cso：首席安全官做OWASP Top 10威胁模型
/ship：发布工程师同步main、运行测试、推送PR

还有/browse这种神器——直接控制真实Chromium浏览器，支持headed模式，cookie同步。

好在哪

工程化流程最完整：Think → Plan → Build → Review → Test → Ship → Reflect，虚拟团队帮你全覆盖
真实浏览器集成：很多AI编程工具只能”纸上谈兵”，gstack真的能操控浏览器
并行sprint：支持10-15个并行会话，效率拉满
安全机制完善：/careful（危险命令警告）、/freeze（限制文件编辑）、/guard（二合一）

坑在哪

平台限制：cookie解密只支持macOS Keychain，Windows/Linux用户馋哭
依赖重：核心需要Claude Code + Bun v1.0+
项目太新：2026年3月才发布，20天55k Stars很猛，但长期稳定性未知
心智负担高：10-15个并行sprint，你确定你能管过来？

适合谁

有一定规模的团队，或者高频产出的独立开发者（ Garry Tan 本人就是例子）。如果你喜欢”all-in”的感觉，gstack很适合你。

三、get-shit-done：轻量到起飞

来自 gsd-build/get-shit-done，44.7k Stars

看这个名字就知道，这是给实用主义者的工具。

它的核心理念是解决”context rot”——AI填满上下文窗口后质量下降的问题。

安装只需一行：

npx get-shit-done-cc@latest

提供的技能包括：

/gsd:new-project：提问 → 研究 → 需求 → 路线图
/gsd:plan-phase N：为第N阶段创建任务分解
/gsd:execute-phase N：并行执行任务，每任务原子提交
/gsd:verify-work N：手动验收测试
/gsd:ship N：从已验证阶段创建PR

还有/gsd:quick处理临时任务，/gsd:map-codebase分析现有代码库。

好在哪

安装最简单：npx一行命令，零摩擦
支持8种AI编程助手：Claude Code、OpenCode、Gemini CLI、Codex、Cursor、Windsurf……你用哪个都能跑
解决核心痛点：context window限制是真实问题，它认真在解决
多语言文档：英语、葡萄牙语、中文、日语、韩语

坑在哪

概念需要学习：meta-prompting和context engineering不是看一眼就能懂的
多Agent耗token：并行执行多个子Agent，钱包会疼
Windows支持待验证：主要在Mac/Linux开发

适合谁

个人开发者、不想被流程绑死的团队、以及刚从”AI随便写代码”阶段想进阶的程序员。上手门槛低，体验流畅。

四、Ralph：PRD驱动的小步快跑

来自 snarktank/ralph，14k Stars

Ralph的思路是：一切从PRD开始，一切到PRD结束。

工作流程很简单：

用/prd生成结构化产品需求文档
用/ralph把PRD转换成执行格式
Ralph自动循环执行，直到所有需求完成

每次迭代都会启动全新的AI实例（干净上下文），通过git历史、progress.txt和prd.json实现记忆持久化。

核心原则是：每个story必须足够小，可在一个上下文中完成。

好在哪

流程清晰：PRD → 执行 → 验证，闭环完整
上下文隔离：每次迭代干净上下文，不会有”状态污染”
支持双工具：Amp和Claude Code都能用
Claude Code Marketplace一键安装

坑在哪

项目较新：2026年1月才发布，3个月，14k Stars，验证有限
任务拆分依赖人工：PRD写得不好，执行就会出问题
无自动化测试验证：需要自己配typecheck和tests
31个开放issue：社区响应有待改善

适合谁

愿意花时间写PRD、能接受小步迭代的团队。如果你讨厌写文档，Ralph可能不太适合你。

一张表告诉你怎么选

你的需求	推荐
中大型项目，追求代码质量	Superpowers
虚拟工程团队，高频产出	gstack
轻量开发，解决context rot	get-shit-done
PRD驱动，小步迭代	Ralph
快速原型，简单脚本	get-shit-done
Windows用户	get-shit-done / Superpowers
TDD实践者	Superpowers
多AI协作（要Codex）	gstack

最后说两句

这四个工具代表了四种不同的思路：

Superpowers 是工程化思维，要把AI编程规范化
gstack 是团队化思维，把AI变成虚拟员工
get-shit-done 是实用主义，解决context rot这个真实痛点
Ralph 是精益思维，用PRD驱动一切

没有绝对的好坏，只有适合不适合。

我的建议是：从get-shit-done开始，体验一下AI辅助开发的感觉；等你想追求更高质量了，再上Superpowers；如果你发现自己需要的是”一支虚拟团队”，gstack值得试试。

工具是手段，不是目的。

祝各位程序员都能高效写出好代码。

你正在用哪个工具？有什么使用心得？欢迎留言交流。

流水理鱼

流水理鱼（wwek）的博客

标签： ai编程