当AI程序员有了”超能力”：4大技能框架横评，告诉我你选哪个？

2026年，AI编程助手已经不是什么新鲜玩意儿了。Claude Code、Cursor、Codex、Gemini CLI……这些工具你可能都在用。

但你有没有发现一个问题——AI写得代码是快了，可质量怎么保证？流程怎么规范？context window塞满了怎么办？

今天这篇文章，我来帮你评测4个当下最火的AI编程技能框架，告诉你哪个适合你，哪个可能是坑。

先说结论

如果你懒得看完全文，直接记住这三句话：

追求代码质量 → 用 Superpowers
想要多快好省 → 用 get-shit-done
PRD驱动开发 → 用 Ralph
要虚拟工程团队 → 用 gstack

一、Superpowers：最严谨的”老大哥”

来自 obra/superpowers，123k Stars

如果说其他工具是教你”怎么写代码”，Superpowers 是在教你”怎么做工程”。

它提供了14个技能，分成四大类：

调试类：systematic-debugging、verification-before-completion
测试类：test-driven-development（是的，强制TDD）
协作类：brainstorming、writing-plans、code review系列
Meta类：writing-skills、using-superpowers

核心哲学是：AI不应该是冲动编码的机器，而应该遵循系统性开发流程。

所以它的流程是：brainstorming → 写计划 → TDD → 代码审查 → 分支完成。每一步都有”铁律”约束。

好在哪

流程最严谨：强制 brainstorming → plans → TDD → review，不是你想跳过就能跳过的
三层审查：implementer → spec reviewer → code quality reviewer，CI能过但生产爆炸的bug它能揪出来
文档质量极高：铁律、红旗、表格对比，AI能看懂，你也能看懂
技能可组合：14个技能可以独立用，也可以组合用，看你心情

坑在哪

学习曲线陡：14个技能的调用顺序和依赖关系，新手得啃几天
流程较重：写个hello world也要走完整套流程？还真得走
不适合简单任务：快速原型、脚本编写，用这个就是杀鸡用牛刀

适合谁

中大型项目、追求代码质量、有标准化开发流程的团队。如果你是在创业公司一个人当十个人用，可能觉得这个太”重”了。

二、gstack：YC CEO的虚拟工程团队

来自 garrytan/gstack，55.7k Stars

这是Y Combinator CEO Garry Tan开源的项目，他声称用这套工具在60天内输出了60万行生产代码（还包含35%的测试）。

gstack的思路完全不同：把Claude Code变成一支虚拟工程团队，29个slash命令模拟不同角色的专家。

看这个阵容：

/office-hours：CEO/创始人视角重新定义产品
/plan-eng-review：工程经理锁定架构和数据流
/qa：QA负责人测试并自动提交修复
/cso：首席安全官做OWASP Top 10威胁模型
/ship：发布工程师同步main、运行测试、推送PR

还有/browse这种神器——直接控制真实Chromium浏览器，支持headed模式，cookie同步。

好在哪

工程化流程最完整：Think → Plan → Build → Review → Test → Ship → Reflect，虚拟团队帮你全覆盖
真实浏览器集成：很多AI编程工具只能”纸上谈兵”，gstack真的能操控浏览器
并行sprint：支持10-15个并行会话，效率拉满
安全机制完善：/careful（危险命令警告）、/freeze（限制文件编辑）、/guard（二合一）

坑在哪

平台限制：cookie解密只支持macOS Keychain，Windows/Linux用户馋哭
依赖重：核心需要Claude Code + Bun v1.0+
项目太新：2026年3月才发布，20天55k Stars很猛，但长期稳定性未知
心智负担高：10-15个并行sprint，你确定你能管过来？

适合谁

有一定规模的团队，或者高频产出的独立开发者（ Garry Tan 本人就是例子）。如果你喜欢”all-in”的感觉，gstack很适合你。

三、get-shit-done：轻量到起飞

来自 gsd-build/get-shit-done，44.7k Stars

看这个名字就知道，这是给实用主义者的工具。

它的核心理念是解决”context rot”——AI填满上下文窗口后质量下降的问题。

安装只需一行：

npx get-shit-done-cc@latest

提供的技能包括：

/gsd:new-project：提问 → 研究 → 需求 → 路线图
/gsd:plan-phase N：为第N阶段创建任务分解
/gsd:execute-phase N：并行执行任务，每任务原子提交
/gsd:verify-work N：手动验收测试
/gsd:ship N：从已验证阶段创建PR

还有/gsd:quick处理临时任务，/gsd:map-codebase分析现有代码库。

好在哪

安装最简单：npx一行命令，零摩擦
支持8种AI编程助手：Claude Code、OpenCode、Gemini CLI、Codex、Cursor、Windsurf……你用哪个都能跑
解决核心痛点：context window限制是真实问题，它认真在解决
多语言文档：英语、葡萄牙语、中文、日语、韩语

坑在哪

概念需要学习：meta-prompting和context engineering不是看一眼就能懂的
多Agent耗token：并行执行多个子Agent，钱包会疼
Windows支持待验证：主要在Mac/Linux开发

适合谁

个人开发者、不想被流程绑死的团队、以及刚从”AI随便写代码”阶段想进阶的程序员。上手门槛低，体验流畅。

四、Ralph：PRD驱动的小步快跑

来自 snarktank/ralph，14k Stars

Ralph的思路是：一切从PRD开始，一切到PRD结束。

工作流程很简单：

用/prd生成结构化产品需求文档
用/ralph把PRD转换成执行格式
Ralph自动循环执行，直到所有需求完成

每次迭代都会启动全新的AI实例（干净上下文），通过git历史、progress.txt和prd.json实现记忆持久化。

核心原则是：每个story必须足够小，可在一个上下文中完成。

好在哪

流程清晰：PRD → 执行 → 验证，闭环完整
上下文隔离：每次迭代干净上下文，不会有”状态污染”
支持双工具：Amp和Claude Code都能用
Claude Code Marketplace一键安装

坑在哪

项目较新：2026年1月才发布，3个月，14k Stars，验证有限
任务拆分依赖人工：PRD写得不好，执行就会出问题
无自动化测试验证：需要自己配typecheck和tests
31个开放issue：社区响应有待改善

适合谁

愿意花时间写PRD、能接受小步迭代的团队。如果你讨厌写文档，Ralph可能不太适合你。

一张表告诉你怎么选

你的需求	推荐
中大型项目，追求代码质量	Superpowers
虚拟工程团队，高频产出	gstack
轻量开发，解决context rot	get-shit-done
PRD驱动，小步迭代	Ralph
快速原型，简单脚本	get-shit-done
Windows用户	get-shit-done / Superpowers
TDD实践者	Superpowers
多AI协作（要Codex）	gstack

最后说两句

这四个工具代表了四种不同的思路：

Superpowers 是工程化思维，要把AI编程规范化
gstack 是团队化思维，把AI变成虚拟员工
get-shit-done 是实用主义，解决context rot这个真实痛点
Ralph 是精益思维，用PRD驱动一切

没有绝对的好坏，只有适合不适合。

我的建议是：从get-shit-done开始，体验一下AI辅助开发的感觉；等你想追求更高质量了，再上Superpowers；如果你发现自己需要的是”一支虚拟团队”，gstack值得试试。

工具是手段，不是目的。

祝各位程序员都能高效写出好代码。

你正在用哪个工具？有什么使用心得？欢迎留言交流。

2026年2月国内AI编程套餐(Coding Plan)选购指南：我的亲身踩坑经验

前言：我为什么写这篇文章

去年开始用 Claude Code 写代码，一开始图省事用的官方 Pro，结果一个月下来账单看得我肉疼。后来听说国内出了 Coding Plan，价格便宜量又足，就开始折腾各个平台。
目前国产AI编程也是支棱起来了，比先进的虽说差一代但也刊用了
就我个人的体感已经可以作为主力编程模型了,这个放在半年前还不行的
终于不再被封号,折腾网络等麻烦事了

折腾了小半年，基本上把市面上主流的都试了个遍。这篇文章就是想把我的踩坑经验分享出来，帮你省点时间，也少花点冤枉钱。

先上结论：5大平台一句话总结

平台	我的评价	适合谁
智谱 GLM	工具最全，综合实力最强	正经靠代码吃饭的
MiniMax	便宜到离谱，速度贼快	预算有限的学生党
火山引擎方舟	一个套餐体验6个模型	选择困难症
阿里云百炼	首月7块9，还要啥自行车	想先试试水的新手
Kimi	思考能力强，但有点贵	需要深度推理的

我的详细使用体验

智谱 GLM — 我目前的日常主力

先说缺点：¥49/月的起步价，对学生党来说不算便宜。而且有个坑——首月没优惠，一上来就要付全价。

但为啥我还是用它最多？

因为它的 MCP 工具支持真的太全了。我用 Cursor + Claude Code 的组合，需要文件系统操作、浏览器自动化、数据库查询这些功能，智谱都能直接支持，不用我自己折腾配置。

GLM-5 的代码能力也很能打，写业务逻辑基本不会翻车。用量方面，Lite 套餐对我来说完全够用，官方说是”3倍 Claude Pro 用量”，我实际用下来感觉只多不少。

重要提醒（截至2月23日）：
目前智谱 GLM 所有套餐都需要每天早上10点抢购，需求量比较大，建议定个闹钟卡点下单。

我的建议：
– 如果你每天写代码超过 4 小时，直接上 Pro（¥149/月），有联网搜索和视觉理解，值这个价
– 年付可以打7折，确定长期用的话记得选年付
– 记得早上10点蹲点抢购

👉 点这里看看智谱的最新价格

MiniMax — 穷人的快乐

说实话，第一次看到 MiniMax 的价格我以为是 bug：¥29/月？这够干啥的？

结果真香了。

最让我惊喜的是速度。高速版能做到 100+ TPS，什么概念？你刚敲完回车，代码就出来了，几乎感觉不到延迟。比某些国外大模型快多了。

当然便宜有便宜的道理：
– 模型选择少，只有 M2.5 系列
– 工具生态不如智谱成熟
– 文档有点简陋，配置起来要踩一些坑

但 ¥29 的价格，还要啥自行车？我的建议是：先用 Starter 套餐试试，好用再升级高速版。

👉 MiniMax 的入口在这里

火山引擎方舟 — 选择困难症的救星

如果你问我：”我不知道哪个模型适合我，都想试试怎么办？”

我会直接甩给你火山引擎的链接。

6个模型随便切：Doubao、Kimi、GLM、DeepSeek… 一个套餐全包。而且还有 Auto 模式，让系统自己选模型，省心。

首月 ¥8.91 的价格，基本等于白送。我就是趁首月优惠把各个模型都试了一遍，最后才确定智谱最适合我。

一个小吐槽：火山引擎的控制台界面有点复杂，第一次用可能要花点时间熟悉。但用习惯了就好了。

👉 首月8块9，点这里上车

阿里云百炼 — 体验卡之王

如果你只是想体验一下 Coding Plan 是什么感觉，不用犹豫了，阿里云百炼就是最佳选择。

首月 ¥7.9，一杯奶茶钱，体验完不喜欢下个月不续就行，试错成本极低。

而且模型阵容很豪华：千问3.5-plus、千问3-max、千问3-coder 全都有，还能体验到 GLM-4.7 和 Kimi-K2.5。

但要注意：
– 这是首月价，第二个月开始恢复 ¥40/月
– 用量是 1200-6000次/5h，重度使用可能不够

我的建议：趁首月低价体验，确定喜欢这种工作流再转其他平台的长期套餐。

👉 首月7块9的链接

Kimi — 有点贵，但确实聪明

Kimi K2.5 的思考能力确实强，有些复杂逻辑的问题，其他模型要折腾好几次，Kimi 一次就能 get 到点。

但 ¥49/月的起步价，在 MiniMax ¥29 和智谱工具全家桶的衬托下，性价比就显得一般了。

不过如果你是：
– 需要做复杂算法设计
– 经常要写技术文档、做 PPT（Kimi 会员送这些功能）
– 对中文理解要求特别高

那 Kimi 还是值得考虑的。

Kimi 的套餐命名比较有意思，用的是音乐术语：
– Andante：入门套餐，¥49/月，专属 Code 配额
– Moderato：进阶套餐，¥99/月，更多额度和多设备登录

👉 Kimi 的官网

我的选购建议（抄作业版）

直接说结论，对号入座就行：

你的情况	我推荐	理由
就想花几块钱试试	阿里云百炼 Lite	首月¥7.9，试错成本最低
学生党，预算紧张	MiniMax Starter	¥29/月，够用且便宜
正经开发工作，要稳定	智谱 GLM Lite/Pro	工具最全，不会翻车
不确定用哪个模型	火山引擎方舟 Lite	6个模型随便切，首月才¥8.91
追求极致速度	MiniMax 高速版	100+ TPS，快到飞起
需要深度思考能力	Kimi Andante	推理能力强，还送会员权益

一些常见的坑（我自己踩过的）

1. 首月优惠仅限新用户

这个坑我踩过两次。阿里云和火山引擎的首月价看起来很香，但只能用一次。如果你之前注册过账号但没买，可能也享受不了首月价。

** 换个手机号重新注册（懂的都懂）。

2. 工具兼容性要看清楚

虽然都号称支持 Claude Code，但实际兼容情况不一样
比如要要支持粘贴图片需要看模型是否支持多模态,目前GLM5就不能直接支持

3. 用量计算方式不同

有的平台按”次”算，有的按”token”算，不能直接比较数字。建议先用 Lite 套餐跑一周，看看实际用量再决定是否升级。

写在最后

国内 Coding Plan 这块发展很快，价格也在一直卷。我这篇文章的数据是 2026年2月更新的，如果你看到的时候价格有变化，以官网为准。

另外，Coding Plan 虽然便宜，但也不是万能的。如果你只是偶尔写几行代码，可能直接买各家官方的按量付费更划算。Coding Plan 更适合几乎每天都要用 AI 辅助编程的人。

希望这篇文章能帮到你。如果有问题，欢迎在评论区留言交流。

最后插个广告：我搞了个对比网站 码力榜，把这 5 家平台的价格、模型、支持工具都整理成了表格，还会持续更新最新优惠。如果你想一眼看明白哪家最划算，欢迎来逛逛 👆

P.S. 文中有些链接带了点小尾巴，如果你通过这些链接下单，我可能会收到一点点平台的感谢费（当然不会额外收你的钱）。如果介意的话，可以直接去官网搜索同名套餐~

流水理鱼

流水理鱼（wwek）的博客

分类： AI