2026-04-29·作者 Jeff

Claude Code 不是工具，是一套世界观——拆解 Cat Wu 访谈里的 7 个产品哲学

AIAnthropicClaude CodeProduct Philosophy

Claude Code 不是工具，是一套世界观——拆解 Cat Wu 访谈里的 7 个产品哲学

推荐做产品的朋友都抽时间看一下 Claude Code 产品负责人 Cat Wu 这两场访谈——一场是 Lenny's Podcast 的单人专访，一场是她和 Boris Cherny 一起上的 Every.to《AI & I》。两场加起来三个多小时，信息密度大到我反复听了两遍。

很多人讨论这两场访谈，焦点都在 Anthropic 怎么把 6 个月的功能压到 1 周、甚至 1 天上线。提速这件事确实很疯，但我看完最大的感触不在速度。

真正让我有启发的，是 Claude Code 这款产品身上藏着的一整套世界观。可以拆成 7 条，每一条单拎出来都反直觉，合起来就是 AI 原生产品该有的样子。下面挨个说。

Plan Mode 不是功能，是世界观。

Boris Cherny 在节目里说了一句很重的话：

"切到 plan mode，让 Claude 先把要做的事一步步摆出来，在动笔之前先就方案对齐——复杂任务的成功率能翻倍甚至三倍。"

翻倍甚至三倍。这个数字我第一次听的时候是有点震的。

操作上其实就是按两次 Shift+Tab。节目里还提到，Boris 自己做有难度的功能时，也是先切 plan mode，把计划对齐了再动笔，一行代码都还没写。

问题是，为什么一个看起来像 UI 选项的小开关，能把成功率拉这么高？

因为它背后是一个产品级的预设——承认模型会幻觉，所以必须先把意图摆到台面上。Plan Mode 不是给你看的，它是给模型看的——逼它先想清楚，再动手。

很多人以为 Plan Mode 是"让用户检查 AI 的计划"，其实更准确的说法是"让 AI 不许跳过思考这一步"。

把"思考显性化"做成产品级机制，这就是世界观。

跟着模型能力裁脚手架，而不是堆功能。

Cat Wu 在 Lenny's 上提了一个挺微妙的概念，叫 AGI-pilled——简单说就是"对 AGI 的押注程度"。她说拿捏好 AGI-pilled 的度是产品里最难的事之一：

太 AGI-pilled 会做出脱离现实的产品愿景；太不 AGI-pilled 又会浪费模型能力。每出一个新模型，这个平衡点都得重新校准。

她和 Boris 的哲学是"砍得跟做得一样多"。下线一个功能（unship），不是因为它失败，而是因为找到了更简单、更直觉的实现路径。

最具体的例子是 todo list。早期模型不会可靠地勾选完成项，团队只能加 system reminder 每几条消息提醒一次。新模型出来之后，这种"提醒脚手架"就成了多余物，直接拆掉。

Cat 还有个固定的基准测试——让 Claude Code 给 Excalidraw 加表格功能。2025 年 6 月的 Opus 4 偶尔能成；不到一年后，2026 年 4 月的 Opus 4.6 已经能一次成型，可以在几千名工程师面前 live demo。

跨度一年，从"偶尔成功"到"一次成型"。脚手架的拆除节奏，完全跟着模型能力走。

别人在追功能，他们在追模型——模型每强一寸，脚手架就拆一寸。

Swiss Cheese 多层防护，不是 vibe coding。

Anthropic 内部把他们这套机制叫 Swiss Cheese Model——多层叠加，每一层都有洞，但叠在一起就没洞了。

落到 Claude Code 这款产品上，Boris 在节目里描述过它跑一个 PR 的具体五步：

Claude 自己跑测试、缺测试就自己写、跑自己生成的 linter、当自动化 reviewer 自审一遍，最后还有人工兜底。

注意，五层里前四层都是 Claude Code 自己搭给自己的。它不相信任何一层能独自不出错，所以叠到第五层人工兜底之前，先自己来四遍。

在 Boris 看来，vibe coding 这种"我感觉它能行"的写法只适合一次性代码和原型，不适合生产系统。理由很简单——生产系统的反面不是模型不够强，是反例必然会出现。

这是 Swiss Cheese 思想最锋利的地方：真正的工业级 AI 产品，不是赌模型不会错，而是假设它一定会错，然后用结构去兜。

Antfooding——每 5 分钟一条反馈。

Anthropic 工程师内部有个外号叫 ants（蚂蚁），所以他们把自己的内部使用循环叫做 Antfooding——dogfooding 的进化版。

Cat 在节目里说了一句听起来很疯的话：

"我们的反馈频道，每 5 分钟就跳出一条新消息。"

5 分钟一条。是不是真有人喜欢这个功能、有 bug、要不要 unship——5 分钟就能拿到一次信号。

办公室里几百个工程师每天都在用 Claude Code，Cat 走一圈就能看到一手反馈。这个画面其实挺关键——Claude Code 的第一批用户，是世界上最挑剔、最会写代码、最舍得吐槽的一群人。

发版 → 内部 dogfooding → 几分钟一次听反馈 → 迭代 → 再发版。这个循环短到什么程度？以前一个功能从立项到上线要 6 个月（规划 + 跨团队对齐 + 写 PRD），现在 Anthropic 内部的整体节奏已经压到 24 小时就能 ship——注意，这是团队整体的迭代节拍，不是说同一个功能能从 6 个月做到 24 小时。

世界上没有比一个被 Claude Code 卡住的工程师更挑剔的用户了。一般产品的 dogfooding 是"我们自己也用"，Antfooding 是"我们用得比所有人都狠"。

让 Subagent 互相挑刺，而不是一锤定音。

这一节可能是整场访谈里最颠覆我认知的一段。

Boris 描述他自己的 code review 命令是这么跑的：

一上来并行开几个 subagent——一个查风格规范，一个翻 git history 看以前怎么实现的，一个找明显 bug。第一轮会同时抓出真问题和假警报。所以我再开 5 个 subagent，专门负责挑前面这些发现的刺。结果是把所有真问题都找出来，假阳性全干掉。

读完这段我愣了一下。我自己平时做 Agent 产品的本能反应永远是"换个更强的模型"——质量出问题，第一直觉就是模型不够好。从来没想过让 N 个 Agent 互相挑刺这条路：质量不靠模型强度，靠的是模型之间的对抗。

大部分人做 Agent 产品的思路是"用一个最强的模型搞定一切"。Claude Code 这边反过来——用多个模型互相打架。第一波 subagent 评审，第二波 subagent 专门挑第一波的刺。

Cat 自己也用类似的配置——一个 planner subagent，一个 code review subagent。同步交互时用 subagent，CI 里用 slash command，做的是同一件事。

代价是真实的。subagent-heavy 的工作流，token 消耗是单 agent 的 2 到 5 倍。对照行业公开数据，企业部署平均下来每开发者每月在 $150-$250；但 Anthropic 内部出现过单用户单月烧掉 15 万美金 token 的极端案例——虽然是个案，也足够说明这套打法的上限有多吓人。

但 Boris 的观点很硬：让 subagent 互相挑刺，结果反而更干净。对抗才是质量来源。

与其相信 AI 一次答对，不如让 AI 互相打脸。

Stop Hook 改写"完成"的定义。

上一节讲的是不信任单点判断，这一节往前再走一步——连"模型说自己做完了"这件事本身都不该信。

Boris 给出的解法是 Stop Hook：

"你完全可以让模型一直跑下去，直到事情真正搞定。"

具体做法是挂一个 stop hook 跑测试套件——测试挂了就把错误丢回去让 Claude 修，再跑一遍，直到测试全绿才算完。"我做完了"不算完，"测试跑通了"才算完。

Boris 在节目里特别强调，给 Claude 一个能自我验证的回路，是从 Claude Code 拿到好结果最重要的一件事——有这个回路，最终质量能提升 2 到 3 倍。

他自己还跑一个 PostToolUse hook 自动格式化代码——Claude 通常格式没问题，这个钩子修最后那 10% 防止 CI 挂掉。

把这两层叠起来看，Stop Hook 干的是一件很底层的事——它在重新定义"完成"这个词。AI 时代，结果才是唯一的诚实。模型自己宣称的"完成"不算数，能跑通的才算。

从 typing 到 deciding——最稀缺的是判断力。

最后一节，Cat 在 Lenny's 上说了一句话，我反复在朋友圈截图给人看：

"代码变得越来越便宜，更值钱的事变成了'判断该写什么'——而且了解一件事有多难做，能帮你做优先级判断。"

她进一步说，所有角色都在融合——PM 在做工程的活，工程师在做 PM 的活，设计师在做 PM 的活。她团队里几乎所有 PM 要么当过工程师、要么自己提 PR；设计师也都是前端工程师出身。

Boris 的视角更狠。在他看来，软件工程师像抄经员，AI 像印刷术——代码不再是稀缺品。

把前面 6 条放到这一节回头看，其实是同一件事——

Plan Mode 是让你把判断显性化；裁脚手架是让你跟着模型能力调判断；Swiss Cheese 是让你不必判断"模型会不会错"；Antfooding 是让你的判断尽快接触真实反馈；Subagent 挑刺是替你判断模型的判断；Stop Hook 是替你判断"完成"的真假。

所有产品哲学都在为同一件事服务——把人从 typing 解放出来，专注于 deciding。

Claude Code 不是要替代工程师，而是要把工程师从打字员的位置上扶起来。

7 条理念串起来，就是 Claude Code 这款产品的世界观——

承认 AI 不可靠，所以建多层防护；不相信单点判断，所以让它互相挑刺；不在乎模型自己宣称的"完成"，只在乎跑通的结果；把人从打字员位置解放出来，专注做判断。

看完最大的感触不是惊叹，是主动求变这四个字。

我们用的产品已经在按这套世界观运转——它假设错误、组织对抗、重新定义完成、把人推向判断位。那我们做产品、做团队、做自己手头工作的方式，是不是也该跟上？团队的协同要变，工具要变，工作习惯要变，连"什么叫做完了一件事"都要被重新定义。

不主动求变，就只能被这套世界观推着走。

推荐你也去把这两场访谈听一遍，比我啰嗦半天有用得多。

你在用 Claude Code 的过程中，最颠覆你认知的设计是哪一个？评论区聊聊。