连载三｜痛苦即信号：前向进化的生物学硬核启示

副标题：从 Prompt 注入失败，到硅基痛觉神经的诞生

封面插图：前向进化

开篇：智慧究竟从哪里生长出来？

既然“说明书”式的 Prompt 注入是一场灾难，那么 AI 的“智慧”究竟该从哪里生长出来？

在连载二里，我提到过一个失败实验：我曾试图把第一性原理、反脆弱、系统思维、长期主义这些抽象原则，直接写进 System Prompt。

我以为，只要模型“知道”这些原则，它就会在行动中自然遵守这些原则。

结果证明，这是一个非常天真的幻想。

它会在回复里复述原则，却在工具调用时绕过原则；它会在计划里承诺谨慎，却在执行时继续冲动修改；它会说“我理解第一性原理”，却在复杂代码现场里继续做局部最优。

这让我开始反思一个更底层的问题：

为什么现在的 AI 看起来总是缺乏真正的“直觉”和“底蕴”？

它明明读过人类历史上几乎所有智慧文本，为什么依然像一个刚背完书、却没有经历过现实摔打的学生？

答案可能藏在深度学习与生物学习之间的差异里。

我们今天训练模型，极度依赖反向传播：先完成一次前向计算，再根据全局误差回传梯度，统一调整参数。

但真实世界里的生命，并不是这样成长的。

一个人不是先把整个人生跑完，再从终局回传梯度。一个组织不是先把十年战略全部执行完，再一次性更新价值观。一个大脑也不是靠一张完美说明书，瞬间获得成熟直觉。

生物更像是在环境中不断行动、碰壁、修正。

它们依靠局部信号、即时反馈、痛感、惊讶、失败和重复经验，把外部世界一点点刻进身体。

Hinton 提出的 Forward-Forward 算法并不是 PD 的直接技术来源，但它给了我一个重要启发：学习未必只能依赖事后的全局清算，也可以依赖执行过程中的局部信号、局部目标和局部调整。

对 PD 来说，这个局部信号，就是 Pain Signal（痛苦信号）。

生物的成长，是前向的。智慧的内化，也应该是前向的。

01 Pain + Reflection：从人生原则到反思性实践

我在 Ray Dalio 的《原则》里找到了那个著名的进化闭环：

Pain（痛苦） + Reflection（反思） = Progress（进步）

这句话非常简单，但它的力量恰恰来自简单。

痛苦本身不会让人进步。很多人经历痛苦，只会变得麻木、怨恨、逃避。

真正让人进步的是：痛苦发生之后，系统没有立刻遗忘它，而是把它转化成可复盘、可提炼、可迁移的经验。

换句话说：

痛苦不是目的，痛苦只是信号。反思不是姿态，反思是把信号转化为结构。

在这里，我们必须澄清一个核心概念： 在这个语境里，“痛苦”（Pain）和“失败”（Failure）绝对不是同义词。 将驱动力设定为“痛苦”而不是“失败”，正是这套体系中最精妙的底层逻辑之一。我们可以从三个维度来理解：

预期的偏离程度 vs. 终点的二元定性失败是离散的、二元的结果（要么成功要么失败），它是事后的静态定性。而痛苦本质上是对预期的偏离程度，它是一个连续的、实时的过程信号。一个 Agent 可能重试了 50 次、浪费了大量 Token 才修复一个 Bug。从结果上看它没有“失败”，但过程严重偏离了“一次性优雅修复”的预期，产生了巨大的“痛苦”。如果只由“失败”驱动，只要结果成功，系统就不会优化；而“痛苦驱动”则会捕捉这些偏离与摩擦，触发反思，确保下次能一遍过。
生物学的反馈信号 vs. 客观的事件判定 一个人或系统可以经历失败，但如果没有感知到痛苦（比如觉得无所谓），就不会产生进化。痛苦在生物学上是一种强烈的保护和进化信号（如手碰热炉子立即缩回的肌肉记忆）。**痛觉，才是真正能改变神经网络权重的生物电流。**因此公式是 Pain + Reflection，而不是 Failure + Reflection。
反思的颗粒度与指向性失败的颗粒度太粗，只能告诉你“这条路走不通”（如 CI 挂了、PR 被拒）。而痛苦的颗粒度极细且自带坐标，能精准指向系统中真正出问题的地方（如“忘记更新 lockfile”、“处理未知数据时用了 any”）。记录下每一个具体的痛点，才能在下次遇到类似上下文时，把痛苦提前转化为原则。

总结来说，由“失败”驱动的系统，只是在练习如何 “不跌倒” （生存底线）；而由“痛苦”驱动的系统，是在极其敏锐地捕捉每一次哪怕极微小的阻滞感，不断消除摩擦，最终走向 “大师级的优雅与直觉” （演化上限）。

插图：从人生原则到反思性实践

后来我继续往下追，发现早在 1983 年，Donald Schön 就在《反思性实践者》中提出过一个更系统的框架。

他认为，真正的专家并不是简单套用书本理论的人。顶尖实践者之所以厉害，是因为他们能在充满噪声、冲突和不确定性的现场中，持续进行两种反思：

行动中反思（Reflection-in-Action） 在遇到意外阻力时，实时刹车，现场调整。
行动后反思（Reflection-on-Action） 事后回到案发现场，重新解构问题、行动和结果。

这两个概念，几乎精准击中了 PD 后续架构的核心。

如果一个 AI Agent 只会在任务结束后说“抱歉，我下次会注意”，那它没有真正反思。如果一个 AI Agent 只会在输出里写“我将遵循第一性原理”，却无法在高风险操作前主动刹车，那它也没有真正内化原则。

现在很多 AI 之所以仍像“打字员”，不是因为它不会说大道理，而是因为它没有痛感。

当你纠正它的错误时，它会道歉。当你指出它破坏了架构时，它会承认。当你让它重写时，它会重新生成。

但到了下一个文件、下一个任务、下一个上下文窗口，它很可能继续犯同样的错误。

这不叫进步。

这叫复读。

PD 项目的中期，我越来越确定一件事：

要把原则种进 AI 的行为系统里，不能只给它说明书。必须让它经历“痛感—刹车—复盘—沉淀”的前向进化循环。

02 从“知道”到“忘记”：成为大师的必经之路

让我讲一个发生在我身边的真实故事。

我曾经向我太太深度科普过“第一性原理”。

她认真去看了相关书籍和商业案例，也尝试用这个原理做一些生活中的决策练习。

当时我非常开心，甚至有点天真地以为：她已经“学会”了，她的人生和行为模式马上就要迎来一次高维蜕变。

但现实很快打了我的脸。

当她遭遇真实、复杂、带有情绪压力的现实摩擦时，很多时候依然会凭借旧的惯性和直觉行事。

后来我意识到，这个故事里的主角不只是她，也包括我自己。

我们都太容易把“理解一个概念”，误以为“已经拥有了这种能力”。

但其实：

“知道”一个概念， “理解”一个概念，和将其“融会贯通”，完全是不同层级的存在。

要成为真正的大师，必须经历历练。

你必须在真实生活中磕磕碰碰，吃过亏，受过痛，经历过强烈摩擦，才会让一个抽象原则与你的真实处境产生强关联。

曾国藩年轻时也并不是天生的圣人。他不断写日课、记过失、接受他人的批评，用近乎笨拙的方式，把外部规训一点点压进自己的行为系统里。

这件事给我的启发是：

原则不是靠“记住”内化的。原则是靠“反复在痛处被触发”内化的。

插图：曾国藩与Knowing-in-Action

只有当一个原则在你的脑海里长出具体枝叶，变成底层的肌肉记忆，深深融入骨髓，直到最后你甚至忘记了“第一性原理”这几个字，但每一次举手投足都在自然践行它时，你才算真正跨越了鸿沟。

Schön 把这种状态称为 Knowing-in-Action。

也就是：你不再需要调用一条原则，因为你已经活成了那条原则。

今天的大模型也是如此。

它读过无数关于第一性原理的文本，却不代表它在行动中内化了第一性原理。

把人类智慧写进 Prompt，最多只能让 AI 停留在“知道”的表层。

如果不让它在真实的代码废墟里经历“磕碰—复盘—修正”的循环，它永远只是一个挂着哲学铭牌的做题家。

03 建立硅基的“痛觉神经”

所以，在 Principles Disciple（PD）的新架构中，我引入了 Pain Signal（痛苦信号） 机制。

但这里必须先澄清一点：

Pain 不是惩罚。 Pain 也不是把 AI 拟人化成会受苦的生命体。
在 PD 里，Pain 是一种系统信号：它衡量的是**“行为对预期的偏离程度”**。当 AI 的行为造成返工、风险、熵增、权限阻塞或最终目标偏离时，系统必须把这种偏离的代价显性化，并触发降速、记录和反思。

人类的痛觉，是为了让身体识别伤害。 PD 的痛觉，是为了让 Agent 识别行为代价。

如果没有痛觉，Agent 就会把一切错误都当成普通上下文。

写烂代码？改掉就行。破坏架构？道歉就行。反复返工？继续生成就行。绕开原则？下次注意就行。

这就是问题所在。

没有痛觉，错误就不会留下痕迹。没有痕迹，反思就无法发生。没有反思，原则就不会生长。

因此，PD 需要一套“硅基痛觉分级体系”。

1. 底层痛觉：人类痛感的投影

最直接的 Pain 来自开发者。

当你在 Code Review 中愤怒地驳回一个 PR，或者你发现 Agent 写出的代码正在制造架构灾难时，这种人类挫败感不能只停留在一句“这不对”。

它应该被系统捕捉，转化为最高优先级的 Pain Signal。

因为在真实项目中，人类的愤怒往往不是情绪噪声，而是系统代价的集中体现：

它浪费了你的时间；
它破坏了已有边界；
它增加了未来维护成本；
它让你对 Agent 的信任下降。

这些都是真实世界的痛感。

2. 中层痛觉：系统摩擦的量化

第二层 Pain 来自系统自身。

并不是所有错误都需要人类亲自指出。很多“正在变坏”的迹象，可以由系统自动观察。

例如：

Agent 在同一段逻辑上反复修改，却没有实质进展；
Diff 不断膨胀，但测试覆盖没有增加；
权限错误、构建失败、lint 失败频繁出现；
修改范围持续扩大，任务目标却没有更清晰；
多次工具调用只是制造噪声，没有推进目标。

PD 会把这些散落的异常信号压缩成一个统一指标，我暂时称之为 GFI（Global Friction Index，全局摩擦指数）。

GFI 不是为了炫技。

它只回答一个非常朴素的问题：

这个 Agent 现在是不是正在用很高的成本原地打转？

如果答案是是，那么系统就不应该继续纵容它“努力执行”。

努力不等于进步。高频操作也不等于有效行动。

3. 高级痛觉：目标偏离的虚无感

第三层 Pain 来自长期目标。

这是最重要、也最难的一层。

在长程任务中，Agent 有时看起来非常勤奋：它不断修改文件，不断运行命令，不断提交结果，不断解释自己的行为。

但从更长时间轴看，它可能只是在瞎忙。

例如：

频繁 git revert，说明它在反复推翻自己；
不断扩展 scope，说明它正在逃离原始目标；
修复一个 bug 却引入三个新 bug，说明它在用局部补丁污染系统；
追求当前任务完成，却破坏了项目长期架构方向。

这种痛苦不是“报错”带来的，而是“目标偏离”带来的。

它更像一种认知层面的虚无感：

我做了很多，但我没有变得更接近目标。

如果一个 Agent 无法感知这种痛感，它就会变成一个极其勤奋的灾难制造机。

插图：硅基痛觉分级体系

一个更前置的问题：眼睛决定世界

但在继续往下讲之前，必须再往前问一步：

大语言模型不具备天生的痛觉神经。

人类的痛觉是硬连线的——手碰到火，神经系统在毫秒内完成感知、传导、反应，不需要任何额外设计。但 AI Agent 的"痛觉"必须由外部系统显式构造。你不构造，它就感知不到。感知不到，就不会反思。不反思，原则就不会生长。

这意味着一个常被忽视的事实：

Agent 能感知到的失败种类，不是一个自然事实，而是一个产品设计选择。
你给 agent 一双什么样的眼睛，它就只能看见什么样的世界。

一个只能感知到"工具调用失败"的 agent，再聪明的诊断器也只能围绕工具调用打转。一个能感知到"目标正在偏离"的 agent，才有机会让人类基于这类证据做出更有意义的判断。一个能感知到"用户在反复纠正"的 agent，才有机会沉淀出与人类期待对齐的原则。

这三层感知，并不会自动产生三层智慧——感知到只是必要条件，不是充分条件。但没有感知，连必要条件都不存在。

所以 PD 在 Pain Signal 之外，还要持续追问一个更朴素的问题：

Agent 该看见什么？我们有没有给它足够宽的感官？

memory layer、learning layer 这几年都被反复讨论，但 sensing layer——"agent 该如何感知自己什么不对"——是一个被讨论得明显较少的层。这层做得多深，可能决定了一个 agent 系统的天花板在哪里。

04 Pain 越过阈值之后，会发生什么？

在 PD 的世界里，一次 Pain 越过阈值，不会只是生成一句道歉。

它会触发一组连锁反应。

1. 强制刹车：Reflection-in-Action

第一步是强制刹车。

当系统判断当前执行流已经出现明显风险时，PD 会物理阻断继续执行，强制降速。

这对应 Schön 所说的 Reflection-in-Action。

也就是：不是等整个任务彻底失败之后才总结，而是在行动现场识别阻力、暂停惯性、重新判断。

这一步非常重要。

因为很多灾难并不是发生在“完全不知道怎么办”的时候，而是发生在“看起来还能继续做”的时候。

Agent 会倾向于继续生成。继续修改。继续补救。继续解释。

但 PD 必须在某些时刻说：

停。不要再用行动掩盖判断缺失。先回到问题本身。

2. 场景固化：把错误从烟雾变成标本

第二步是场景固化。

一次错误如果没有被记录，很快就会变成烟雾。你只记得“它又翻车了”，但不知道它到底在哪里开始偏离。

所以 PD 需要捕捉这一刻的关键上下文：

当时的目标是什么？
Agent 参考了哪些文件？
它执行了哪些工具调用？
它为什么选择这条路径？
哪个信号最早暴露了风险？
人类在哪个节点介入？
最终代价是什么？

这些信息会被写入可追溯的 Decision Ledger（决策账本）。

不是为了审判过去，而是为了让未来的系统拥有记忆。

没有账本，经验就会蒸发。没有经验，痛苦就只是痛苦。

3. 前向反思：Reflection-on-Action

第三步是前向反思。

我原来把这个环节称为“审讯室”，但后来意识到这个词有惩罚意味，不够准确。

更合适的名字是：

复盘舱。

AI 会被带入一个特殊的复盘上下文里。

在这里，它不能继续急着修代码。它必须面对刚刚发生的错误现场，拿着那条抽象原则，重新解释这次失败。

例如：

原则：三思而后行。现场：未同步分支状态下强制修改多个文件，导致冲突扩大。复盘问题：当时应该触发什么检查？下次遇到类似场景，什么条件必须先满足？

这个过程必须消耗额外 Token。

这件事很重要。

因为在系统设计里，成本本身就是信号。

如果每次翻车都必须付出额外计算代价、额外记录代价、额外复盘代价，那么 Agent 的行为系统才会逐渐形成一种新的倾向：

不要轻易制造痛苦。在高风险动作前先暂停。先判断，再执行。

这才是 PD 所谓的“前向进化”。

不是训练结束后的全局反向传播，而是在行动过程中，用局部痛觉信号改变未来行为。

05 从文字记忆到“枝叶生长”

通过 Pain Signal，原则不再是浮在半空中的鸡汤。

它会变成一次次真实摔跤后的教训。

这就是我说的：

让原则在不同土壤里长出枝干和叶子。

一粒“三思而后行”的种子，写在 Prompt 里时，只是一句漂亮的话。

但当它被 Pain Signal 反复触发，就会在不同场景里长出不同形态。

在处理 Git 冲突的土壤里，它会长成：

必须先拉取最新分支，严禁在未同步状态下强制推送。

在重构旧逻辑的土壤里，它会长成：

严禁修改超过 100 行核心逻辑且没有单元测试支撑。

在跨文件修改的土壤里，它会长成：

修改超过 3 个关键文件前，必须先生成影响范围清单。

在权限受限的土壤里，它会长成：

连续两次权限失败后，禁止继续尝试同一路径，必须切换策略或请求人类确认。

在目标模糊的土壤里，它会长成：

需求边界未明确前，只能提出方案，不能执行破坏性修改。

这些枝干和叶子，才是真正的高维认知。

因为它们不是抽象概念。它们是具象的、可执行的、可触发的、带有防御性的知识。

这就是从“知道”到“内化”的关键转换。

Prompt 里的原则，是文字记忆。 Pain 之后沉淀下来的规则，是行为记忆。

文字记忆容易遗忘。行为记忆才会改变下一次动作。

06 下一个问题：智慧太多，会不会压垮系统？

但问题接踵而至。

如果每一次 Pain 都长出一条新规则，每一次失败都沉淀一片新叶子，那么原则之树会不会很快变得过于繁茂？

枝叶越来越多，规则越来越密，检查项越来越复杂。

最后会不会出现另一种灾难：

AI 因为学到了太多“智慧”，反而被智慧压垮，变得行动迟缓、上下文臃肿、判断混乱？

这不是一个小问题。

真实的生物脑并不是无限保留所有连接。它会进行 突触修剪（Synaptic Pruning）：把高频、稳定、重要的模式保留下来，把低价值、重复、过时的连接剪掉。

换句话说，真正的学习不只是增加记忆。真正的学习也包括遗忘、压缩和硬化。

人类也是如此。

一个新手会背很多规则。一个熟手会调用少数关键原则。一个大师甚至忘记了规则的名字，却在行动中自然避开陷阱。

插图：突触修剪与系统硬化

那么在 PD 中，我们也必须回答同样的问题：

哪些 Pain 生成的规则应该保留？
哪些只是偶然噪声？
哪些软原则应该被硬化为代码检查？
哪些高频经验应该从上下文中移出，进入系统层？
哪些过时枝叶应该被剪掉？

这就是连载四要进入的主题：

软硬转换炼金术。

如果说 Pain Signal 解决的是“原则如何生长”，那么软硬转换要解决的就是：

原则如何被压缩、硬化、迁移，最终从提示词变成系统本能。

结语：智慧不是被灌输的，而是被痛感雕刻出来的

连载一里，我讨论了为什么 AI 时代最稀缺的不是执行力，而是判断力。

连载二里，我记录了 Prompt 注入实验的失败：把智慧写进自然语言，并不能稳定改变 Agent 的行为。

而连载三，我越来越确信：

智慧不是被灌输的。智慧是被痛感、反思和真实反馈雕刻出来的。

对人是如此。对组织是如此。对硅基系统也应该如此。

PD 的 Pain Signal，并不是为了惩罚 AI。它是为了让错误拥有重量，让反思拥有现场，让原则拥有生长的土壤。

没有 Pain，原则只是鸡汤。没有 Reflection，痛苦只是噪声。没有 Progress，系统只是复读。

而再往前一步，还有一个常被忽视的前置：没有足够宽的感官，agent 连"哪里疼"都不知道。痛觉的种类决定了反思能指向的位置，反思能指向的位置决定了原则能生长的土壤。

真正的智慧，必须从一次次前向行动中的摩擦里长出来。

如果你想看我们如何把哲学编译成代码，请期待连载四：软硬转换炼金术。

— 一根芦苇

连载三｜痛苦即信号：前向进化的生物学硬核启示 ​

开篇：智慧究竟从哪里生长出来？ ​

01 Pain + Reflection：从人生原则到反思性实践 ​

02 从“知道”到“忘记”：成为大师的必经之路 ​

03 建立硅基的“痛觉神经” ​

1. 底层痛觉：人类痛感的投影 ​

2. 中层痛觉：系统摩擦的量化 ​

3. 高级痛觉：目标偏离的虚无感 ​

一个更前置的问题：眼睛决定世界 ​

04 Pain 越过阈值之后，会发生什么？ ​

1. 强制刹车：Reflection-in-Action ​

2. 场景固化：把错误从烟雾变成标本 ​

3. 前向反思：Reflection-on-Action ​

05 从文字记忆到“枝叶生长” ​

06 下一个问题：智慧太多，会不会压垮系统？ ​

结语：智慧不是被灌输的，而是被痛感雕刻出来的 ​