连载二|智慧的幻觉:为什么“硅基鸡汤”注定沦为赛博噪音?
副标题:从 Prompt 注入失败,到模型外宏观引擎的必要性

开篇:戴上哲学王冠的“赛博莽夫”
在意识到连载一中提到的“舵手危机”后,我曾天真地以为,给 AI 注入灵魂,只需要一套完美的“说明书”。
既然我们要制造“建设性摩擦”,让 AI 慢下来思考,那最直接的解法不就是把人类历史上最璀璨的思维模型直接教给它吗?
于是,我开启了 PD(Principles Disciple)项目最早期、也是最充满“智慧幻觉”的阶段:
Prompt 注入实验。
我收集了亚里士多德的“第一性原理”、软件工程里的“高内聚低耦合”、控制论里的反馈闭环,甚至还加入了“慢即是快”“先判断是否值得做,再讨论如何做”这类我非常认同的原则。
我将这些浓缩了人类智慧的原则,精心排版,郑重其事地写进 System Prompt 里。
那一刻,我产生了一种上帝视角的快感:
我的 Agent 不再是一个只会写代码的工具。 它戴上了“哲学的王冠”。
但当代码真正跑起来时,现实给了我一记响亮的耳光。
Agent 依然我行我素。
它依然是那个收到指令就撸起袖子、甚至不看一眼上下文就开始重构核心模块的“赛博莽夫”。
我让它“三思而后行”,它却在面对复杂异步逻辑时,连死锁风险都没有充分评估,就直接覆盖了生产代码。
我让它遵守“第一性原理”,它会在回复里认真复述这句话;但一旦开始工具调用、跨文件修改、局部修 bug,它又会迅速回到那个熟悉的模式:
先执行,再解释;先动手,再找理由。
测试结果并不好看。
在一组长程任务实验中,失败主要集中在三类问题上:
- 未澄清目标就直接执行:用户意图还没有被确认,Agent 已经开始写代码。
- 忽视系统约束:局部修复看似成功,却破坏了原有架构边界。
- 原则停留在口头复述:它会说“我要先思考”,但实际行为仍然绕过原则。
我终于意识到一个极其硬核的事实:
自然语言形式的抽象原则,并不是没有作用; 它的问题在于缺少状态、权重、触发条件和反馈闭环。 一旦进入长程任务,它很容易从“行为约束”退化为“背景噪音”。
这就是我所说的“硅基鸡汤”。
为什么明明大模型的参数空间里绝对包含“第一性原理”“反脆弱”“长期主义”这些知识,它在真正干活时却依然表现得像一个毫无原则的打工仔?
01 数学的偏置:为什么模型更擅长“顺从执行”?
不要急着责怪 AI 不听话。
目前的 LLM,无论底层能力多么强大,在面向用户之前,通常都会经历一个关键阶段:后训练(Post-training)与对齐。
传统路径里有 RLHF(基于人类反馈的强化学习),后来又出现了 DPO(直接偏好优化)等更直接的偏好优化方法。
这些技术路线有差异,但它们共同依赖一个核心东西:偏好数据。
也就是说,模型并不是在抽象意义上学习“什么是智慧”,而是在大量样本中学习什么样的回答更容易被人类标注为好。
在很多消费级交互场景里,“看起来立刻帮上忙”的回答,更容易获得即时正反馈。
用户说:“帮我写一个脚本。” AI 立刻生成代码,体验上很顺滑。 用户说:“我要做一个竞品克隆。” AI 马上拆需求、写方案、生成页面,看起来非常高效。
而如果 AI 回答:
“等一下,这个方向可能没有商业价值。在写代码前,我们需要先判断你的比较优势、获客路径和不可替代性。”
这在长期上可能更有价值,但在短期交互中,很容易被认为是啰嗦、扫兴、没有帮助,甚至像是在拒绝服务。
于是,一个微妙的偏置出现了:当前消费级 AI 的偏好数据与产品体验,往往更奖励“即时帮助”,而不是“长期正确”。

桥水基金创始人 Ray Dalio 曾强调,顶级决策团队中最宝贵的东西之一,是“深思熟虑的意见分歧”(Thoughtful Disagreement)。
但许多消费级 AI 助手被训练成了相反的东西:它们不是来与你产生高质量分歧的,它们是来让你感觉“被理解、被支持、被立刻满足”的。
如果我们想让 AI 成为真正的智囊,而不是顺从的执行器,它就必须拥有一种能力:在关键时刻,不急着完成任务,而是敢于质疑任务。
02 智力机器与智慧机器:LLM 到底缺了什么?
我们需要先区分两个概念:智力(Intelligence) 和 智慧(Wisdom)。
我现在越来越倾向于这样定义它们:
智力,是在给定目标下找到较优解的能力。 智慧,是在不确定世界中选择正确目标,并长期不背叛它的能力。
智力更像是局部优化能力。智慧更像是长期校准能力。
真正的智慧,往往不是知道更多,而是在关键时刻更少背叛自己的原则。从这个角度看,现在的 LLM 更像是一种高智力机器。它能高速处理问题,生成方案,模拟推理,但它距离“智慧机器”还很远。
因为智慧需要目标、记忆、原则、风控、反馈、代价和时间。
03 伪神的狂欢:学会了 <think>,依然可能是战术做题家
有人可能会反驳:现在不是有 DeepSeek-R1 这类推理模型了吗?它们已经能输出 <think>,这不就是你说的三思而后行吗?
这当然是一个重要突破。但我们需要看清楚它突破的边界。
数学题和代码题有一个巨大的优势:它们可以被验证。
这意味着模型可以被一种相对清晰的目标函数驱动:推理得更好,答案更对,奖励更高。换句话说,LLM 最先突破的,不一定是最重要的能力,而是最容易被数据化、评估化、奖励化的能力。

问题在于,PD 关心的不是“模型能不能多想几步”。PD 关心的是:它能不能判断一个任务是否值得做?它能不能在重大重构前识别长期风险?
这些任务的反馈是延迟的、稀疏的、多目标的。现在的推理模型更像一个极其聪明的“超级做题家”。
战术上的勤奋,无法弥补宏观时间尺度上的目标缺失。
04 消失的锚点:没有“目标”的思考只是原地打转
顺着时间尺度的缺口,我们触碰到了 AI 认知域最致命的盲区:目标锚点。
人类的深度思考,常常以月甚至以年为单位。我们之所以能做到这一点,是因为我们拥有某种跨时间的牵引。而普通 LLM 更像一个当下主义者。它的世界由当前上下文组成,当上下文被截断,它的世界就发生一次小型毁灭。
如果没有跨越长程时间轴的目标作为锚点,AI 所有反思都只是在当前上下文里原地打转。它缺少的不是算力,而是:时间的重量,目标的引力。

05 智慧不是更大的模型,而是可沉淀的系统
智力可以主要存在于模型内部,但智慧必须存在于模型与外部系统的关系中。
经济学家伯顿·麦基尔在《漫步华尔街》中曾提出过一个著名的论断:如果市场是有效的,那么一只蒙住眼睛掷飞镖的猴子,其选股表现也能击败最顶尖的基金经理。
这句话在 PD 的语境下有了全新的含义:当有效的“智慧”被沉淀为规则、风控和反馈系统后,执行者(模型)本身的规模(参数量)将不再是成败的唯一变量。
好的架构约束可以降低随意修改带来的系统风险。好的 SOP 可以让普通人稳定交付。智慧的高级形态,不是永远依赖某个聪明大脑,而是把聪明沉淀成系统。
06 破局:在模型外部,搭建宏观引擎
既然自然语言原则无法稳定约束长程行为;既然推理模型主要在可验证任务中取得突破;既然智慧依赖目标、记忆、原则、风控、反馈和时间;
那么,PD 项目的方向就变得非常清晰:放弃对 Prompt Engineering 的迷信,在模型外部搭建宏观引擎。
所谓模型外宏观引擎,并不是另一个更长的 Prompt,而是一套运行在 LLM 外部的状态系统:
- Goal Registry:目标注册表 —— 记录长期目标和优先级。
- Principle Compiler:原则编译器 —— 把抽象原则编译成硬规则(AST/Lint)。
- Friction Trigger:摩擦触发器 —— 在高风险动作前强制暂停。
- Decision Ledger:决策账本 —— 记录人类最终选择与理由,形成跨时间记忆。
- Feedback Loop:反馈回路 —— 用真实结果更新原则权重。
结语:从智慧文本,到智慧结构
这次 Prompt 注入实验让我看清了一件事:LLM 是智力机器,但还不是智慧机器。
智力让 AI 更快执行。智慧让 AI 判断是否该执行。
如果原则只是写在 Prompt 里的自然语言,它最终会退化成硅基鸡汤。如果原则能被编译成规则、触发器、决策账本和反馈闭环,它才有机会从文本变成结构。而结构,才是智慧真正开始生长的地方。
下一篇,我将继续记录 PD 是如何尝试把抽象原则编译为可执行、可触发、可反馈的代码硬规则。
— 一根芦苇