AI 系统里的高成本决策链

未分类2026年4月16日 22:306 分钟阅读

省下推理钱很容易，把线上行为变成可复现证据链才是真正的成本控制

专题入口 / 未分类

线上成本会上去，很多时候不是 token 单价贵，也是同一类问题要被反复排查。表面上会以为买的是推理服务，实际买到的是一台“行为随时会变”的系统，出了事却拿不出一条完整证据链。

这也是我越来越不信“AI 单位 = token”这种算法的原因。

同样 1 次调用，可复现和不可复现的差别，决定了需要付出的是后面一串工程成本，复盘成本，合规成本。

事情是怎么失控的

一开始我们做成本分析很简单，所有账都能落到一行：

token 单价
输入输出 token 数
调用量

报表做出来之后，看起来也很漂亮，成本下降曲线清晰，甚至能对外讲“单位成本下降了多少”。

真正出问题是在上线后第二周。

客服开始报“同一个问题，有时能答对，有时会答错”。产品追问“是不是模型变差了”。我们第一反应是去看模型版本，结果模型版本没动。

然后我们去看提示词，提示词也没动。

再往下翻日志，才发现：这条请求实际走了多模型路由，命中了不同供应商的不同模型，工具调用也不一致。更要命的是，当时的日志只记录了“最终输出”，没有记录当时的路由决策理由，也没有把上下文快照留存下来。

于是这类问题会变成一个非常典型的排障死局：

复现不了
归因不了
只能猜

猜的结果通常有两种，都是错的：

把问题归因成“模型随机性”，然后用降温、加惩罚去压它。
把问题归因成“提示词没写好”，然后开始堆指令，堆到最后提示词变成另一种不可控系统。

这两种做法都会让在 token 账面上更贵，却没有让系统更可控。

这类成本，会打穿预算

token 成本是线性的：一次调用多花 10%，大概就真的多花 10%。

不可复现带来的成本是指数型的，因为它会把每一次线上问题的处理流程放大：

排障时间从 30 分钟变成 3 小时，因为无法在本地重放同一条请求。
回滚决策变慢，因为不知道该回滚模型，回滚路由，还是回滚工具。
合规取证变难，因为无法回答“当时为什么输出这个结论，它依据了哪些输入”。
返工成本变高，因为不得不通过“加更多 guardrail”来修补，但 guardrail 本身也需要维护。

最隐蔽的一项是：往往会被迫把大量工程资源投入到“稳定线上行为”上，而不是投入到“提升能力”上。

这也说明很多团队越做越像在养一套复杂的规则系统，最后既没有省钱，也没有更智能。

我把 AI 单位重算成什么

如果只把“AI 单位”算成 token，往往会优化出一堆很危险的策略：

为了省钱，做更激进的路由和降级。
为了省钱，把更多逻辑挪到 prompt 和工具里。
为了省钱，把更多判断交给模型来“自动决定”。

这些都在把系统往“不可复现”方向推。

我更愿意把 AI 单位拆成两部分：

推理单位：token，延迟，吞吐。
证据单位：一次决策需要付出多少可追溯性成本。

推理单位解决的是“跑起来要多少钱”。

证据单位解决的是“出了事要花多少钱”。

而真正贵的往往是第二个。

一条可复现的决策链，至少要长什么样

我把它当成一条“账本”，每次请求都必须能把关键节点串起来。

最少需要这几类字段，缺一类都会在某种事故里让断链：

路由决策：命中哪个模型，为什么，候选有哪些，是否降级。
提示词版本：system + developer + 模板版本号，关键参数。
上下文快照：参与生成的检索结果摘要、文档版本、权限过滤结果。
工具调用链：调用了哪些工具，入参是什么，返回是什么，耗时多少。
输出与后处理：最终输出，过滤规则命中情况，拒答原因（如果拒答）。

这里我刻意不把“全文上下文”当作必需项，因为很多场景存不下来，或者存了也合规风险太大。

但至少要保证：能否在必要时重放到“同样的决策路径”。

最常见的误区

误区 1：靠 temperature 压随机性

随机性不是核心问题。

真正的问题是：连这次输出是怎么来的都说不清。压低 temperature 只能让它“更像一个稳定的黑箱”。

误区 2：把 prompt 当成配置中心

当 prompt 承载越来越多业务规则，它就不再是提示词，而是一个没有类型系统、没有测试、没有回滚机制的“运行时配置”。

这会直接抬高证据单位。

误区 3：只记最终输出，不记中间路径

只记输出，等于把排障变成“猜谜”。

很多线上问题是某个工具调用错、某条检索命中错、某次路由降级错。不记录路径，就永远只能从结果倒推，倒推通常推不出来。

适用边界

不是所有系统都需要为每条请求做完整账本。

我会用三个条件决定是不是要把证据单位算进去：

这条输出会不会进入业务闭环（影响交易、审批、风控、对外承诺）。
这条输出能不能被用户或外部审计追责。
这条输出一旦错了，修复成本是不是高于一次推理成本。

如果三个条件里命中任意两个，我就会把“可复现决策链”当成成本控制的第一优先级。

小结

token 是显性的成本，不可复现是隐性的税。

真正划算的 AI 系统，是把每一次线上行为都变成可追溯的证据链。

省下的是下一次事故里那几个晚上。

下一步

读完之后，下一步看什么

想继续看未分类方向的内容？

同分类通常更适合作为下一步延伸阅读，能快速进入同一主题下的系列文章。

查看同分类

想换一个方向重新找内容？

如果你还不确定要看哪一类问题，可以先回首页，从分类、主题和最新更新重新进入。

回到首页

继续阅读

未分类 · 0 个标签

AI 提效会持续抬高团队交付基线

当基础产出被自动化吞掉之后，真正稀缺的是稳定收敛复杂问题的能力

继续阅读

未分类 · 0 个标签

细粒度组件拆分与状态所有权问题

把一份状态切成多个局部真相之后，时序就变成概率事件

继续阅读

未分类 · 0 个标签

异步化启动优化与初始化偶发现象

把 200ms 的收益换成不可复现的竞态和排障成本，通常不值

继续阅读

返回首页查看同分类

事情是怎么失控的

这类成本，会打穿预算

我把 AI 单位重算成什么

一条可复现的决策链，至少要长什么样

最常见的误区

误区 1：靠 temperature 压随机性

误区 2：把 prompt 当成配置中心

误区 3：只记最终输出，不记中间路径

适用边界

小结

读完之后，下一步看什么

想继续看 未分类 方向的内容？

想换一个方向重新找内容？

继续阅读

想继续看未分类方向的内容？