AI 单位里最贵的不是算力,是“不可复现”的决策链
省下推理钱很容易,把线上行为变成可复现证据链才是真正的成本控制
线上成本会上去,很多时候不是 token 单价贵,也不是 QPS 失控,而是同一类问题要被反复排查。你以为买的是推理服务,实际买到的是一台“行为随时会变”的系统,出了事却拿不出一条完整证据链。
这也是我越来越不信“AI 单位 = token”这种算法的原因。
同样 1 次调用,可复现和不可复现的差别,决定了你要付出的不是 1 次推理的钱,而是后面一串工程成本,复盘成本,合规成本。
事情是怎么失控的
一开始我们做成本分析很简单,所有账都能落到一行:
- token 单价
- 输入输出 token 数
- 调用量
报表做出来之后,看起来也很漂亮,成本下降曲线清晰,甚至能对外讲“单位成本下降了多少”。
真正出问题是在上线后第二周。
客服开始报“同一个问题,有时能答对,有时会答错”。产品追问“是不是模型变差了”。我们第一反应是去看模型版本,结果模型版本没动。
然后我们去看提示词,提示词也没动。
再往下翻日志,才发现:这条请求实际走了多模型路由,命中了不同供应商的不同模型,工具调用也不一致。更要命的是,当时的日志只记录了“最终输出”,没有记录当时的路由决策理由,也没有把上下文快照留存下来。
于是这类问题会变成一个非常典型的排障死局:
- 复现不了
- 归因不了
- 只能猜
猜的结果通常有两种,都是错的:
- 把问题归因成“模型随机性”,然后用降温、加惩罚去压它。
- 把问题归因成“提示词没写好”,然后开始堆指令,堆到最后提示词变成另一种不可控系统。
这两种做法都会让你在 token 账面上更贵,却没有让系统更可控。
这类成本,为什么会打穿预算
token 成本是线性的:一次调用多花 10%,大概就真的多花 10%。
不可复现带来的成本是指数型的,因为它会把每一次线上问题的处理流程放大:
- 排障时间从 30 分钟变成 3 小时,因为你无法在本地重放同一条请求。
- 回滚决策变慢,因为你不知道该回滚模型,回滚路由,还是回滚工具。
- 合规取证变难,因为你无法回答“当时为什么输出这个结论,它依据了哪些输入”。
- 返工成本变高,因为你不得不通过“加更多 guardrail”来修补,但 guardrail 本身也需要维护。
最隐蔽的一项是:你会被迫把大量工程资源投入到“稳定线上行为”上,而不是投入到“提升能力”上。
这就是为什么很多团队越做越像在养一套复杂的规则系统,最后既没有省钱,也没有更智能。
我把 AI 单位重算成什么
如果你只把“AI 单位”算成 token,你会优化出一堆很危险的策略:
- 为了省钱,做更激进的路由和降级。
- 为了省钱,把更多逻辑挪到 prompt 和工具里。
- 为了省钱,把更多判断交给模型来“自动决定”。
这些都在把系统往“不可复现”方向推。
我更愿意把 AI 单位拆成两部分:
- 推理单位:token,延迟,吞吐。
- 证据单位:一次决策需要付出多少可追溯性成本。
推理单位解决的是“跑起来要多少钱”。
证据单位解决的是“出了事要花多少钱”。
而真正贵的往往是第二个。
一条可复现的决策链,至少要长什么样
我把它当成一条“账本”,每次请求都必须能把关键节点串起来。
最少需要这几类字段,缺一类都会在某种事故里让你断链:
- 路由决策:命中哪个模型,为什么,候选有哪些,是否降级。
- 提示词版本:system + developer + 模板版本号,关键参数。
- 上下文快照:参与生成的检索结果摘要、文档版本、权限过滤结果。
- 工具调用链:调用了哪些工具,入参是什么,返回是什么,耗时多少。
- 输出与后处理:最终输出,过滤规则命中情况,拒答原因(如果拒答)。
这里我刻意不把“全文上下文”当作必需项,因为很多场景存不下来,或者存了也合规风险太大。
但至少要保证:你能在必要时重放到“同样的决策路径”。
最常见的误区
误区 1:靠 temperature 压随机性
随机性不是核心问题。
真正的问题是:你连这次输出是怎么来的都说不清。你压低 temperature 只能让它“更像一个稳定的黑箱”。
误区 2:把 prompt 当成配置中心
当 prompt 承载越来越多业务规则,它就不再是提示词,而是一个没有类型系统、没有测试、没有回滚机制的“运行时配置”。
这会直接抬高证据单位。
误区 3:只记最终输出,不记中间路径
只记输出,等于把排障变成“猜谜”。
很多线上问题不是答案错,而是某个工具调用错、某条检索命中错、某次路由降级错。你不记录路径,就永远只能从结果倒推,倒推通常推不出来。
适用边界
不是所有系统都需要为每条请求做完整账本。
我会用三个条件决定是不是要把证据单位算进去:
- 这条输出会不会进入业务闭环(影响交易、审批、风控、对外承诺)。
- 这条输出能不能被用户或外部审计追责。
- 这条输出一旦错了,修复成本是不是高于一次推理成本。
如果三个条件里命中任意两个,我就会把“可复现决策链”当成成本控制的第一优先级。
结尾
token 是显性的成本,不可复现是隐性的税。
真正划算的 AI 系统,不是把每次调用压到最低价,而是把每一次线上行为都变成可追溯的证据链。
你省下的不是推理钱,是下一次事故里那几个晚上。