Token预算战争：企业AI进入「算账时代」

原文标题：Token Budget Wars

原文作者：Jaya Gupta

原文编译：Peggy

编者按：企业 AI 正在从「是否采用」，进入「如何算账」的阶段。

过去两年，许多公司推动员工使用 AI，更多是为了跟上技术趋势和竞争压力。但当 AI 推理成本从实验预算变成持续性的运营支出，CEO 和 CFO 开始追问一个更现实的问题：AI 到底创造了多少价值？每一美元 token 成本，换来了什么实际结果？

这正是「Token Budget Wars」的核心。所谓 token 预算战争，不只是企业想压低 AI 账单，而是要重新判断哪些业务值得投入更多算力，哪些任务应该换成更便宜的模型，哪些流程可以替代外包或人工，哪些只是无效消耗。

文章最值得关注的是，AI 的使用量并不等于价值。SaaS 时代，使用量通常意味着软件被采用；但 AI 时代，token 消耗只能说明「计价器在运行」。同一个工作流，可能因为提示词、上下文、模型选择和重试次数不同，产生数倍成本差异。账单变高，既可能是 AI 真正在干活，也可能是系统在无效折腾。

因此，企业 AI 的下一阶段，关键不只是模型能力，而是能否把 token 成本和业务结果对应起来。第一阶段证明了 AI 可以完成工作；第二阶段要回答的是：这些工作到底值不值得付费。

以下为原文：

企业 AI 已经从「是否采用」走向「如何分配」。

在公司高层，新的「通货」是你量化 AI 投资回报率的能力。每个职能部门都被问到同一个问题：你产出了什么？成本是多少？过去两年里，CEO 们一边早上醒来看 CNBC 上的 Jim Cramer（#bearish），一边看着竞争对手宣布生产力提升，然后要求公司上下都去使用 AI。现在真正带来压力的，是后续那个问题：把价值证明给我看。

Claude 于 2025 年 11 月发布，而那时大多数企业的 2026 年年度预算已经锁定。到了第一季度，企业的实际使用量已经远超原计划。推理成本不再只是一个用于试验的预算项目，而变成了持续发生的运营成本。随之而来的，是一个新问题：AI 到底在哪里真正创造了价值？

这个问题很难回答，因为 token 的效用并没有被量化。账单无法告诉你，这笔支出究竟是替代了人工、创造了收入、降低了风险、加速了流程，还是只是一群工程师为了排行榜疯狂刷 token（#metamates）。当支出只有几十万美元时，它看起来仍像是一场实验。但超过某个临界点，比如达到七位数时，它就变成了基础设施。技术上的差异开始对损益表产生实质影响：同一个工作流、同一组输入，两次运行的 token 成本可能相差 5 到 10 倍，而表面上看起来并没有任何问题。在实验规模下，这种波动已经相当昂贵；但一旦进入基础设施规模，它就成了 CFO 必须向 CEO 解释的数字。

可以把它称为「边际 token 效用」：每多花一美元推理成本所创造的商业价值。这是在规模化阶段真正重要的数字，也是大多数公司目前看不见的数字。

董事会里的问题正在从「AI 有没有用」，转向「AI 到底在哪里真正形成杠杆」。也正因如此，所谓 token 预算之争，本质上是在争夺 token 的分配权。

而关于 token 所有权的争夺之所以迅速升温，是因为它正撞上一种延续了三十年的高管本能：大团队意味着大职位、大职责范围和更大的权力。过去，高级管理者成功与否的可见标志，是他们管理的团队规模——直属下属、隔级下属，以及组织架构中的人数。

但当智能成为稀缺资源，新的标志就变成了：你能调度多少智能。

AI 支出本质上正在与人工成本竞争。

大多数 AI 预算申请，本质上都是三类主张之一：替代外包劳动力，替代内部劳动力，或创造新的收入。

一个员工有工资。一个 BPO 外包合同有按工单、理赔、发票或审核计价的价格。人类能够理解这些计量单位。但推理成本更复杂，因为一个任务最终完成的成本，取决于系统在执行过程中如何运行。一个需要三次重试、人工修正，并且调用前沿模型的理赔任务，可能比它原本打算替代的外包人力还要贵。也正因如此，讨论正在转向：完成一个结果的成本是多少？比如每个已解决工单、每笔已处理理赔、每份已审合同、每张已完成发票、每个避免新增的岗位、每个留住的客户，或者每一美元收入转化所对应的成本。

高管们已经意识到，BPO 是最容易建立基准的地方，因为这些工作本来就已经按照「完成单位」计价。相比之下，内部员工与 AI 的比较要困难得多，因为员工每天会做很多事情，包括午休时刷 TikTok；生产率提升往往体现为避免招聘或分散的产能释放；而管理者也会抗拒仅仅基于部分自动化就削减团队人数。BPO 为业务团队提供了一个可量化的基准线。

这与 SaaS 的逻辑不同。SaaS 曾经训练企业把使用量视为价值的代理指标。

但 AI 打破了这一点。同一个工作流消耗多少推理资源，可能会因为提示词、检索到的上下文、所选模型、调用的工具、重试次数，以及 agent 是否卡住而出现巨大差异。账单上的单位——token——是稳定的，但它所代表的工作量并不稳定。

更准确地说：信号和噪音使用的是同一个计量单位。token 账单上升，可能意味着真正的工作正在完成；但也可能意味着算力正在被浪费在糟糕的提示词、无关上下文、不必要的工具调用、重复推理和能力过剩的模型上。两家企业的 token 账单可能完全相同，但底层运行的业务截然不同：一家正在把推理转化为结果，另一家则是在为无效折腾买单，而这两种情况在账单条目上看起来一模一样。

SaaS 的使用量告诉你：软件已经被采用。AI 的使用量只能告诉你：计价器正在运行。它并不能告诉你，公司到底有没有真正跑起来。

为什么边际 token 效用难以看见？

主要有三点。

第一是重试长尾。如果一个 agent 第一次就正确完成工作流的概率是 p，那么每个已解决工作流的预期 token 消耗大致会按照 T/p 扩大，其中 T 是基础成本。如果完成率从 90% 下降到 70%，每次解决问题的有效成本大约会提高 28%，而不是 20%，因为失败会产生复合效应。在企业工作流中，输入往往混乱，异常情况也很重要。失败不仅会降低准确率，还会改变经济账。

第二是上下文膨胀。对于高度依赖注意力机制的操作，推理成本大致会随着上下文长度以 O(n²) 的方式增长。因此，上下文长度翻倍，推理成本大致会变为四倍。每个人都希望模型掌握足够信息，所以系统往往会过度供给：原本五份文档就够，检索却拉取了五十份；连接器直接倒入整条邮件线程；agent 携带着早已过时的对话历史继续运行。

第三是路由。当团队不知道哪个模型「足够好」时，默认就会使用最强的模型。一个基础分类任务，可能会跑在原本用于复杂推理的同一个模型上。当调用量达到数百万次时，把简单任务交给小模型，还是把所有任务都交给前沿模型，往往就是可控账单与董事会级别问题之间的区别。

非软件行业会以一种「转型」的形式感受到这种痛苦。软件公司会最先看到这个问题，因为被优化的工作本来就已经被充分仪表化。工程团队有 PR、提交、部署、事故、周期时间、平均修复时间等指标，而且这些指标与产品相连。虽然并不完美，但这类工作更容易被衡量。

非软件企业会更深刻地感受到这个问题，因为它们的工作是运营性的。比如理赔、承保、客服工单、合规审查、供应链异常、支付争议。或者，那些拥有现实世界资产的公司也会面临同样问题。这些工作流过去通常用人工、周期时间、SLA 达成率和错误率来衡量，而且往往有更高要求，需要在审计中站得住脚，而不只是平均意义上正确。工作单位和成本单位并不使用同一种语言，也不处在同一个组织里。技术团队能看到 token 消耗，业务部门能看到工作流变化，但要把两者连接起来，需要多个团队先对「到底在衡量什么」达成一致。

我认为，软件公司会把 token 预算之争体验为一个生产率衡量问题，这也对应了此前发生的诸多「AI 裁员」；而非软件企业会把它体验为一个转型问题。

缺失的那一层，是从 token 到结果的归因。企业需要一个转换层，把推理支出与完成的工作、产生的业务结果连接起来。这个层必须回答三个问题：这个工作流的真实成本是多少，包括重试和修正？agent 的执行轨迹中，哪些部分真正重要，哪些只是无效折腾？这项工作是否改变了运营模式——比如每个客服处理更少工单、理赔周期更短、BPO 预算更小、招聘被推迟？下一层，是用业务语言来做结果归因。不是简单地说「这个工作流花了 2.13 美元」，而是要说：这类理赔由 agent 处理比 BPO 更便宜，但如果保单要求额外异常文件，重试长尾就会摧毁经济性。

衡量会变成记忆。为了把一个 token 与一个结果连接起来，企业必须捕捉中间发生的一切：agent 看到了什么、检索了什么、调用了哪些工具、忽略了什么、在哪里重试、什么时候被人工覆盖、适用了哪个异常规则、哪个先例起了作用，以及为什么一条路径成功而另一条路径失败。衡量层必须记录决策轨迹，而这恰恰是企业过去几乎从未真正拥有过的东西。记录系统能够捕捉发生了什么，但很少能捕捉为什么。比如，CRM 可以告诉你一笔交易延期了，但无法告诉你销售预测背后那些未被写下来的判断。

决策理由是公司里最容易腐败、最容易消失的资产之一，因为它存在于 Slack 线程、邮件链、升级会议和人的脑子里。但问题在于，人会离开，流程也会变化。

AI 改变了这一点，因为 agent 会生成轨迹。每一次检索、工具调用、重试、升级、人工修正和最终决策，都会成为从上下文到行动再到结果这条路径的一部分。起初，公司会捕捉这些轨迹，是为了证明支出的合理性。但一旦这些轨迹被捕捉下来，它们就会比成本报告本身更有价值，因为它们会变成一份持久记录，记录组织实际上是如何做决策的。（咳，context graph，虽然我最近真的已经听腻这个词了。）

分配层才是真正的奖品。如果推理成为客户运营模型中的一种按量计费资源，那么每一美元都必须证明自己值得花。哪些供应商能够说明 token 什么时候转化成了结果，什么时候没有，以及为什么？

企业不会自己把这件事完全摸索出来。它们会把它当作一场转型来购买。财富 500 强企业以前已经反复上演过这种剧本：系好安全带，聘请麦肯锡，把市场上每一个 Palantir 前员工都招进来，然后由 CEO 自上而下推动变革。Token 到结果的归因也会以类似 ERP、BI 和数字化转型的方式出现：作为一个有高管背书的「项目」到来，底层配套一套基础设施，并最终成为新的事实来源。能够做成这件事的创始人，会组建不同类型的创始团队，他们本身也会不同于传统意义上的创业者原型。

谁掌握了 token 到结果的归因，谁就能做出分配决策：哪些工作流值得更多算力，哪些应该设限，哪些应该切换到更便宜的模型，哪些继续由人完成，哪些可以替代 BPO。而一旦你能做出这些决策，你就控制了企业内部 AI 支出的流向，并获得了分配这笔资源所需的信任。

企业 AI 的第一阶段证明了：模型可以完成工作。下一阶段将决定的是：这些工作到底有多少值得付费。正如查理·芒格所说：给我看激励机制，我就能告诉你结果。

原文链接

Token预算战争：企业AI进入「算账时代」

企业 AI 已经从「是否采用」走向「如何分配」。

为什么边际 token 效用难以看见？

관련 기사

미국은 암호화 뉴스의 매일 선택이었다

Hu Yun Buhu Dialogue: Web3의 변화 주기의 밑에 가치 교류의 새로운 패러다임

플레이어 호 : 온, 문을 엽니 다

VanEck CEO에 대해 이야기하십시오 : 스토리지 칩 단위는 수요 공급 잘못 정렬 폼이며 대부분의 암호화 프로젝트는 5 년 후 사라졌습니다

제품

법률 및 지원

친구 링크