Token预算战争:企业AI进入「算账时代」

2026/05/29 02:43
👤ODAILY
🌐zh-Hans

AI成本、ROI和企业内部资源分配

Token预算战争:企业AI进入「算账时代」

原文标题:Token Budget Wars

原文作者:Jaya Gupta

原文编译:Peggy

编者按:企业 AI 正在从「是否采用」,进入「如何算账」的阶段。

过去两年,许多公司推动员工使用 AI,更多是为了跟上技术趋势和竞争压力。但当 AI 推理成本从实验预算变成持续性的运营支出,CEO 和 CFO 开始追问一个更现实的问题:AI 到底创造了多少价值?每一美元 token 成本,换来了什么实际结果?

这正是「Token Budget Wars」的核心。所谓 token 预算战争,不只是企业想压低 AI 账单,而是要重新判断哪些业务值得投入更多算力,哪些任务应该换成更便宜的模型,哪些流程可以替代外包或人工,哪些只是无效消耗。

文章最值得关注的是,AI 的使用量并不等于价值。SaaS 时代,使用量通常意味着软件被采用;但 AI 时代,token 消耗只能说明「计价器在运行」。同一个工作流,可能因为提示词、上下文、模型选择和重试次数不同,产生数倍成本差异。账单变高,既可能是 AI 真正在干活,也可能是系统在无效折腾。

因此,企业 AI 的下一阶段,关键不只是模型能力,而是能否把 token 成本和业务结果对应起来。第一阶段证明了 AI 可以完成工作;第二阶段要回答的是:这些工作到底值不值得付费。

以下为原文:

企业 AI 已经从「是否采用」走向「如何分配」。

在公司高层,新的「通货」是你量化 AI 投资回报率的能力。每个职能部门都被问到同一个问题:你产出了什么?成本是多少?过去两年里,CEO 们一边早上醒来看 CNBC 上的 Jim Cramer(#bearish),一边看着竞争对手宣布生产力提升,然后要求公司上下都去使用 AI。现在真正带来压力的,是后续那个问题:把价值证明给我看。

Claude 于 2025 年 11 月发布,而那时大多数企业的 2026 年年度预算已经锁定。到了第一季度,企业的实际使用量已经远超原计划。推理成本不再只是一个用于试验的预算项目,而变成了持续发生的运营成本。随之而来的,是一个新问题:AI 到底在哪里真正创造了价值?

这个问题很难回答,因为 token 的效用并没有被量化。账单无法告诉你,这笔支出究竟是替代了人工、创造了收入、降低了风险、加速了流程,还是只是一群工程师为了排行榜疯狂刷 token(#metamates)。当支出只有几十万美元时,它看起来仍像是一场实验。但超过某个临界点,比如达到七位数时,它就变成了基础设施。技术上的差异开始对损益表产生实质影响:同一个工作流、同一组输入,两次运行的 token 成本可能相差 5 到 10 倍,而表面上看起来并没有任何问题。在实验规模下,这种波动已经相当昂贵;但一旦进入基础设施规模,它就成了 CFO 必须向 CEO 解释的数字。

可以把它称为「边际 token 效用」:每多花一美元推理成本所创造的商业价值。这是在规模化阶段真正重要的数字,也是大多数公司目前看不见的数字。

董事会里的问题正在从「AI 有没有用」,转向「AI 到底在哪里真正形成杠杆」。也正因如此,所谓 token 预算之争,本质上是在争夺 token 的分配权。

而关于 token 所有权的争夺之所以迅速升温,是因为它正撞上一种延续了三十年的高管本能:大团队意味着大职位、大职责范围和更大的权力。过去,高级管理者成功与否的可见标志,是他们管理的团队规模——直属下属、隔级下属,以及组织架构中的人数。

但当智能成为稀缺资源,新的标志就变成了:你能调度多少智能。

AI 支出本质上正在与人工成本竞争。

大多数 AI 预算申请,本质上都是三类主张之一:替代外包劳动力,替代内部劳动力,或创造新的收入。

一个员工有工资。一个 BPO 外包合同有按工单、理赔、发票或审核计价的价格。人类能够理解这些计量单位。但推理成本更复杂,因为一个任务最终完成的成本,取决于系统在执行过程中如何运行。一个需要三次重试、人工修正,并且调用前沿模型的理赔任务,可能比它原本打算替代的外包人力还要贵。也正因如此,讨论正在转向:完成一个结果的成本是多少?比如每个已解决工单、每笔已处理理赔、每份已审合同、每张已完成发票、每个避免新增的岗位、每个留住的客户,或者每一美元收入转化所对应的成本。

高管们已经意识到,BPO 是最容易建立基准的地方,因为这些工作本来就已经按照「完成单位」计价。相比之下,内部员工与 AI 的比较要困难得多,因为员工每天会做很多事情,包括午休时刷 TikTok;生产率提升往往体现为避免招聘或分散的产能释放;而管理者也会抗拒仅仅基于部分自动化就削减团队人数。BPO 为业务团队提供了一个可量化的基准线。

这与 SaaS 的逻辑不同。SaaS 曾经训练企业把使用量视为价值的代理指标。

但 AI 打破了这一点。同一个工作流消耗多少推理资源,可能会因为提示词、检索到的上下文、所选模型、调用的工具、重试次数,以及 agent 是否卡住而出现巨大差异。账单上的单位——token——是稳定的,但它所代表的工作量并不稳定。

更准确地说:信号和噪音使用的是同一个计量单位。token 账单上升,可能意味着真正的工作正在完成;但也可能意味着算力正在被浪费在糟糕的提示词、无关上下文、不必要的工具调用、重复推理和能力过剩的模型上。两家企业的 token 账单可能完全相同,但底层运行的业务截然不同:一家正在把推理转化为结果,另一家则是在为无效折腾买单,而这两种情况在账单条目上看起来一模一样。

SaaS 的使用量告诉你:软件已经被采用。AI 的使用量只能告诉你:计价器正在运行。它并不能告诉你,公司到底有没有真正跑起来。

为什么边际 token 效用难以看见?

主要有三点。

第一是重试长尾。如果一个 agent 第一次就正确完成工作流的概率是 p,那么每个已解决工作流的预期 token 消耗大致会按照 T/p 扩大,其中 T 是基础成本。如果完成率从 90% 下降到 70%,每次解决问题的有效成本大约会提高 28%,而不是 20%,因为失败会产生复合效应。在企业工作流中,输入往往混乱,异常情况也很重要。失败不仅会降低准确率,还会改变经济账。

第二是上下文膨胀。对于高度依赖注意力机制的操作,推理成本大致会随着上下文长度以 O(n²) 的方式增长。因此,上下文长度翻倍,推理成本大致会变为四倍。每个人都希望模型掌握足够信息,所以系统往往会过度供给:原本五份文档就够,检索却拉取了五十份;连接器直接倒入整条邮件线程;agent 携带着早已过时的对话历史继续运行。

第三是路由。当团队不知道哪个模型「足够好」时,默认就会使用最强的模型。一个基础分类任务,可能会跑在原本用于复杂推理的同一个模型上。当调用量达到数百万次时,把简单任务交给小模型,还是把所有任务都交给前沿模型,往往就是可控账单与董事会级别问题之间的区别。

非软件行业会以一种「转型」的形式感受到这种痛苦。软件公司会最先看到这个问题,因为被优化的工作本来就已经被充分仪表化。工程团队有 PR、提交、部署、事故、周期时间、平均修复时间等指标,而且这些指标与产品相连。虽然并不完美,但这类工作更容易被衡量。

非软件企业会更深刻地感受到这个问题,因为它们的工作是运营性的。比如理赔、承保、客服工单、合规审查、供应链异常、支付争议。或者,那些拥有现实世界资产的公司也会面临同样问题。这些工作流过去通常用人工、周期时间、SLA 达成率和错误率来衡量,而且往往有更高要求,需要在审计中站得住脚,而不只是平均意义上正确。工作单位和成本单位并不使用同一种语言,也不处在同一个组织里。技术团队能看到 token 消耗,业务部门能看到工作流变化,但要把两者连接起来,需要多个团队先对「到底在衡量什么」达成一致。

我认为,软件公司会把 token 预算之争体验为一个生产率衡量问题,这也对应了此前发生的诸多「AI 裁员」;而非软件企业会把它体验为一个转型问题。

缺失的那一层,是从 token 到结果的归因。企业需要一个转换层,把推理支出与完成的工作、产生的业务结果连接起来。这个层必须回答三个问题:这个工作流的真实成本是多少,包括重试和修正?agent 的执行轨迹中,哪些部分真正重要,哪些只是无效折腾?这项工作是否改变了运营模式——比如每个客服处理更少工单、理赔周期更短、BPO 预算更小、招聘被推迟?下一层,是用业务语言来做结果归因。不是简单地说「这个工作流花了 2.13 美元」,而是要说:这类理赔由 agent 处理比 BPO 更便宜,但如果保单要求额外异常文件,重试长尾就会摧毁经济性。

衡量会变成记忆。为了把一个 token 与一个结果连接起来,企业必须捕捉中间发生的一切:agent 看到了什么、检索了什么、调用了哪些工具、忽略了什么、在哪里重试、什么时候被人工覆盖、适用了哪个异常规则、哪个先例起了作用,以及为什么一条路径成功而另一条路径失败。衡量层必须记录决策轨迹,而这恰恰是企业过去几乎从未真正拥有过的东西。记录系统能够捕捉发生了什么,但很少能捕捉为什么。比如,CRM 可以告诉你一笔交易延期了,但无法告诉你销售预测背后那些未被写下来的判断。

决策理由是公司里最容易腐败、最容易消失的资产之一,因为它存在于 Slack 线程、邮件链、升级会议和人的脑子里。但问题在于,人会离开,流程也会变化。

AI 改变了这一点,因为 agent 会生成轨迹。每一次检索、工具调用、重试、升级、人工修正和最终决策,都会成为从上下文到行动再到结果这条路径的一部分。起初,公司会捕捉这些轨迹,是为了证明支出的合理性。但一旦这些轨迹被捕捉下来,它们就会比成本报告本身更有价值,因为它们会变成一份持久记录,记录组织实际上是如何做决策的。(咳,context graph,虽然我最近真的已经听腻这个词了。)

分配层才是真正的奖品。如果推理成为客户运营模型中的一种按量计费资源,那么每一美元都必须证明自己值得花。哪些供应商能够说明 token 什么时候转化成了结果,什么时候没有,以及为什么?

企业不会自己把这件事完全摸索出来。它们会把它当作一场转型来购买。财富 500 强企业以前已经反复上演过这种剧本:系好安全带,聘请麦肯锡,把市场上每一个 Palantir 前员工都招进来,然后由 CEO 自上而下推动变革。Token 到结果的归因也会以类似 ERP、BI 和数字化转型的方式出现:作为一个有高管背书的「项目」到来,底层配套一套基础设施,并最终成为新的事实来源。能够做成这件事的创始人,会组建不同类型的创始团队,他们本身也会不同于传统意义上的创业者原型。

谁掌握了 token 到结果的归因,谁就能做出分配决策:哪些工作流值得更多算力,哪些应该设限,哪些应该切换到更便宜的模型,哪些继续由人完成,哪些可以替代 BPO。而一旦你能做出这些决策,你就控制了企业内部 AI 支出的流向,并获得了分配这笔资源所需的信任。

企业 AI 的第一阶段证明了:模型可以完成工作。下一阶段将决定的是:这些工作到底有多少值得付费。正如查理·芒格所说:给我看激励机制,我就能告诉你结果。

原文链接

QQlink

암호화 백도어 없음, 타협 없음. 블록체인 기술 기반의 탈중앙화 소셜 및 금융 플랫폼으로, 사용자에게 프라이버시와 자유를 돌려줍니다.

© 2024 QQlink R&D 팀. 모든 권리 보유.