从集体降价到集体涨价，“Token经济学”为何两年风向突变—新闻

作者：张静来源：澎湃新闻发布时间：2026/4/1 14:59:35

选择字号：小中大

从集体降价到集体涨价，“Token经济学”为何两年风向突变

Token是AI时代的“新货币”。2024年，AI价格战打响，Token以“厘”计价；2026年，算力需求引爆，模型厂商和云厂商的Token集体涨价。

在过去两年里，大模型行业经历了从价格战到价值战的剧烈转折，Token的价值正被重新审视。在工资、奖金、股权之外，Token甚至成为硅谷工程师薪资谈判的新筹码。围绕Token的生态布局与资源争夺战已然打响。

从降价潮到涨价潮

2026年，模型厂商和云厂商的Token集体涨价。今年以来，智谱已经两度发布涨价通告。3月16日，智谱推出面向OpenClaw场景深度优化的基座模型GLM-5-Turbo，API价格上调20%。在面向个人和企业级用户的“龙虾”套餐中，Claw体验月卡39元/月，含3500万Token，Claw进阶月卡价格为99元/月，含1亿Token。2月份，智谱发布Coding Plan调价公告，“由于GLM Coding Plan市场需求持续强劲增长，用户规模与调用量快速提升”，决定取消首购优惠，保留按季按年订阅优惠，套餐价格整体涨幅自30%起。

除了模型厂商，云厂商也在集体涨价。因Coding Plan订阅火爆，阿里云模型API调用量暴涨，3月4日宣布阶段性调整首购优惠，每日限时限量供应，售完即止。3月18日，阿里云表示，因全球AI需求爆发、供应链涨价，行业核心硬件采购成本显著上涨，4月18日起将调整AI算力、CPFS（智算版）等服务价格。平头哥真武810E等算力卡相关服务上涨5%-34%，CPFS（智算版）上涨30%。

百度智能云同样宣布，4月18日起，AI算力相关产品服务上调约5%-30%，并行文件存储等上调约30%。腾讯云宣布自3月13日起，GLM 5、MiniMax 2.5、Kimi 2.5模型结束公测，转为正式商用服务，根据模型调用按量计费。混元系列模型价格也有调整，Tencent HY2.0 Instruct模型输入价格从0.0008元/千tokens上涨为0.004505元/千tokens，输出价格从0.002元/千tokens上涨为0.01113元/千tokens。

然而，就在两年前，Token “降价潮”记忆犹新。

2024年“百模大战”，彼时的大模型行业尚处于激烈的价格战之中，云厂商与模型厂商竞相降价、送Token。

当年5月，字节跳动以0.0008元/千 tokens的价格掀起大模型价格战，随后阿里云跟进，宣布通义千问最高降价97%，彼时通义千问GPT-4级主力模型Qwen-Long输入价格从0.02元/千 tokens降至0.0005元/千 tokens。同期，智谱的新注册用户赠送额度从500万Token提升至2500万Token。

用较低成本训练出高性能大模型的DeepSeek，去年3月揭晓其V3/R1推理系统背后的关键信息，通过优化吞吐和延迟，如果所有Token按照DeepSeek-R1的定价计算，成本利润率可达545%。

技术是模型降价的底气。字节跳动旗下云服务平台火山引擎总裁谭待曾在2024年的AI降价潮中表示，降价的基本逻辑是有信心用技术手段降低成本，市场也需要更低价的大模型。

“前两年算力需求方更多是企业，现在是个人算力 ‘饥饿’，推动了AI创企及大厂的商业模式转向Token消耗量。”快思慢想研究院院长、原商汤智能产业研究院创始院长田丰表示。

在过去两年里，模型快速迭代，智能体应用大幅增长，从而带动算力需求持续攀升，高性价比的推理显卡产能有限，内存等核心硬件及相关基础设施成本显著上涨。硅谷科技分析、咨询与投资公司Navica首席执行官伯纳德·戈尔登（Bernard Golden）表示，整个行业都在疯狂寻求更多算力。

供需失衡之下，涨价成为必然。

“一个更聪明的模型执行更复杂的任务，消耗的资源是巨大的。”智谱CEO张鹏日前在回应提价策略时表示，智能体执行任务背后涉及的思考和推理链路更长，还会通过写代码的方式与底层基础设施交互，不断调试并随时修正错误，完成一个任务所需要的Token量是回答一个简单问题的十倍甚至百倍。价格调整的本质是成本在变化，“模型更大了，能力更强了，对应的服务成本也提高了，所以我们希望把它逐步拉回一个正常的商业价值区间，长期依赖低价竞争并不利于行业发展。”

Token调用量两年增长千倍

过去两年以来，软件供应商通过标准化的API接口，陆续将文本生成、图像生成及语音生成等能力集成到客户服务平台、营销素材生成、服务机器人等现有产品中。企业用户通过API接口调用大模型能力，按调用量或订阅方式计费，降低使用门槛和前期投入。毕竟，单张H100 GPU的成本约25000美元，单一系统中配置多张GPU的开支将更高。

这种服务模式让大模型能快速触达海量用户，Token调用量急剧攀升。国家数据局局长刘烈宏日前披露，截至2025年年底，全国已建成高质量数据集超过了10万个。到今年3月，中国日均Token调用量已超140万亿，相比2024年初的1000亿增长了1000多倍，相比2025年底的100万亿，三个月时间又增长了40%多。

田丰对澎湃科技表示，2024年，训练的算力需求超50%，到2025年，情况完全逆转。如果说，两年前是百“模”大战，那么现在是百“虾”大战。

推理需求大爆发，推理服务与Token消耗深度绑定，是当前体量最大、增长最快的算力场景。模型性能持续提升推动Token消耗量暴涨，AI编程、“龙虾”（OpenClaw）等智能体应用的广泛渗透则让Token需求井喷。OpenClaw被戏称为“Token黑洞”。对于使用龙虾的企业和个人来说，Token是最大的成本瓶颈。

田丰表示，智能体自动执行任务的Token消耗量是传统问答的4-15倍。AI创业者罗璇使用OpenClaw完成复杂调研任务需耗费数百万甚至更多Token。为了找到更便宜的Token，他的经验是注册云厂商或模型厂商的新用户，获取免费Token，但依然直呼“Token太贵”。

编程、聊天、办公等算力消耗以Token为计，从更广义的算力消耗来看，以图片数量计价的图片生成，以及以时长和分辨率计价的视频生成，同样消耗大量算力。OpenAI关闭Sora视频应用便是例证。运行视频生成服务需消耗庞大计算资源和电力，这对任何企业而言都是一笔巨额开支，而关闭Sora则将释放大量算力资源。

算力需求带动的不仅仅是GPU需求的增长，所有相关的硬件都会被连带波动，并成为其中的一个制约因素。

“包括冷却、照明、服务器用电，数据中心的电力成本占60%左右，现在石油、天然气等能源价格都在上涨，内存存在5年的上涨周期。”田丰表示，能源和硬件成本驱动算力涨价。

思科全球副总裁兼大中华区首席执行官黄志明告诉澎湃科技，短期来看，硬件投资建厂并非一两个月就能完成，供需波动仍将持续一段时间。思科大中华区资深副总裁兼首席技术官侯胜利补充道，产能跟上需求基本需要两年左右，“内存工厂的调整至少需要两年，2027年底之前不会好转，重建工厂、布局产线没有那么快。”不过黄志明认为，随着使用人群的扩大和应用的普及，成本将逐步趋于大众化、廉价化。

AI云计算服务商派欧云计算（上海）有限公司创始人姚欣对澎湃科技表示，今天，限制AI和算力的瓶颈并非最高端的芯片，而是那些普通的IT技术、传统的配套部件。过去十年，内存、硬盘乃至交换机等传统IT基础设施产业链一直保持与全球GDP增速相当的平稳增长，长期稳定的需求预期决定了温和的产能扩张节奏。但人工智能的爆发式增长打破了这一平衡。GPU出货量大增，配套周边部件在这种“拐点式”需求下，供给能力被甩在身后。“高端芯片产能是扩上去了，但其他产能没跟上。当然，这一波大家都被打疼了，所以包括内存硬盘在内的传统部件纷纷扩产。”

供需交替崛起，最终趋于平稳

“现在Token比实习生贵，三五年后一定会便宜。”田丰同样认为，未来的Token价格一定会降低。

他认为，短期来看，算力涨价源于供需错配。但从半导体周期来看，制造业存在产能周期，扩产后新产能集中释放，市场供需被冲击，价格随之降低，甚至出现产能过剩。从能源来看，中国正在推进新能源结构转型，有望进一步降低能源成本。中期价格取决于基模型能力提升——每三个月迭代的新版本往往能解决此前未满足的刚需，释放新需求，从而推升算力价格；长期则取决于推理能力的演进，最终带来算力成本的持续下降。

两年来，供给侧和需求侧交替崛起。田丰表示，DeepSeek是创新层面降低成本的波峰，以“龙虾”为代表的生产力爆发形成需求侧的波峰。“但这并不代表需求侧爆发时，推理侧就没有降低成本，只不过爆发的速度比推理侧成本下降的速度更高。3-5年内，整体算力成本和Token费用会急剧降低。”

姚欣表示，AI已进入“奇点时刻”，“进入到未来一两年内十倍百倍高速增长的时期，所有没有准备好应对这种增长的行业，短期内都会遇到供不应求的情况。但就像水波纹那样慢慢扩散，最终会趋于平稳。”

Token涨价的背后，商业逻辑也在改变。英伟达CEO黄仁勋曾多次提及AI“五层蛋糕”结构，“五层蛋糕”从下往上分为能源、芯片、基础设施、模型和应用，最上层的应用环节将提供最大的经济红利。

“当下的AI就像2000年互联网时期的景象，那时也普遍不清楚互联网到底能做什么，但无数人投身于各式各样的网站建设。”侯胜利表示，随着不断地应用与创新，到了2005年、2006年，越来越多的“互联网+”应用场景涌现，各类服务逐渐融合。AI的发展方向同样值得期待，正如被广为预测的2026年将成为智能体元年，今年智能体应用将层出不穷。

这些智能体应用正融入手机、电脑，甚至工厂生产线。“每个人对AI提升生产力的需求几乎是无止境的，唯一的限制是价格。涨价，需求就下降；降价，需求就上升。”田丰表示，即便是现在，大厂对于涨价也并非“一视同仁”。“大厂一方面针对B端（企业端）提高云计算价格，另一方面对自己的智能体采用限时免费试用或赠送Token额度的策略抢占C端（消费端）市场。”田丰坦言，当下的情形就像互联网早期，大厂争夺用户固然是最终目标，但更关键的是争夺开发者。

过去，开发者是全球程序员，如今，大量非技术人员具备Vibe Coding（氛围编程）能力。他们既是代码的消费者，也是代码的创造者。大厂把开发者“攥”住，就能让开发成果长在自己的云上。

互联网大厂为员工提供Token额度，鼓励使用AI。据界面新闻报道，阿里巴巴集团正推进一项内部计划，向员工提供Token额度，鼓励员工在工作中使用先进的AI模型与工具。阿里员工可免费使用悟空、智能体编程平台Qoder系列等付费AI工具，用于技术研发和通用办公，公司将向员工提供Token额度。员工购买百炼Coding Plan会员或外部AI开发工具可以申请报销。

使用AI提效的场景并不局限于编程等任务，更加广泛的内容创作和专业办公同样存在Token需求。MiniMax甚至将原有的Coding Plan升级为支持MiniMax全模态模型的Token Plan，抓住Token机遇。

“坦率讲，做模型并没有找到特别多的刚需出口，因此普遍采用月租收费模式。Token之所以受到关注，是因为每月用户增长人数、人均消耗Token等指标直接代表了营收增速。”田丰表示，这形成了极强的用户黏性，只要产品足够好用，即使价格略高，用户也愿意为更好的体验买单。更何况，同样500万Token，既可以卖22元，也可以卖400元，溢价直接与基模型和智能体能力挂钩。田丰表示，本质上，Token的背后是一个尚未被完全开采的金矿。

特别声明：本文转载仅仅是出于传播信息的需要，并不意味着代表本网站观点或证实其内容的真实性；如其他媒体、网站或个人从本网站转载使用，须保留本网站注明的“来源”，并自负版权等法律责任；作者如果不希望被转载或者联系转载稿费等事宜，请与我们接洽。

编辑部推荐博文
封面文章 \| 柴达木盆地钾盐成矿特征与找矿方向纺锤状定向导汗纳米网实现柔性生化电一体化监测系统电子科技大学孟德彪副教授与朱顺鹏教授专访研究生培养过程中组会的必要性参加研究生复试面试后的几点感想好课堂的样子，正在杀死好课堂更多>>