|
|
|
|
|
从集体降价到集体涨价,“Token经济学”为何两年风向突变 |
|
|
Token是AI时代的“新货币”。2024年,AI价格战打响,Token以“厘”计价;2026年,算力需求引爆,模型厂商和云厂商的Token集体涨价。
在过去两年里,大模型行业经历了从价格战到价值战的剧烈转折,Token的价值正被重新审视。在工资、奖金、股权之外,Token甚至成为硅谷工程师薪资谈判的新筹码。围绕Token的生态布局与资源争夺战已然打响。
从降价潮到涨价潮
2026年,模型厂商和云厂商的Token集体涨价。今年以来,智谱已经两度发布涨价通告。3月16日,智谱推出面向OpenClaw场景深度优化的基座模型GLM-5-Turbo,API价格上调20%。在面向个人和企业级用户的“龙虾”套餐中,Claw体验月卡39元/月,含3500万Token,Claw进阶月卡价格为99元/月,含1亿Token。2月份,智谱发布Coding Plan调价公告,“由于GLM Coding Plan市场需求持续强劲增长,用户规模与调用量快速提升”,决定取消首购优惠,保留按季按年订阅优惠,套餐价格整体涨幅自30%起。
除了模型厂商,云厂商也在集体涨价。因Coding Plan订阅火爆,阿里云模型API调用量暴涨,3月4日宣布阶段性调整首购优惠,每日限时限量供应,售完即止。3月18日,阿里云表示,因全球AI需求爆发、供应链涨价,行业核心硬件采购成本显著上涨,4月18日起将调整AI算力、CPFS(智算版)等服务价格。平头哥真武810E等算力卡相关服务上涨5%-34%,CPFS(智算版)上涨30%。
百度智能云同样宣布,4月18日起,AI算力相关产品服务上调约5%-30%,并行文件存储等上调约30%。腾讯云宣布自3月13日起,GLM 5、MiniMax 2.5、Kimi 2.5模型结束公测,转为正式商用服务,根据模型调用按量计费。混元系列模型价格也有调整,Tencent HY2.0 Instruct模型输入价格从0.0008元/千tokens上涨为0.004505元/千tokens,输出价格从0.002元/千tokens上涨为0.01113元/千tokens。
然而,就在两年前,Token “降价潮”记忆犹新。
2024年“百模大战”,彼时的大模型行业尚处于激烈的价格战之中,云厂商与模型厂商竞相降价、送Token。
当年5月,字节跳动以0.0008元/千 tokens的价格掀起大模型价格战,随后阿里云跟进,宣布通义千问最高降价97%,彼时通义千问GPT-4级主力模型Qwen-Long输入价格从0.02元/千 tokens降至0.0005元/千 tokens。同期,智谱的新注册用户赠送额度从500万Token提升至2500万Token。
用较低成本训练出高性能大模型的DeepSeek,去年3月揭晓其V3/R1推理系统背后的关键信息,通过优化吞吐和延迟,如果所有Token按照DeepSeek-R1的定价计算,成本利润率可达545%。
技术是模型降价的底气。字节跳动旗下云服务平台火山引擎总裁谭待曾在2024年的AI降价潮中表示,降价的基本逻辑是有信心用技术手段降低成本,市场也需要更低价的大模型。
“前两年算力需求方更多是企业,现在是个人算力 ‘饥饿’,推动了AI创企及大厂的商业模式转向Token消耗量。”快思慢想研究院院长、原商汤智能产业研究院创始院长田丰表示。
在过去两年里,模型快速迭代,智能体应用大幅增长,从而带动算力需求持续攀升,高性价比的推理显卡产能有限,内存等核心硬件及相关基础设施成本显著上涨。硅谷科技分析、咨询与投资公司Navica首席执行官伯纳德·戈尔登(Bernard Golden)表示,整个行业都在疯狂寻求更多算力。
供需失衡之下,涨价成为必然。
“一个更聪明的模型执行更复杂的任务,消耗的资源是巨大的。”智谱CEO张鹏日前在回应提价策略时表示,智能体执行任务背后涉及的思考和推理链路更长,还会通过写代码的方式与底层基础设施交互,不断调试并随时修正错误,完成一个任务所需要的Token量是回答一个简单问题的十倍甚至百倍。价格调整的本质是成本在变化,“模型更大了,能力更强了,对应的服务成本也提高了,所以我们希望把它逐步拉回一个正常的商业价值区间,长期依赖低价竞争并不利于行业发展。”
Token调用量两年增长千倍
过去两年以来,软件供应商通过标准化的API接口,陆续将文本生成、图像生成及语音生成等能力集成到客户服务平台、营销素材生成、服务机器人等现有产品中。企业用户通过API接口调用大模型能力,按调用量或订阅方式计费,降低使用门槛和前期投入。毕竟,单张H100 GPU的成本约25000美元,单一系统中配置多张GPU的开支将更高。
这种服务模式让大模型能快速触达海量用户,Token调用量急剧攀升。国家数据局局长刘烈宏日前披露,截至2025年年底,全国已建成高质量数据集超过了10万个。到今年3月,中国日均Token调用量已超140万亿,相比2024年初的1000亿增长了1000多倍,相比2025年底的100万亿,三个月时间又增长了40%多。
田丰对澎湃科技表示,2024年,训练的算力需求超50%,到2025年,情况完全逆转。如果说,两年前是百“模”大战,那么现在是百“虾”大战。
推理需求大爆发,推理服务与Token消耗深度绑定,是当前体量最大、增长最快的算力场景。模型性能持续提升推动Token消耗量暴涨,AI编程、“龙虾”(OpenClaw)等智能体应用的广泛渗透则让Token需求井喷。OpenClaw被戏称为“Token黑洞”。对于使用龙虾的企业和个人来说,Token是最大的成本瓶颈。
田丰表示,智能体自动执行任务的Token消耗量是传统问答的4-15倍。AI创业者罗璇使用OpenClaw完成复杂调研任务需耗费数百万甚至更多Token。为了找到更便宜的Token,他的经验是注册云厂商或模型厂商的新用户,获取免费Token,但依然直呼“Token太贵”。
编程、聊天、办公等算力消耗以Token为计,从更广义的算力消耗来看,以图片数量计价的图片生成,以及以时长和分辨率计价的视频生成,同样消耗大量算力。OpenAI关闭Sora视频应用便是例证。运行视频生成服务需消耗庞大计算资源和电力,这对任何企业而言都是一笔巨额开支,而关闭Sora则将释放大量算力资源。
算力需求带动的不仅仅是GPU需求的增长,所有相关的硬件都会被连带波动,并成为其中的一个制约因素。
“包括冷却、照明、服务器用电,数据中心的电力成本占60%左右,现在石油、天然气等能源价格都在上涨,内存存在5年的上涨周期。”田丰表示,能源和硬件成本驱动算力涨价。
思科全球副总裁兼大中华区首席执行官黄志明告诉澎湃科技,短期来看,硬件投资建厂并非一两个月就能完成,供需波动仍将持续一段时间。思科大中华区资深副总裁兼首席技术官侯胜利补充道,产能跟上需求基本需要两年左右,“内存工厂的调整至少需要两年,2027年底之前不会好转,重建工厂、布局产线没有那么快。”不过黄志明认为,随着使用人群的扩大和应用的普及,成本将逐步趋于大众化、廉价化。
AI云计算服务商派欧云计算(上海)有限公司创始人姚欣对澎湃科技表示,今天,限制AI和算力的瓶颈并非最高端的芯片,而是那些普通的IT技术、传统的配套部件。过去十年,内存、硬盘乃至交换机等传统IT基础设施产业链一直保持与全球GDP增速相当的平稳增长,长期稳定的需求预期决定了温和的产能扩张节奏。但人工智能的爆发式增长打破了这一平衡。GPU出货量大增,配套周边部件在这种“拐点式”需求下,供给能力被甩在身后。“高端芯片产能是扩上去了,但其他产能没跟上。当然,这一波大家都被打疼了,所以包括内存硬盘在内的传统部件纷纷扩产。”
供需交替崛起,最终趋于平稳
“现在Token比实习生贵,三五年后一定会便宜。”田丰同样认为,未来的Token价格一定会降低。
他认为,短期来看,算力涨价源于供需错配。但从半导体周期来看,制造业存在产能周期,扩产后新产能集中释放,市场供需被冲击,价格随之降低,甚至出现产能过剩。从能源来看,中国正在推进新能源结构转型,有望进一步降低能源成本。中期价格取决于基模型能力提升——每三个月迭代的新版本往往能解决此前未满足的刚需,释放新需求,从而推升算力价格;长期则取决于推理能力的演进,最终带来算力成本的持续下降。
两年来,供给侧和需求侧交替崛起。田丰表示,DeepSeek是创新层面降低成本的波峰,以“龙虾”为代表的生产力爆发形成需求侧的波峰。“但这并不代表需求侧爆发时,推理侧就没有降低成本,只不过爆发的速度比推理侧成本下降的速度更高。3-5年内,整体算力成本和Token费用会急剧降低。”
姚欣表示,AI已进入“奇点时刻”,“进入到未来一两年内十倍百倍高速增长的时期,所有没有准备好应对这种增长的行业,短期内都会遇到供不应求的情况。但就像水波纹那样慢慢扩散,最终会趋于平稳。”
Token涨价的背后,商业逻辑也在改变。英伟达CEO黄仁勋曾多次提及AI“五层蛋糕”结构,“五层蛋糕”从下往上分为能源、芯片、基础设施、模型和应用,最上层的应用环节将提供最大的经济红利。
“当下的AI就像2000年互联网时期的景象,那时也普遍不清楚互联网到底能做什么,但无数人投身于各式各样的网站建设。”侯胜利表示,随着不断地应用与创新,到了2005年、2006年,越来越多的“互联网+”应用场景涌现,各类服务逐渐融合。AI的发展方向同样值得期待,正如被广为预测的2026年将成为智能体元年,今年智能体应用将层出不穷。
这些智能体应用正融入手机、电脑,甚至工厂生产线。“每个人对AI提升生产力的需求几乎是无止境的,唯一的限制是价格。涨价,需求就下降;降价,需求就上升。”田丰表示,即便是现在,大厂对于涨价也并非“一视同仁”。“大厂一方面针对B端(企业端)提高云计算价格,另一方面对自己的智能体采用限时免费试用或赠送Token额度的策略抢占C端(消费端)市场。”田丰坦言,当下的情形就像互联网早期,大厂争夺用户固然是最终目标,但更关键的是争夺开发者。
过去,开发者是全球程序员,如今,大量非技术人员具备Vibe Coding(氛围编程)能力。他们既是代码的消费者,也是代码的创造者。大厂把开发者“攥”住,就能让开发成果长在自己的云上。
互联网大厂为员工提供Token额度,鼓励使用AI。据界面新闻报道,阿里巴巴集团正推进一项内部计划,向员工提供Token额度,鼓励员工在工作中使用先进的AI模型与工具。阿里员工可免费使用悟空、智能体编程平台Qoder系列等付费AI工具,用于技术研发和通用办公,公司将向员工提供Token额度。员工购买百炼Coding Plan会员或外部AI开发工具可以申请报销。
使用AI提效的场景并不局限于编程等任务,更加广泛的内容创作和专业办公同样存在Token需求。MiniMax甚至将原有的Coding Plan升级为支持MiniMax全模态模型的Token Plan,抓住Token机遇。
“坦率讲,做模型并没有找到特别多的刚需出口,因此普遍采用月租收费模式。Token之所以受到关注,是因为每月用户增长人数、人均消耗Token等指标直接代表了营收增速。”田丰表示,这形成了极强的用户黏性,只要产品足够好用,即使价格略高,用户也愿意为更好的体验买单。更何况,同样500万Token,既可以卖22元,也可以卖400元,溢价直接与基模型和智能体能力挂钩。田丰表示,本质上,Token的背后是一个尚未被完全开采的金矿。
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。