原文来源:华尔街见闻
6 月 30 日,Anthropic 发布了 Claude Sonnet 5。
这是一款中端模型,Sonnect 系列里"最能干活"的。代理能力测试 SWE-bench Pro 上跑出 63.2 分——离旗舰 Opus 4.8 的 69.2 分只差 6 分。另一个维度上,研究生级推理测试 GPQA-AAA v2 上,Sonnet 5 反倒压了 Opus 4.8 一头。
定价更关键。优惠期内每百万输入 token 收 2 美元,输出 10 美元。Opus 4.8 对应的价格是 5 美元和 25 美元——Sonnet 5 用四到六成的价格,跑出了旗舰九成以上的能力。
这条新闻可以有两种读法。
第一种:AI 又变便宜了。成本下降利好所有人,Chatbot 战争继续,模型厂商卷生卷死。
第二种——也是市场正在定价的——模型越便宜,算力和存储反而越贵。
Claude Sonnet 5 发布当天,美国半导体指数涨近 4%。过去三年的 AI 叙事里有一条明线:推理效率会干掉芯片需求。但这个判断在每一个数据节点上都错了。
降价:三年降了一千倍
先看降价这条线。
2022 年,GPT-4 级别 API 调用成本约每千 token 0.03 美元。到 2025 年,同等性能级别模型的价格——按斯坦福 AI Index Report 的口径——降了约 280 倍。加上开源和效率提升的综合效应,业界公认的降幅是 1000 倍。
降了不只一种模型,是每一家都在降。
Anthropic 这次 Sonnet 5 对标 Opus 4.8 的能力密度,定价只有四到六成。Google 的 Gemini Omni Flash 视频生成每秒 0.10 美元,Nano Banana 2 Lite 图像模型 4 秒出图、每千张只要 0.034 美元——是前代的一半。DeepSeek-V4-Pro 把百万 token 输入打到了 0.035 美元的水平。
降价不止发生在定价表上。
6 月 24 日,The Information 报道 OpenAI 在内部找到了一项纯软件优化技术——某个运算环节的 GPU 需求被砍掉了一半不止,专用 GPU 池子从几千台骤降到几百台。同月,Meta 提出了 Vistara 方案:把退役服务器拆下来的 DDR4 内存通过自研 CXL 芯片重新接上,和 DDR5 按 3:1 搭配,推理服务器成本压降 25%。
到了 6 月 30 日,阶跃开源了推测解码技术 JetSpec——大模型推理速度可以提升近 10 倍。换算下来,同样的 token 输出量,需要的 GPU 数可以陡降一个数量级。
如果 AI 是一个传统的成本-需求函数,这些信号应该指向一件事:未来需要的芯片变少了。
华尔街是这么恐惧的。
1 月 DeepSeek 发布 R1 的那个周末,AI 基础设施股经历了近年最猛烈的抛售。AI 云公司 Nebius 股价暴跌 40%。故事线很简单:中国开源模型用 0.1 美元卖 token,美国公司花 2 美元,算力需求必然坍缩。
爆炸:总支出反涨 320%
但实际发生的事情完全相反。
Nebius 联合创始人 Roman Chernin 后来回忆:DeepSeek 引发恐慌的那个星期,"可能是我们销售最好的一周"。公司采购部门看到成本骤降后的第一反应不是砍预算,而是终于可以大规模跑推理了。
2024 年,全球企业的生成式 AI 总支出约 115 亿美元。2025 年,这个数字飙升到了 370 亿美元——一年涨了 320%。按 Menlo Ventures 的企业调研,中位企业在 2025 年运行着"数十个"AI 应用,而 2023 年这个数字是 1 到 2 个。
各个维度的数据都在同一条曲线上:
Uber 在 2026 年 4 月就已经烧完了全年的 AI 预算。AT&T 目前日处理 270 亿 token——18 个月前,这个数字是 8 亿。一家美国大型医保公司,月 token 消耗从 300 万一口气冲到了 1.5 亿以上。
拆开看,增长来自三个方向的叠加。
第一是应用扩散。每家企业的营销部用了 3 个 AI 工具,销售部 4 个,客服部 2 个,加上法务、HR、财务——从 2 个到几十个,这是数量级的跳跃。
第二是单应用深度。以客服 AI 为例:2023 年日交互量约 500 次,每次约 800 个 token,做完对话就结束。到 2025 年,日交互 15000 次,每次约 4500 个 token,每次交互还要再触发 3 到 5 次后续推理——情感分析、升级预测、质量评分——全部叠加在同一个入口上。
第三是模型本身的复杂度升级。从 7B 参数的单轮模型,升级到 70B 以上的多步推理代理,每一轮内部推理所消耗的 token 是线性交互的几十倍到上百倍。
换句话说,token 成本降到了千分之一,市场用掉的 token 数涨了数万倍。乘起来的净效应只有一个方向:支出爆炸。
Token 消耗量每两个月翻一倍——多条独立线索拼出了同一个数字。把这条指数曲线画到 2027 年,企业 AI 年支出破千亿美元是算术问题,不是预测问题。
传导:存储涨了六倍,芯片基建指向 7.6 万亿
降价刺激出的需求没有停留在软件层。
存储器价格的涨幅,是 AI 需求从模型层向硬件层传导最直接的信号。
2025 年三季度起,DRAM 和 NAND Flash 现货价格累计涨幅均超过 300%。DDR5 颗粒在单月内涨幅一度突破 90%。进入 2026 年,涨价不但没停,反而加速了。
一季度 DRAM 合约价涨幅从预期的 55%-60%被上修到 90%-95%;NAND 从 33%-38%上修到 55%-60%。二季度 TrendForce 的预测是 DRAM 再涨 58%-63%,NAND 再涨 70%-75%。
以消费级产品为锚:宏碁掠夺者 32G DDR5 6000 套条,2025 年 10 月底价格还在 1300 元,到 2026 年 1 月已经飙到 2700 元。三个月翻倍,放在消费品市场上极其罕见。
三星存储业务在 2025 年四季度录下单季营业利润历史新高——突破 20 万亿韩元、约合人民币 962 亿元。而这一年多的涨势最根本的推力并非来自手机或 PC 的消费级换代,而是 AI 数据中心对 HBM、企业级 SSD、高密度 DRAM 的巨量采购。
高盛 5 月的一份报告把这笔账算到了极致。
报告预测,2026 年到 2031 年全球 AI 基础设施累计资本支出约 7.6 万亿美元。2026 年单年 7650 亿美元,到 2031 年攀升至 1.6 万亿。其中,单颗基准 GPU(基于 NVIDIA VR200 Rubin)按 8.05 万美元计算,NVIDIA 占各期总算力支出的 75%。
高盛在报告里还追问了一个关键问题:如果 ASIC(专用芯片)大量替代 GPU,是否能削减总需求?
答案是分情况的。如果需求缺乏弹性——企业的 AI 算力需求是固定的——ASIC 替代可以直接降低总资本需求。但如果需求有弹性——算力越便宜就买得越多——芯片组合的改变主要重塑的是利润在不同供应商之间的分配,而不是总支出规模。
高盛的基准情景选的是后者。
美股价格也在往同一个方向走。闪迪自年初以来涨了 857%,Bernstein 在 6 月 30 日的报告中将目标价上调至 3000 美元。AMD 一天涨 7%创历史新高。做 GPU 的、做存储的、做封装的、做数据中心设备的——全部在新高附近。
Edgen.tech 在 6 月 11 日的综述文章里引用的这个数字最有冲击力:内存芯片价格在过去一年里涨了六倍。
"周期性回升"这个标签贴不上去。涨了六倍的东西,背后是整个经济体系的需求在重新定价 AI 的物理基础设施。
根源:Jevons 在 1865 年就已经回答过
威廉·斯坦利·杰文斯在 1865 年写了一本书叫《煤炭问题》。
他的核心观察是:瓦特改良蒸汽机后,单位煤耗大幅下降,英国的煤炭总消费量反而不降反升。因为效率提升意味着蒸汽动力在更多行业成本可接受了——纺织、铁路、采矿、航运——每一个新场景都创造出了原来不存在的煤炭需求。
160 年后,同样的公式在 AI 算力上重演了。
企业算过账。2022 年的 token 价格下,实时推理客服对话在经济上不可行。非紧急场景不值得跑 AI。个性化内容生成只能做细分群体级别,做不到用户级别。到了 2025 年,价格降了 1000 倍,这些"原来不存在的需求"全变成了刚需。
Nebius 的 Chernin 给了一句最直接的总结:"每一次我们让同样单位的智能变得更便宜,我们不是在减少消耗,而是在增加消耗——因为同样的预算可以解决更复杂的任务了。"
市场忽略了另一个结构性推力:毛利率的正反馈。
AI 推理的毛利率曲线在历史上找不到对应物。一家提供 API 的公司,起步阶段毛利率可能只有 10%——模型训练贵、推理贵。但软件优化(算子融合、量化、推测解码)每个月都在压推理成本,而定价调整总是慢半拍。于是毛利率从 10%爬到 90%的速度比任何传统行业都要短。
毛利率驱动利润,利润追加采购,采购摊薄成本——正反馈回路,没有天花板。
"你有 DRAM 就能卖 token,没有 DRAM 就无法卖 token。"这句话正在成为 AI 芯片需求的基本方程。
高盛报告的两个敏感性假设也在加深同一个判断。芯片经济寿命如果从 5 年缩到 3 年,替换周期加速,累计资本需求直接上台阶。每芯片内存比预期高 25%——主要改变的是芯片堆栈内部的支出分配,对 7.6 万亿总盘子的净影响有限,但方向是同一个:钱不会少花。
终局:谁握住了算力
Fable 5 出口管制解除——6 月 12 日禁、6 月 30 日解,前后三周——给了这个悖论一个意外的注脚。
管制的理由是"国家安全风险"。解除管制跟风险消失没关系——替代品出现了。Tulongfeng 等亚洲团队在管制期内推出了接近 Mythos 级的模型,封锁的威慑力迅速归零。解禁是现实使然,跟善意无关。
这段插曲恰好卡在 AI 降本悖论的主线上:模型是可替代的。从 GPT 到 Claude 到 DeepSeek 到开源模型,没有人能垄断 AI 的能力本身——有人设卡,就有人绕路。
硬件不是这套逻辑。
GPU 不行。DRAM 不行。晶圆厂的建设周期以年为单位。光刻机的产能上限是固定的。高纯度硅的供给弹性近乎零。这些都是物理定律,不是商业策略。软件优化可以压模型成本一千倍,但压不下一个晶圆厂的建设周期一天。
AI 模型降价的终点,如果这个悖论继续跑下去,不指向去算力化——指向算力定价权的再集中。不管你用的是谁的模型,token 都得跑在某人的芯片上。模型厂商卷价格的每一分钱,最后都变成了数据中心、晶圆厂和存储产线账簿上的收入。降本越凶,这个转移越不可逆。