AI越便宜，芯片越贵

6 月 30 日，Anthropic 发布了 Claude Sonnet 5。

这是一款中端模型，Sonnect 系列里"最能干活"的。代理能力测试 SWE-bench Pro 上跑出 63.2 分——离旗舰 Opus 4.8 的 69.2 分只差 6 分。另一个维度上，研究生级推理测试 GPQA-AAA v2 上，Sonnet 5 反倒压了 Opus 4.8 一头。

定价更关键。优惠期内每百万输入 token 收 2 美元，输出 10 美元。Opus 4.8 对应的价格是 5 美元和 25 美元——Sonnet 5 用四到六成的价格，跑出了旗舰九成以上的能力。

这条新闻可以有两种读法。

第一种：AI 又变便宜了。成本下降利好所有人，Chatbot 战争继续，模型厂商卷生卷死。

第二种——也是市场正在定价的——模型越便宜，算力和存储反而越贵。

Claude Sonnet 5 发布当天，美国半导体指数涨近 4%。过去三年的 AI 叙事里有一条明线：推理效率会干掉芯片需求。但这个判断在每一个数据节点上都错了。

降价：三年降了一千倍

先看降价这条线。

2022 年，GPT-4 级别 API 调用成本约每千 token 0.03 美元。到 2025 年，同等性能级别模型的价格——按斯坦福 AI Index Report 的口径——降了约 280 倍。加上开源和效率提升的综合效应，业界公认的降幅是 1000 倍。

降了不只一种模型，是每一家都在降。

Anthropic 这次 Sonnet 5 对标 Opus 4.8 的能力密度，定价只有四到六成。Google 的 Gemini Omni Flash 视频生成每秒 0.10 美元，Nano Banana 2 Lite 图像模型 4 秒出图、每千张只要 0.034 美元——是前代的一半。DeepSeek-V4-Pro 把百万 token 输入打到了 0.035 美元的水平。

降价不止发生在定价表上。

6 月 24 日，The Information 报道 OpenAI 在内部找到了一项纯软件优化技术——某个运算环节的 GPU 需求被砍掉了一半不止，专用 GPU 池子从几千台骤降到几百台。同月，Meta 提出了 Vistara 方案：把退役服务器拆下来的 DDR4 内存通过自研 CXL 芯片重新接上，和 DDR5 按 3:1 搭配，推理服务器成本压降 25%。

到了 6 月 30 日，阶跃开源了推测解码技术 JetSpec——大模型推理速度可以提升近 10 倍。换算下来，同样的 token 输出量，需要的 GPU 数可以陡降一个数量级。

如果 AI 是一个传统的成本-需求函数，这些信号应该指向一件事：未来需要的芯片变少了。

华尔街是这么恐惧的。

1 月 DeepSeek 发布 R1 的那个周末，AI 基础设施股经历了近年最猛烈的抛售。AI 云公司 Nebius 股价暴跌 40%。故事线很简单：中国开源模型用 0.1 美元卖 token，美国公司花 2 美元，算力需求必然坍缩。

爆炸：总支出反涨 320%

但实际发生的事情完全相反。

Nebius 联合创始人 Roman Chernin 后来回忆：DeepSeek 引发恐慌的那个星期，"可能是我们销售最好的一周"。公司采购部门看到成本骤降后的第一反应不是砍预算，而是终于可以大规模跑推理了。

2024 年，全球企业的生成式 AI 总支出约 115 亿美元。2025 年，这个数字飙升到了 370 亿美元——一年涨了 320%。按 Menlo Ventures 的企业调研，中位企业在 2025 年运行着"数十个"AI 应用，而 2023 年这个数字是 1 到 2 个。

各个维度的数据都在同一条曲线上：

Uber 在 2026 年 4 月就已经烧完了全年的 AI 预算。AT&T 目前日处理 270 亿 token——18 个月前，这个数字是 8 亿。一家美国大型医保公司，月 token 消耗从 300 万一口气冲到了 1.5 亿以上。

拆开看，增长来自三个方向的叠加。

第一是应用扩散。每家企业的营销部用了 3 个 AI 工具，销售部 4 个，客服部 2 个，加上法务、HR、财务——从 2 个到几十个，这是数量级的跳跃。

第二是单应用深度。以客服 AI 为例：2023 年日交互量约 500 次，每次约 800 个 token，做完对话就结束。到 2025 年，日交互 15000 次，每次约 4500 个 token，每次交互还要再触发 3 到 5 次后续推理——情感分析、升级预测、质量评分——全部叠加在同一个入口上。

第三是模型本身的复杂度升级。从 7B 参数的单轮模型，升级到 70B 以上的多步推理代理，每一轮内部推理所消耗的 token 是线性交互的几十倍到上百倍。

换句话说，token 成本降到了千分之一，市场用掉的 token 数涨了数万倍。乘起来的净效应只有一个方向：支出爆炸。

Token 消耗量每两个月翻一倍——多条独立线索拼出了同一个数字。把这条指数曲线画到 2027 年，企业 AI 年支出破千亿美元是算术问题，不是预测问题。

传导：存储涨了六倍，芯片基建指向 7.6 万亿

降价刺激出的需求没有停留在软件层。

存储器价格的涨幅，是 AI 需求从模型层向硬件层传导最直接的信号。

2025 年三季度起，DRAM 和 NAND Flash 现货价格累计涨幅均超过 300%。DDR5 颗粒在单月内涨幅一度突破 90%。进入 2026 年，涨价不但没停，反而加速了。

一季度 DRAM 合约价涨幅从预期的 55%-60%被上修到 90%-95%；NAND 从 33%-38%上修到 55%-60%。二季度 TrendForce 的预测是 DRAM 再涨 58%-63%，NAND 再涨 70%-75%。

以消费级产品为锚：宏碁掠夺者 32G DDR5 6000 套条，2025 年 10 月底价格还在 1300 元，到 2026 年 1 月已经飙到 2700 元。三个月翻倍，放在消费品市场上极其罕见。

三星存储业务在 2025 年四季度录下单季营业利润历史新高——突破 20 万亿韩元、约合人民币 962 亿元。而这一年多的涨势最根本的推力并非来自手机或 PC 的消费级换代，而是 AI 数据中心对 HBM、企业级 SSD、高密度 DRAM 的巨量采购。

高盛 5 月的一份报告把这笔账算到了极致。

报告预测，2026 年到 2031 年全球 AI 基础设施累计资本支出约 7.6 万亿美元。2026 年单年 7650 亿美元，到 2031 年攀升至 1.6 万亿。其中，单颗基准 GPU（基于 NVIDIA VR200 Rubin）按 8.05 万美元计算，NVIDIA 占各期总算力支出的 75%。

高盛在报告里还追问了一个关键问题：如果 ASIC（专用芯片）大量替代 GPU，是否能削减总需求？

答案是分情况的。如果需求缺乏弹性——企业的 AI 算力需求是固定的——ASIC 替代可以直接降低总资本需求。但如果需求有弹性——算力越便宜就买得越多——芯片组合的改变主要重塑的是利润在不同供应商之间的分配，而不是总支出规模。

高盛的基准情景选的是后者。

美股价格也在往同一个方向走。闪迪自年初以来涨了 857%，Bernstein 在 6 月 30 日的报告中将目标价上调至 3000 美元。AMD 一天涨 7%创历史新高。做 GPU 的、做存储的、做封装的、做数据中心设备的——全部在新高附近。

Edgen.tech 在 6 月 11 日的综述文章里引用的这个数字最有冲击力：内存芯片价格在过去一年里涨了六倍。

"周期性回升"这个标签贴不上去。涨了六倍的东西，背后是整个经济体系的需求在重新定价 AI 的物理基础设施。

根源：Jevons 在 1865 年就已经回答过

威廉·斯坦利·杰文斯在 1865 年写了一本书叫《煤炭问题》。

他的核心观察是：瓦特改良蒸汽机后，单位煤耗大幅下降，英国的煤炭总消费量反而不降反升。因为效率提升意味着蒸汽动力在更多行业成本可接受了——纺织、铁路、采矿、航运——每一个新场景都创造出了原来不存在的煤炭需求。

160 年后，同样的公式在 AI 算力上重演了。

企业算过账。2022 年的 token 价格下，实时推理客服对话在经济上不可行。非紧急场景不值得跑 AI。个性化内容生成只能做细分群体级别，做不到用户级别。到了 2025 年，价格降了 1000 倍，这些"原来不存在的需求"全变成了刚需。

Nebius 的 Chernin 给了一句最直接的总结："每一次我们让同样单位的智能变得更便宜，我们不是在减少消耗，而是在增加消耗——因为同样的预算可以解决更复杂的任务了。"

市场忽略了另一个结构性推力：毛利率的正反馈。

AI 推理的毛利率曲线在历史上找不到对应物。一家提供 API 的公司，起步阶段毛利率可能只有 10%——模型训练贵、推理贵。但软件优化（算子融合、量化、推测解码）每个月都在压推理成本，而定价调整总是慢半拍。于是毛利率从 10%爬到 90%的速度比任何传统行业都要短。

毛利率驱动利润，利润追加采购，采购摊薄成本——正反馈回路，没有天花板。

"你有 DRAM 就能卖 token，没有 DRAM 就无法卖 token。"这句话正在成为 AI 芯片需求的基本方程。

高盛报告的两个敏感性假设也在加深同一个判断。芯片经济寿命如果从 5 年缩到 3 年，替换周期加速，累计资本需求直接上台阶。每芯片内存比预期高 25%——主要改变的是芯片堆栈内部的支出分配，对 7.6 万亿总盘子的净影响有限，但方向是同一个：钱不会少花。

终局：谁握住了算力

Fable 5 出口管制解除——6 月 12 日禁、6 月 30 日解，前后三周——给了这个悖论一个意外的注脚。

管制的理由是"国家安全风险"。解除管制跟风险消失没关系——替代品出现了。Tulongfeng 等亚洲团队在管制期内推出了接近 Mythos 级的模型，封锁的威慑力迅速归零。解禁是现实使然，跟善意无关。

这段插曲恰好卡在 AI 降本悖论的主线上：模型是可替代的。从 GPT 到 Claude 到 DeepSeek 到开源模型，没有人能垄断 AI 的能力本身——有人设卡，就有人绕路。

硬件不是这套逻辑。

GPU 不行。DRAM 不行。晶圆厂的建设周期以年为单位。光刻机的产能上限是固定的。高纯度硅的供给弹性近乎零。这些都是物理定律，不是商业策略。软件优化可以压模型成本一千倍，但压不下一个晶圆厂的建设周期一天。

AI 模型降价的终点，如果这个悖论继续跑下去，不指向去算力化——指向算力定价权的再集中。不管你用的是谁的模型，token 都得跑在某人的芯片上。模型厂商卷价格的每一分钱，最后都变成了数据中心、晶圆厂和存储产线账簿上的收入。降本越凶，这个转移越不可逆。