cover

10 倍价差与 300 tokens/s：大模型 API 的暴利护城河正在崩塌

过去 24 小时，如果你在 X（Twitter）上刷 AI 圈的消息，会发现风向彻底变了。

这不是那种“又一个模型发布了”的小打小闹，而是一场针对闭源大厂“API 过路费”的集体围剿。Google 祭出了彻底开源的 Gemma 4，阿里放出了击穿底价的 Qwen 3.6-Plus，而底层的极客们则用 llama.cpp 把顶级推理能力硬生生拽回了本地。

大模型的商业逻辑正在发生剧变：云端全能模型的神秘感正在消失，而端侧的本地计算正在全面觉醒。

属于闭源 API 的暴利时代，可能真的要画句号了。

1. Google 终于不扭捏了：Apache 2.0 的杀伤力

Google 这一次，表现得极其大方。

正如官方账号 @googlegemma 说的，Gemma 4 专为开发者自有硬件上的 Agent（智能体）工作流而生。但真正让社区炸锅的，是它彻底采用了 Apache 2.0 开源协议。

资深开发者 @dotey 说得挺透：“之前的 Gemma 限制不少，这次全系列换成 Apache 2.0，商用、修改、分发都没障碍了。” 这意味着企业可以放心把模型塞进产品，不用再天天研究条款里的灰色地带（毕竟谁也不想写着写着代码突然收到法务的邮件）。

Gemma 4 提供了从 2B 到 31B 的四个尺寸，原生支持 256K 上下文。最离谱的是它的端侧能力：小模型 E2B 和 E4B 是 Google 联合高通、联发科开发的，能以近乎零延迟跑在手机上。

在手机上跑一个能看图、听话、还能离线写代码的本地 AI，不再是 PPT 里的饼了。

2. 300 tokens/s：本地计算的“暴力美学”

如果说 Gemma 4 提供了弹药，那么底层工具的进化就是递上了重型武器。

llama.cpp 的作者 @ggerganov 用一段实机演示展示了什么叫“暴力美学”：在一台已经服役 3 年的 Mac Studio M2 Ultra 上，运行 Gemma 4 26B 模型，配合推测解码技术，生成速度居然达到了恐怖的 300 tokens/s！

这个速度，比绝大多数收费的云端 API 都要快得多（快到你眼睛都跟不上屏幕跳字的速度）。

与此同时，算力下沉的门槛还在降。开发者 @no_stp_on_snek 展示了权重压缩技术，把 31B 模型的内存占用从 30.4 GB 直接砍到了 18.9 GB。而前 Twitter CEO Jack Dorsey (@jack) 则在推 mesh-llm——一个允许你“池化”分布式算力来跑开源模型的框架。

当单机压缩、极致引擎和分布式网络结合，我们正在摆脱对中心化算力集群的绝对依赖。

3. Qwen 3.6-Plus：定价模型里的“核弹”

如果说端侧模型切断了长尾需求，那么阿里的 Qwen 3.6-Plus 则是直接在 OpenAI 和 Anthropic 的后院放火。

“Qwen 刚刚向大厂的定价模型投下了一枚核弹。” 开发者 @ziwenxu_ 在对比数据后给出了这个评价。

这笔账算得挺吓人。以 100 万 Token 为例：

Claude 4.5 Opus: 输入 $5.00 / 输出$ 25.00
Qwen 3.6-Plus: 输入 $0.50 / 输出$ 3.00

输入端便宜了 10 倍，输出端便宜了近 8 倍。更要命的是，在衡量代码能力的 SWE-bench 榜单上，Qwen 拿到了 78.8 分，极其逼近 Opus 的 80.9 分。

你现在只需花 10% 的钱，就能获得 98% 的性能。

对于需要高频循环、疯狂消耗 Token 的 Agentic Workflow（智能体工作流）来说，这是毁灭性的降维打击。

结语

把这些动态串起来看，未来的技术栈大概率会变成“哑铃型”：

核心隐私数据、高频交互的 Agent 和边缘设备，将全部跑在本地开源模型（如 Gemma 4）上；而重度逻辑处理和超长文档理解，将交给极具性价比的云端模型（如 Qwen 3.6-Plus）。

当算力下沉到你的 Mac 甚至手机，当云端护城河被“一毛钱”的定价瓦解，留给闭源大厂高昂 API 收费的时间，真的不多了。

属于开发者的“大航海时代”，可能现在才真正开始。

我以上所说不一定对，或者都是错的。

查看 Dashboard

10 倍价差与 300 tokens/s：大模型 API 的暴利护城河正在崩塌

10 倍价差与 300 tokens/s：大模型 API 的暴利护城河正在崩塌

1. Google 终于不扭捏了：Apache 2.0 的杀伤力

2. 300 tokens/s：本地计算的“暴力美学”

3. Qwen 3.6-Plus：定价模型里的“核弹”

结语

On this page