10 倍价差与 300 tokens/s:大模型 API 的暴利护城河正在崩塌

- Published on
- /7 mins read/––– views

10 倍价差与 300 tokens/s:大模型 API 的暴利护城河正在崩塌
过去 24 小时,如果你在 X(Twitter)上刷 AI 圈的消息,会发现风向彻底变了。
这不是那种“又一个模型发布了”的小打小闹,而是一场针对闭源大厂“API 过路费”的集体围剿。Google 祭出了彻底开源的 Gemma 4,阿里放出了击穿底价的 Qwen 3.6-Plus,而底层的极客们则用 llama.cpp 把顶级推理能力硬生生拽回了本地。
大模型的商业逻辑正在发生剧变:云端全能模型的神秘感正在消失,而端侧的本地计算正在全面觉醒。
属于闭源 API 的暴利时代,可能真的要画句号了。
1. Google 终于不扭捏了:Apache 2.0 的杀伤力
Google 这一次,表现得极其大方。
正如官方账号 @googlegemma 说的,Gemma 4 专为开发者自有硬件上的 Agent(智能体)工作流而生。但真正让社区炸锅的,是它彻底采用了 Apache 2.0 开源协议。
资深开发者 @dotey 说得挺透:“之前的 Gemma 限制不少,这次全系列换成 Apache 2.0,商用、修改、分发都没障碍了。” 这意味着企业可以放心把模型塞进产品,不用再天天研究条款里的灰色地带(毕竟谁也不想写着写着代码突然收到法务的邮件)。
Gemma 4 提供了从 2B 到 31B 的四个尺寸,原生支持 256K 上下文。最离谱的是它的端侧能力:小模型 E2B 和 E4B 是 Google 联合高通、联发科开发的,能以近乎零延迟跑在手机上。
在手机上跑一个能看图、听话、还能离线写代码的本地 AI,不再是 PPT 里的饼了。
2. 300 tokens/s:本地计算的“暴力美学”
如果说 Gemma 4 提供了弹药,那么底层工具的进化就是递上了重型武器。
llama.cpp 的作者 @ggerganov 用一段实机演示展示了什么叫“暴力美学”:在一台已经服役 3 年的 Mac Studio M2 Ultra 上,运行 Gemma 4 26B 模型,配合推测解码技术,生成速度居然达到了恐怖的 300 tokens/s!
这个速度,比绝大多数收费的云端 API 都要快得多(快到你眼睛都跟不上屏幕跳字的速度)。
与此同时,算力下沉的门槛还在降。开发者 @no_stp_on_snek 展示了权重压缩技术,把 31B 模型的内存占用从 30.4 GB 直接砍到了 18.9 GB。而前 Twitter CEO Jack Dorsey (@jack) 则在推 mesh-llm——一个允许你“池化”分布式算力来跑开源模型的框架。
当单机压缩、极致引擎和分布式网络结合,我们正在摆脱对中心化算力集群的绝对依赖。
3. Qwen 3.6-Plus:定价模型里的“核弹”
如果说端侧模型切断了长尾需求,那么阿里的 Qwen 3.6-Plus 则是直接在 OpenAI 和 Anthropic 的后院放火。
“Qwen 刚刚向大厂的定价模型投下了一枚核弹。” 开发者 @ziwenxu_ 在对比数据后给出了这个评价。
这笔账算得挺吓人。以 100 万 Token 为例:
- Claude 4.5 Opus: 输入
5.00 / 输出25.00 - Qwen 3.6-Plus: 输入
0.50 / 输出3.00
输入端便宜了 10 倍,输出端便宜了近 8 倍。更要命的是,在衡量代码能力的 SWE-bench 榜单上,Qwen 拿到了 78.8 分,极其逼近 Opus 的 80.9 分。
你现在只需花 10% 的钱,就能获得 98% 的性能。
对于需要高频循环、疯狂消耗 Token 的 Agentic Workflow(智能体工作流)来说,这是毁灭性的降维打击。
结语
把这些动态串起来看,未来的技术栈大概率会变成“哑铃型”:
核心隐私数据、高频交互的 Agent 和边缘设备,将全部跑在本地开源模型(如 Gemma 4)上;而重度逻辑处理和超长文档理解,将交给极具性价比的云端模型(如 Qwen 3.6-Plus)。
当算力下沉到你的 Mac 甚至手机,当云端护城河被“一毛钱”的定价瓦解,留给闭源大厂高昂 API 收费的时间,真的不多了。
属于开发者的“大航海时代”,可能现在才真正开始。
我以上所说不一定对,或者都是错的。
