cover

300 刀主机硬刚 26B 大模型：黄仁勋的“显存税”正在被极客凿穿

最近 AI 圈的“贫富差距”有点被抹平的意思。

以前想在本地跑个几百亿参数的大模型，你得先问问自己的钱包：有没有两张 RTX 4090？或者干脆上 A100/H100？在“显存即正义”的铁律下，老黄用昂贵的 HBM 显存筑起了一道叹息之墙，顺便收割了一波又一波的“显存税”。

但这两天，推特上几个硬核极客的 demo 彻底把这套逻辑给拆了。

一个叫 @basecampbernie 的老哥，掏出一台只卖 300 多刀的 AMD 迷你主机（Minisforum UM790 Pro）。这机器里塞的是一颗 Ryzen 9 7940HS，自带 Radeon 780M 核显。他额外插了两根 24GB 的 DDR5 5600MHz 内存，总共 48GB。

就这么个巴掌大的小盒子，居然以 20 tokens/s 的速度，跑通了 Google 最新的 Gemma 4 26B。

说实话，刚看到这个数据的时候我第一反应是：这不科学。26B 的模型，光权重就得占掉快 30GB 显存，这破核显哪来的显存？

研究了一圈发现，这事儿背后其实是一套非常扎实的工程实现。

算法的“障眼法”：MoE 救了穷哥们

首先得给 Google 的 Gemma 4 团队点个赞。

这次 Gemma 4 出了个极其硬核的版本：26B-A4B。这个命名很有意思，总参数量确实是 25.2B（够大，够聪明），但它用了 MoE（混合专家）架构。

这里的数学账是这样的： 虽然肚子里装了 260 亿个参数，但它把这些参数拆成了很多个“专家”模块。每次生成一个 Token 的时候，只有 4B 的参数是“活跃”的。

这就好比你请了个 26 人的专家团，但每次干活只派 4 个人上场。计算量瞬间降到了 4B 级别（核显能扛住），但智力水平依然维持在 26B 的基准线上。唯一的代价是，你得有足够的空间把这 26 个人都请进屋里坐着——这就是为什么它需要近 30GB 的内存。

（顺便吐槽一下，@Voxyz_ai 提醒说 Gemma 4 的版本号极其坑爹，有个 E4B 版本听起来很小，其实权重有 8B，纯属计算量等效，内存一点没省。选错版本，300 刀的主机当场就得冒烟。）

硬件的“越狱”：用系统内存硬顶显存

计算量降下来了，但“30GB 的显存墙”还在那儿杵着。

这时候，AMD 的核显和苹果的 M 系列芯片露出了优势：统一内存（Unified Memory）。

在传统的 PC 架构里，显存是显存，内存是内存。你内存再大，显卡够不到也没用。但 780M 这种核显是跟 CPU 共享内存的。只要你在 BIOS 里把显存分配调高，或者直接通过 Vulkan 接口调用，这 48GB 内存里有 30GB 都能直接给 GPU 使。

虽然 DDR5 的带宽（约 75GB/s）跟 RTX 4090 那种接近 1TB/s 的带宽比起来像是个“小水管”，但因为 Gemma 4 A4B 每次只激活 4B 参数，GPU 实际上每次只需要从内存里搬运 2-4GB 的数据。用 75GB/s 的带宽去跑这点数据量，刚好能喂饱那颗 780M 核显。

这简直就是给老黄的显存霸权开了个后门。

同样的戏码也在 Mac 阵营上演。@Prince_Canuma 利用 MLX 框架和 TurboQuant 量化，把 Gemma 4 26B 的上下文硬生生推到了 375K。这是什么概念？你把五六本长篇小说一股脑塞进去，它不仅不宕机，解码速度还翻倍了。

巨头的壁垒还剩几块砖？

我一直觉得，AI 的未来不应该只在昂贵的机房里，而应该在每个人的桌面上。

英伟达的领先优势确实很明显，CUDA + HBM 依然是处理大规模矩阵运算的正统大道。但在开源社区，极客们正在用一套**“MoE 架构 + 统一内存 + 激进量化”**的组合拳，把这堵墙凿得千疮百孔。

这种努力最迷人的地方在于：它不迷信暴力算力，而是通过对底层机制的压榨，让预算只有 300 刀的玩家，也能在自己的桌面上，看到那个 260 亿参数的“硅基大脑”在安静地跳动。

（当然，折腾这玩意儿的过程依然很繁琐。配置环境、处理报错、选对模型版本，哪一步都能让你怀疑人生。但当你看到那个光标飞快跳动的时候，那种“我的算力我做主”的感觉，确实挺上瘾的。）

这场关于算力的平权运动，可能才刚刚拉开序幕。

300 刀主机硬刚 26B 大模型：黄仁勋的“显存税”正在被极客凿穿

300 刀主机硬刚 26B 大模型：黄仁勋的“显存税”正在被极客凿穿

算法的“障眼法”：MoE 救了穷哥们

硬件的“越狱”：用系统内存硬顶显存

巨头的壁垒还剩几块砖？

On this page