
300 刀主机硬刚 26B 大模型:黄仁勋的“显存税”正在被极客凿穿
最近 AI 圈的“贫富差距”有点被抹平的意思。
以前想在本地跑个几百亿参数的大模型,你得先问问自己的钱包:有没有两张 RTX 4090?或者干脆上 A100/H100?在“显存即正义”的铁律下,老黄用昂贵的 HBM 显存筑起了一道叹息之墙,顺便收割了一波又一波的“显存税”。
但这两天,推特上几个硬核极客的 demo 彻底把这套逻辑给拆了。
一个叫 @basecampbernie 的老哥,掏出一台只卖 300 多刀的 AMD 迷你主机(Minisforum UM790 Pro)。这机器里塞的是一颗 Ryzen 9 7940HS,自带 Radeon 780M 核显。他额外插了两根 24GB 的 DDR5 5600MHz 内存,总共 48GB。
就这么个巴掌大的小盒子,居然以 20 tokens/s 的速度,跑通了 Google 最新的 Gemma 4 26B。
说实话,刚看到这个数据的时候我第一反应是:这不科学。26B 的模型,光权重就得占掉快 30GB 显存,这破核显哪来的显存?
研究了一圈发现,这事儿背后其实是一套非常扎实的工程实现。
算法的“障眼法”:MoE 救了穷哥们
首先得给 Google 的 Gemma 4 团队点个赞。
这次 Gemma 4 出了个极其硬核的版本:26B-A4B。这个命名很有意思,总参数量确实是 25.2B(够大,够聪明),但它用了 MoE(混合专家)架构。
这里的数学账是这样的: 虽然肚子里装了 260 亿个参数,但它把这些参数拆成了很多个“专家”模块。每次生成一个 Token 的时候,只有 4B 的参数是“活跃”的。
这就好比你请了个 26 人的专家团,但每次干活只派 4 个人上场。计算量瞬间降到了 4B 级别(核显能扛住),但智力水平依然维持在 26B 的基准线上。唯一的代价是,你得有足够的空间把这 26 个人都请进屋里坐着——这就是为什么它需要近 30GB 的内存。
(顺便吐槽一下,@Voxyz_ai 提醒说 Gemma 4 的版本号极其坑爹,有个 E4B 版本听起来很小,其实权重有 8B,纯属计算量等效,内存一点没省。选错版本,300 刀的主机当场就得冒烟。)
硬件的“越狱”:用系统内存硬顶显存
计算量降下来了,但“30GB 的显存墙”还在那儿杵着。
这时候,AMD 的核显和苹果的 M 系列芯片露出了优势:统一内存(Unified Memory)。
在传统的 PC 架构里,显存是显存,内存是内存。你内存再大,显卡够不到也没用。但 780M 这种核显是跟 CPU 共享内存的。只要你在 BIOS 里把显存分配调高,或者直接通过 Vulkan 接口调用,这 48GB 内存里有 30GB 都能直接给 GPU 使。
虽然 DDR5 的带宽(约 75GB/s)跟 RTX 4090 那种接近 1TB/s 的带宽比起来像是个“小水管”,但因为 Gemma 4 A4B 每次只激活 4B 参数,GPU 实际上每次只需要从内存里搬运 2-4GB 的数据。用 75GB/s 的带宽去跑这点数据量,刚好能喂饱那颗 780M 核显。
这简直就是给老黄的显存霸权开了个后门。
同样的戏码也在 Mac 阵营上演。@Prince_Canuma 利用 MLX 框架和 TurboQuant 量化,把 Gemma 4 26B 的上下文硬生生推到了 375K。这是什么概念?你把五六本长篇小说一股脑塞进去,它不仅不宕机,解码速度还翻倍了。
巨头的壁垒还剩几块砖?
我一直觉得,AI 的未来不应该只在昂贵的机房里,而应该在每个人的桌面上。
英伟达的领先优势确实很明显,CUDA + HBM 依然是处理大规模矩阵运算的正统大道。但在开源社区,极客们正在用一套**“MoE 架构 + 统一内存 + 激进量化”**的组合拳,把这堵墙凿得千疮百孔。
这种努力最迷人的地方在于:它不迷信暴力算力,而是通过对底层机制的压榨,让预算只有 300 刀的玩家,也能在自己的桌面上,看到那个 260 亿参数的“硅基大脑”在安静地跳动。
(当然,折腾这玩意儿的过程依然很繁琐。配置环境、处理报错、选对模型版本,哪一步都能让你怀疑人生。但当你看到那个光标飞快跳动的时候,那种“我的算力我做主”的感觉,确实挺上瘾的。)
这场关于算力的平权运动,可能才刚刚拉开序幕。

