一项 3-bit 压缩技术引发的华尔街闪崩:为什么 AI 越省显存,内存反而越贵?

- Published on
- /12 mins read/––– views

一项 3-bit 压缩技术引发的华尔街闪崩:为什么 AI 越省显存,内存反而越贵?
华尔街的量化交易算法昨天经历了一次不小的震荡。
昨天凌晨,几只头部存储芯片公司的股票经历了一次诡异的闪崩,随后又被暴力拉起。
导火索不是地缘政治,也不是财报暴雷。
而是在 GitHub 上刚刚开源的一个叫 TurboQuant 的项目,外加几篇没看懂论文就匆忙发报的研报。
研报的标题大同小异:“新技术将大模型内存需求减半,DRAM 凛冬将至”。
不少分析师看到“需求减半”这四个字,第一反应就是按下做空按钮。
如果你真的看懂了 TurboQuant 在干什么,你会重新审视手里的头寸,然后去关注每一家能造高性能内存的公司。
我们得先聊聊,大模型究竟在吃什么资源。
外行总以为大模型最耗费的是算力。
其实不对。大模型的致命瓶颈,一直是显存容量和内存带宽。
这里就要引出今天的主角:KV-Cache。
你可以把大模型想象成一个记忆力极差、但阅读速度极快的学者。
每次你想让它接下茬,它都得把你们之前的对话从头到尾重新读一遍。
这显然太蠢了。于是工程师发明了 KV-Cache。
简单来说,这就是大模型的“短期记忆”。
模型在处理你给的 prompt 时,会把计算过的中间状态(Key 和 Value)存进显存里。
当你接着往下聊时,它不需要重算之前的上下文,直接去显存里调取就行。
这就是 inference 能做到秒回的秘密。
但代价是什么?
代价是显存的爆炸。
模型参数本身占用的显存是固定的。一个 70B 的模型,用常规精度跑,大概吃掉 140GB 显存。
但这只是一具没有灵魂的躯壳。
一旦你开始往里塞几万字的 PDF,或者让它写几千行的代码,KV-Cache 就会像癌细胞一样疯狂生长。
上下文越长,KV-Cache 越大。
很多时候,用来存 KV-Cache 的显存,比装模型本身还要多。
你的显存不是算不过来,而是装不下。内存溢出(OOM),是每个搞 AI 的人的噩梦。
这就是 TurboQuant 试图解决的命题。
它的解法是 Quantization(量化)。
量化不是新鲜事。把 16-bit 的浮点数砍成 8-bit 或者 4-bit,大家都在做。
这就好比把一张 4K 高清无码图压缩成 1080P,稍微糊一点,但勉强能看,而且省了一半空间。
但问题是,传统的量化技术,底线通常是 4-bit。
一旦你把数据压缩到 3-bit 甚至更低,模型就会瞬间变成弱智。
它会开始胡言乱语,连基本的 benchmark 都跑不过。
为什么?因为模型里存在一些“离群值”(Outliers)。
这些数值极大或极小,数量不多,但对最终结果至关重要。
当你用粗暴的方式去压缩所有数据时,这些关键信息就被抹杀了。
TurboQuant 的黑科技在于,它做到了一种近乎魔法的“无损 3-bit 压缩”。
它没有一刀切。
它用一种极度聪明的算法,单独识别并保护了那些关键的离群值,只对不敏感的常规数据进行极限压缩。
结果就是:原本需要 80GB 显存才能跑起来的长文本任务,现在一张 24GB 的民用旗舰显卡就能轻松拿下。
模型智商几乎没有衰减。
如果只看表面数据,很容易得出“内存需求暴跌”的结论。
他们忽略了经济学里一个古老的诅咒:杰文斯悖论(Jevons Paradox)。
19 世纪中叶,英国人发明了更高效的蒸汽机。
当时的人预测:因为新机器更省煤,所以英国的煤炭消耗量会大幅下降。
结果呢?
因为蒸汽机变得极其高效和廉价,原本用不起蒸汽机的工厂、火车、轮船全用上了。
英国的煤炭消耗量不仅没有下降,反而呈指数级暴涨。
这就是杰文斯悖论:技术进步提高了资源的利用效率,最终反而会增加该资源的总消耗量。
套用到今天也一样。
回想一下互联网早期。
当视频压缩技术(比如 H.264 到 H.265)取得突破时,单个视频消耗的带宽变小了。
但电信运营商的带宽需求下降了吗?
没有。因为你看视频的成本变低了,于是短视频平台爆发了,你一天要刷几百个视频。
云存储也是同理。压缩算法越牛逼,你存进云盘里的无用文件就越多。
“效率提升 = 场景爆发 = 需求激增”。
这是科技史上一条颠扑不破的铁律。
现在,把这个铁律套进 TurboQuant 和 AI 显存里。
过去,因为 KV-Cache 太占显存,只有财大气粗的云厂商买得起成吨的 H100 来提供长文本服务。
普通开发者只能小心翼翼地控制 prompt 长度。
现在,TurboQuant 把门槛打下来了。
这意味着什么?
这意味着本地算力革命的彻底爆发。
以前你不敢在本地跑 70B 的大模型,因为买不起那种天价的硬件。
现在,一台满配内存的 M4 Mac Mini,配合 TurboQuant 的 3-bit 压缩,直接变成了一台 AI “小钢炮”。
开发者再也不用每个月给 OpenAI 或者 Anthropic 交昂贵的 API 订阅税了。
你可以零延迟、不用担心隐私泄露地在本地进行疯狂的 vibe coding。
(不用再提心吊胆地盯着 API 账单出汗了)
更可怕的是下一波 App 浪潮。
当本地 inference 的显存成本低到一定程度时,未来的每一个桌面软件、每一个手机 App,都会内置一个甚至几个本地小模型。
它们会在后台默默运行,随时处理你的私人数据。
当每台电脑、每部手机都需要长时间在后台挂载模型,并且处理极长的上下文时,硬件会发生什么变化?
设备的基础内存容量必须翻倍,甚至翻几倍。
现在手机标配 8GB 内存。明年可能就是 16GB 起步,后年 32GB。
电脑的起步内存会从 16GB 狂飙到 64GB。
全人类的终端设备,即将迎来一次极其惨烈的硬件军备竞赛。
对于存储巨头来说,这其实是一个被低估的长期利好。
我们回顾一下存储行业的历史,这是一部充满了血腥、垄断和周期性狂欢的黑帮史。
DRAM(动态随机存取存储器)是一个极度寡头化的市场。
三星、海力士、美光,这三家几乎垄断了全球的产能。
这个行业的周期性极强。一旦供大于求,价格就会跌到妈都不认识。
但巨头们有的是手段。
在行业里有一个经久不衰的梗:“精准停电/失火”。
2013 年,DRAM 价格低迷。9 月,海力士无锡工厂突然发生大火。
这场火灾烧掉了全球 15% 的 DRAM 产能。
结果?内存条价格在随后的几个月里暴涨翻倍。
2017 年,智能手机内存容量大跃进,从 2GB 普遍拉升到 4GB/6GB。
那一年,内存条被称为“年度最佳理财产品”。一根 8G 内存条能卖出 900 块的天价。
(那时候去电脑城装机,卖内存的档口老板比卖显卡的还嚣张)
2021 年,加密货币挖矿狂潮。
不仅显卡一卡难求,连带大容量内存和固态硬盘也被抢购一空。
存储巨头们在这些周期里赚得盆满钵满。
但这一次,他们甚至不需要去拉工厂的电闸,也不需要假装失火了。
AI 带来的增量,比智能手机和挖矿加起来还要庞大。
在云端,英伟达的下一代计算卡对 HBM(高带宽内存)的需求是个无底洞。
在边缘端,TurboQuant 这样的技术看似是在给模型“减肥”,实际上是在给整个硬件生态下达强制升级的指令。
当你发现你的旧电脑连一个带 100K 上下文的本地模型都跑不动,而你的同事已经用本地 agent 自动处理完了一天的邮件时。
你会毫不犹豫地刷信用卡换一台新机器。
并且在选配时,把内存拉到满。
这才是真实的商业世界。
技术突破从来不会消灭需求,它只会以更隐蔽、更庞大的方式重塑需求。
量化技术把大模型的门槛踹碎了,让它从云端的奢侈品,变成了本地的日用品。
当数十亿台设备开始在本地并发进行 inference 时,消耗的硅片和内存颗粒将是一个天文数字。
算力的上半场,是少数几个科技巨头在数据中心里烧钱炼丹。
算力的下半场,是无数个被 TurboQuant 武装起来的端侧设备,吞噬掉世界上最后一点产能。
下一次你去买电脑。
销售可能会告诉你,CPU 够用就行,硬盘可以外接。
但内存,请你买你能买得起的最大容量。
这不仅仅是一个硬件建议。
这是在这个被 AI 填满的世界里,你唯一能给自己留下的生存空间。
