
就在昨天(3 月 25 日),谷歌发布了一项径直引起好意思光、SK 海力士等存储巨头股价下落的时刻——TurboQuant。
好意思光昨晚就跌超 4%,闪迪一度大跌 6.5% ,SK 海力士在韩股今天开盘后也很快下落 3%。【P1】
不是新模子,也不是新址品,TurboQuant 是谷歌最新推出的一种推理优化时刻,更准确少量地说,是 AI 推理阶段的「内存压缩算法」。按照官方基于开源模子的测试,TurboQuant 至少能将 KV Cache(键值缓存)的内存需求:
裁汰 6 倍。【P2】
这里需要解说一下,在推理阶段(和 AI 对话的时代),模子需要按捺纪录险峻文,这部分就叫「KV Cache」,你也不错将它相识为 AI 的短期追念。泛泛情况下,你和 AI 聊得越多,它铭记越多,占用的内存也就越大。
而 TurboQuant 的想法用一句话空洞等于:把 AI 的「追念」压缩,但尽量作念到无损,不让它变笨。
推行上,TurboQuant 要害作念了两件事,一是通过 PolarQuant 的法子尽可能把本来高精度的数据(比如 32 位)无损压缩到 3bit 级别;二是通过 QJL 算法把压缩带来的谬误修正。
先岂论时刻上的已毕,要是的确能在更粗鄙的模子上作念到「无损压缩」,TurboQuant 毫无疑问会成为一项极其要害的时刻。毕竟,内存关于 AI 来说,真等于一个瓶颈,一个房间里的大象。【P3】
最初是推理资本。AI 推理最贵的等于算力和内存,如如何果这一块能压缩到本来的六分之一,许多本来资本很高的 AI 奇迹就会变得更容易普及。
其次是更多的想象缔造。当今许多 AI 只可跑在云表,很大原因等于土产货缔造带不动。但要是内存需求下降,手机、车机以致一些边际缔造,表面上齐有契机运行更强的模子,在推走时用上会愈加生动。
再往前一步看,以致会影响咱们如何用 AI。
当今许多模子其实不是「不会」,而是「记不住」,险峻文一长,就启动丢信息、风马牛不关系。尤其所以 OpenClaw(龙虾)为代表的一系列 Agent 居品,愈加依赖长险峻文。【P4】
要是 TurboQuant 能让模子在有限资源下记取更多内容,那长对话、多设施任务延迟这些场景,体验可能会赫然莳植。
诚然,也需要平安少量看。
咫尺 TurboQuant 距离大限制落地还有距离,还只在 Gemma 与 Mistral 开源模子上进行部分测试 ,能不成在 Gemini 以过甚他模子上已毕掌握的适度,还不知所以。
另一方面,它改造的是推理经过的内存占用,并莫得变嫌模子自身的才气,也无法裁汰考试资本。
#谷歌# #存储# #压缩算法# #AI#开云(中国)kaiyun网页版登录入口开云体育



