硬核解析 TurboQuant 底层:极坐标变换与 3-bit 缓存压缩
来自:my.oschina.net 收录时间:2026-03-30
TurboQuant 是谷歌 2026 年 3 月发布的极端 KV 缓存压缩算法,核心突破是将大模型推理所需的键值缓存压缩至 3-bit,内存占用降低 6 倍,H100 上注意力计算速度提升 8 倍,同时推理精度几乎零损耗。 该算法由 PolarQuant 极坐标变换与 QJL 误差校正两个模块组成,无需重训练,即插即用,将于 ICLR 2026 正式发表。...
阅读更多