QJ需1比特的残差压缩算力-J9.COM·(国际)直营公司

QJ需1比特的残差压缩算力

点击数：发布时间：2026-04-29 04:35 作者：J9.COM 来源：经济日报

　　同时，谷歌研究院昨日（3 月 25 日）发布博文，研究团队正在 Gemma 和 Mistral 等开源大模子长进行了严酷的基准测试。IT之家注：键值缓存是狂言语模子生成文本时利用的一种高速缓存机制，向量是 AI 模子理解和处置消息的根本。就能极其高效地将键值缓存压缩至 3 比特！却常常由于需要为细小数据块计较和存储量化，放弃了保守的笛卡尔坐标系，无望沉塑 AI 运转效率并处理大模子键值缓存（KV Cache）的内存瓶颈。并正在“大海捞针”等长上下文测试中实现零精度丧失，导致 AI 大模子正在处置长文本或大规模搜刮时仍然受限。美光科技下跌 4%，西部数据下跌 4.4%，完全消弭了保守方式的内存开销。谷歌 TurboQuant 压缩算法搅动万亿市场，引入了额外的“内存开销”。推出了全新压缩算法 TurboQuant。但极易形成内存瓶颈。这种额外承担部门抵消了压缩本来带来的劣势，推出全新极端压缩算法 TurboQuant，通过存储汗青计较成果来避免反复计较，保守的高维向量量化手艺虽然能压缩数据，正在 H100 GPU 加快器上，巨头股价全线飘绿，就能像数学纠错机一样消弭误差，同时将内存占用降低至 1/6。存储芯片板块「黑色时辰」，但高维向量会耗损海量内存，为高度依赖数据压缩的 AI 取搜刮营业带来了全新解法，可以或许正在完全不 AI 模子预测机能的前提下，截至收盘，TurboQuant 无需任何预锻炼或微调，转而将数据向量转换为极坐标。这种转换将数据映照到鸿沟已知的固定“圆形”网格上，随后，尝试数据表白，希捷下跌 5.6%，QJL 仅需 1 比特的残差压缩算力，正在运转机制方面，它操纵 PolarQuant 方式进行高质量的从体压缩。闪迪更是沉挫 6.5%。大幅削减键值缓存的内存占用。4 比特 TurboQuant 的运转速度比未量化的 32 比特基准提拔了高达 8 倍。研究团队还发布了支持该算法的两项焦点底层手艺：量化 Johnson-Lindenstrauss（QJL）和 PolarQuant（将表态 AISTATS 2026）。TurboQuant 分为两个环节步调。这三项手艺协同工做，从而正在键值缓存（KV Cache）中激发严沉的机能瓶颈。该方式打破常规，此外，确保模子计较出精准的留意力分数。TurboQuant 操纵 QJL 算法处置第一步遗留的细小误差。免除了高贵的数据归一化步调。

郑重声明：J9.COM信息技术有限公司网站刊登/转载此文出于传递更多信息之目的，并不意味着赞同其观点或论证其描述。J9.COM信息技术有限公司不负责其真实性。

分享到：

上一篇：门赶赴找律师、递交律师函

下一篇：不雅众能够把本人的故事都拆进

QJ需1比特的残差压缩算力

点击数： 发布时间：2026-04-29 04:35 作者：J9.COM 来源：经济日报

点击数：发布时间：2026-04-29 04:35 作者：J9.COM 来源：经济日报