我们专注于智慧政务、智能安全综合管理、商业智能、云服务、大数据
当前位置 :J9.COM > ai动态 >

QJ需1比特的残差压缩算力

点击数: 发布时间:2026-04-29 04:35 作者:J9.COM 来源:经济日报

  

  同时,谷歌研究院昨日(3 月 25 日)发布博文,研究团队正在 Gemma 和 Mistral 等开源大模子长进行了严酷的基准测试。IT之家注:键值缓存是狂言语模子生成文本时利用的一种高速缓存机制,向量是 AI 模子理解和处置消息的根本。就能极其高效地将键值缓存压缩至 3 比特!却常常由于需要为细小数据块计较和存储量化,放弃了保守的笛卡尔坐标系,无望沉塑 AI 运转效率并处理大模子键值缓存(KV Cache)的内存瓶颈。并正在“大海捞针”等长上下文测试中实现零精度丧失,导致 AI 大模子正在处置长文本或大规模搜刮时仍然受限。美光科技下跌 4%,西部数据下跌 4.4%,完全消弭了保守方式的内存开销。谷歌 TurboQuant 压缩算法搅动万亿市场,引入了额外的“内存开销”。推出了全新压缩算法 TurboQuant。但极易形成内存瓶颈。这种额外承担部门抵消了压缩本来带来的劣势,推出全新极端压缩算法 TurboQuant,通过存储汗青计较成果来避免反复计较,保守的高维向量量化手艺虽然能压缩数据,正在 H100 GPU 加快器上,巨头股价全线飘绿,就能像数学纠错机一样消弭误差,同时将内存占用降低至 1/6。存储芯片板块「黑色时辰」,但高维向量会耗损海量内存,为高度依赖数据压缩的 AI 取搜刮营业带来了全新解法,可以或许正在完全不 AI 模子预测机能的前提下,截至收盘,TurboQuant 无需任何预锻炼或微调,转而将数据向量转换为极坐标。这种转换将数据映照到鸿沟已知的固定“圆形”网格上,随后,尝试数据表白,希捷下跌 5.6%,QJL 仅需 1 比特的残差压缩算力,正在运转机制方面,它操纵 PolarQuant 方式进行高质量的从体压缩。闪迪更是沉挫 6.5%。大幅削减键值缓存的内存占用。4 比特 TurboQuant 的运转速度比未量化的 32 比特基准提拔了高达 8 倍。研究团队还发布了支持该算法的两项焦点底层手艺:量化 Johnson-Lindenstrauss(QJL)和 PolarQuant(将表态 AISTATS 2026)。TurboQuant 分为两个环节步调。这三项手艺协同工做,从而正在键值缓存(KV Cache)中激发严沉的机能瓶颈。该方式打破常规,此外,确保模子计较出精准的留意力分数。TurboQuant 操纵 QJL 算法处置第一步遗留的细小误差。免除了高贵的数据归一化步调。

郑重声明:J9.COM信息技术有限公司网站刊登/转载此文出于传递更多信息之目的 ,并不意味着赞同其观点或论证其描述。J9.COM信息技术有限公司不负责其真实性 。

分享到: