
快科技 3 月 27 日音讯,据媒体报谈,好意思东时候 3 月 26 日,存储芯片股集体重挫,闪迪跌超 11%,希捷跌逾 8%,超威半导体、西部数据跌逾 7%,好意思光科技跌近 7%。
业内东谈主士分析,这一波动源自谷歌商酌院行将在海外学习表征会议(ICLR 2026)上领路亮相的学术论文,该商酌推出了一种新式 AI 内存压缩时候" TurboQuant "。
谷歌声称,该时候可将大谈话模子推理中的缓存内存占用压缩至六分之一,并在英伟达 H100 GPU 上杀青最高 8 倍的性能加快。
AI 模子开动时存在一种"责任内存",即 KV 缓存(Key-Value Cache)。每当模子不停信息、生成回话时,KV 缓存便会赶紧推广,且险峻文窗口越长,缓存占用的内存越大。
TurboQuant 本色上是一种极致的量化压缩算法,milansports传统量化步地需要在压缩精度和出奇存储支拨之间调和,而谷歌团队通过 PolarQuant(极坐标量化)和 QJL(量化 JL 变换)两项改进,杀青了在"零亏空"前提下将 KV 缓存压缩至 3-bit 精度。
Cloudflare 首席奉行官将这一后果称为谷歌的" DeepSeek 时刻",觉得其有望像 DeepSeek 相同,通过极致效劳大幅拉低 AI 的开动老本。
不外,摩根士丹利在最新研报中指出,商场对此存在误读。该时候仅作用于推理阶段的键值缓存,并不影响模子权重所占用的高带宽内存(HBM),也与 AI 历练任务无关。
分析师强调,所谓的" 6 倍压缩"并非存储总需求的减少,而是通过效劳提高增多单 GPU 的蒙胧量。这意味着在疏浚硬件要求下,不错撑捏 4 倍至 8 倍更长的险峻文,或在不触发内存溢出的前提下显耀提高批不停鸿沟。
现在,谷歌尚未公布 TurboQuant 在 Gemini 等自研模子中的具体部署时候表,商酌团队运筹帷幄不才个月的 ICLR 2026 会议上领路发布关系后果。

