而在2026年的CES上,英伟达直接自己做了一套面向KV Cache的存储层。由于英伟达的KV Cache存储层明确采用了SSD,而当前SSD市场正受供应紧张和价格上涨的影响,本就紧俏的市场再次被推向高潮。 老黄的这次发布,使SSD热度进一步升温,也直接带动了闪迪、美光、SK ...
过去一段时间,很多人对大模型都有一个明显感受:token 总是不够用。 毕竟用户想大模型更「聪明」更连贯,上下文窗口只会越来越大。 而在模型背后,长上下文是相当「奢侈」的。用户 token 消耗翻倍,其实是模型更大的 KV cache 和更高的 ...
在生产环境部署过LLM的人都知道模型权重只是问题的一半,另一半是KV cache:存储注意力状态的运行时内存,让模型在生成token时不必从头开始重算。能不能管好这块内存决定了系统是一个卡顿的demo还是一个可用的推理服务。 本文梳理KV cache管理经历的5个时代 ...
2026-03-26 23:31:06 出处:量子位 作者:梦晨 编辑:若风 评论(0) 复制 纠错 两家存储芯片巨头股价大跌,没有财报暴雷,没有供应链断裂,只是谷歌展示了一篇即将在ICLR 2026正式亮相的论文。 谷歌研究院推出TurboQuant压缩算法,把AI推理过程中最吃内存的KV cache压缩 ...
你输入个几百字,它输出就得慢慢挤牙膏。 是模型本身算力不够吗? 不全是。 这里面其实藏着一个非常基础的效率问题,而解决这个问题的核心技术,就是今天要跟大家聊明白的 KV Cache。 1. 先铺垫一下:这些基础术语你得懂 聊KV Cache之前,得先把一些最基础的 ...
2026年3月,谷歌研究院发布TurboQuant压缩算法技术,迅速在存储与AI基础设施领域引发热议。该算法能够压缩KV缓存,实现内存占用降低6倍、推理速度提升8倍的潜力。这一技术突破的背后,折射出大模型推理时代最核心的硬件瓶颈:KV Cache正成为制约AI部署规模的 ...
环球老虎财经 on MSN

SK海力士、三星如何蚕食英伟达的利润?

AI推理时代,存储成本跃升为算力核心,SK海力士、三星等巨头正通过HBM及SSD分食英伟达利润。
因为公众号平台更改了推送规则。记得点下右下角的大拇指“赞”和红心“推荐”。这样每次新文章推送,就会第一时间出现在订阅号列表里。 因为公众号平台更改了推送规则。记得点右下角的大拇指“赞”和红心“推荐”。这样每次新文章推送,就会第一时间 ...
Forbes contributors publish independent expert analyses and insights. Covering Digital Storage Technology & Market. IEEE President in 2024 At the 2025 Nvidia GPU Technology Conference the company ...
VerTQ is an accelerator chip that implements Google's TurboQuant algorithm which reduces KV cache memory usage of Large ...