上期我们讲了现代计算机体系结构通过处理器(CPU/GPU)和内存的交互来执行计算程序,处理输入数据,并输出结果。实际上 ...
GPU 性能没问题,模型也训练得不错,但 token 吞吐量就是上不去?问题多半出在 KV-cache 上。本文整理了 10 个实际可用的优化方向,都是能直接上生产环境的那种。 把 utilization 往上调,直到不再频繁出现 preemption;然后再调 max-num-seqs,让批次保持密集但别超出 ...
自GPU成为主流以来,英伟达一直主导着GPU计算领域。该公司推出的Blackwell B200 GPU有望成为新一代的顶级计算GPU。与前几代产品不同,Blackwell无法像以往那样依靠制程节点的改进。台积电的4NP制程可能比上一代Hopper所使用的4N制程有所提升,但不太可能像之前的全 ...
目前,不同大模型厂商发布的大语言模型在处理超长上下文方面已经有显著突破,最高的已能支持数百万 Token 的输入,例如 MiniMax-M1、Qwen2.5-1M 系列模型,均支持百万Token(1M)级别的超长上下文处理能力。 但是这场有关提升大模型上下文长度的“军备赛”依然不 ...
前不久的一则新闻,曝光了三星即将推出的Exynos芯片的图形性能。这颗应用于未来三星手机的SoC芯片,据说其3DMark Wild Life跑分达到了8134分。这个性能成绩比高通骁龙888的Adreno 660高出大约50%。至于和苹果A14比,我们手头没有可现测的设备,有媒体提到8134这个得分 ...
深耕 AI 存储领域 华瑞指数云发布 KV Cache 存储核心技术,时延,io,寻址,上下文 ...
快科技7月31日消息,据媒体报道,2025(第二届)产融合作大会在北京召开。会上,浪潮存储重磅发布了推理加速存储产品AS3000G7,旨在解决大模型推理中因KV Cache重复计算导致的算力浪费和时延问题,为金融、科研等领域的模型规模化落地提供关键支撑。 当前 ...
本文转载自超能网,其他媒体转载需经超能网同意。 在Windows 10 Version 2004中,开发团队给系统新增了一个名为“硬件加速GPU计划”的选项,它隐藏在“显示设置-图形设置”中,作为一个实验性的选项提供。对于这个选项,微软官方在之前并没有做太多的解释 ...
IT之家5 月 13 日消息,联想今日发布了一系列新品,包括 ThinkStation P4 工作站。这款工作站将于今年 6 月起在全球部分市场上市,价格届时公布。 联想称其为全球首款同时搭载 AMD 锐龙 Pro 9000 系列处理器与 NVIDIA RTX Pro 6000 Blackwell 工作站版 GPU 的产品,可选 AMD 3D V-Cache 处理器版本。 这款工作站体积仅有 30 ...
【天极网IT新闻频道】近日,华瑞指数云ExponTech CTO曹羽中受邀出席在英伟达全球总部举办的AI Storage技术研讨会,并发表主题演讲, 在演讲中首次公开了华瑞指数云自研的AI原生分布式KV Cache存储系统WQS面向KV Cache的IO Pattern进行原生设计和优化的架构 ...
IT之家 5 月 13 日消息,在今天上午的联发科天玑开发者大会 2026 上,联发科宣布天玑星速引擎将迎来“全面进化”,从三大层面赋能开发者,在移动手游中实现媲美主机游戏的沉浸体验。 据介绍,天玑星速引擎的三大核心能力如下: 全星光影:天玑 Ray Tracing ...