行业新闻
智能代理时代,速度就是金钱
作者: 365bet网页版 点击次数: 发布时间: 2025-11-11 09:52
“在AI超级节点系统的设计中,我们不应再遵循惯性思维,过分追求规模化,而应该从客户角度出发,将代币交互速度作为关键衡量指标。这才是智能代理时代AI超级节点的主要商业价值。”这是浪潮信息首席AI战略官刘军在近期接受采访时反复强调的一点。在智能代理时代,“快速”不再是一种选择。标度律一直是驱动大模型智能持续增长的底层逻辑,驱动模型参数数量从数百亿、数千亿发展到现在的数万亿。 post-pag阶段训练中更多的算力输入可以显着提升模型的推理能力,而以推理能力为代表的复杂思维的出现是开发智能代理应用的基础。另一方面另一方面,以Deepseek为代表的大规模模型的开源大大降低了创新门槛,加速了智能体产业化的到来。刘军表示,“智能代理产业化的三大要素是能力、速度和成本。其中,代币交互速度决定了代理的商业价值。在最常见的人类对话场景中,每秒输出20个代币,能够保持人类的阅读速度,成为更多机器之间的通信场景。对于代理之间的通信,这是远远不够的。例如在直播电商、交易量、欺诈防控等特定业务场景中,对代币生成速度的最低要求是小于10毫秒。”以高强度、实时交互的电商场景为例。实验组部署了深度优化的代理,同时对照组使用未优化的标准版本代理。 7.8%。开始推出下一个商品,从而错过了最佳销售窗口。事实上,对代币交互速度的考虑,是对实力体系价值评价体系的重新配置。 AI计算的Erencemax™开源AI基准测试创建了跟踪模型变化的动态算力评估系统,试图衡量不同AI算力系统在真实AI推理环境下的整体效率。在此基准测试中,代币生成速度被列为最重要的指标。横轴:交互速度(interaction,单位:tok/s/user);纵轴:每GPU的Token吞吐量(单位:TOK/S/GPU) 同时,清华大学与中国软件评测中心(CSTC)对20余种主流大规模服务服务的综合性能进行了全面分析,联合发布了大规模服务测试报告。CE绩效排名。明确指出,时延指标是主要的用户体验,直接决定用户留存,是竞争平台对比收入的主要技术门槛。因此,速度成为大型模式API服务商的主要竞争点。目前,全球主要大型模型API服务商的代币生成速度通常保持在10~20毫秒左右,而国内的生成速度通常高于30毫秒。元脑SD200已经进入“10毫秒时代”,要实现更低延迟的代币生成能力,必然需要算力底层基础设施在系统架构、互联协议、软件框架等关键点上进行协同。浪潮信息在元脑SD200超级节点AI服务器上进行了大量的软硬件协同创新和优化,实现了Deepseek R1大型模型单笔代币速度低于8.9毫秒,引领国内AI服务器代币生成速度率先进入“10毫秒时代”。至于为什么在令牌生成速度方面能够取得非常好的表现,刘军表示,在代理中不同模型之间的通信中,通信数据包往往不是很大,超高的带宽就会损失。 “就像修建一条从A点到B点的16车道高速公路,但车辆在第16车道只跑了很短的距离,但上下走廊的时间却很长。信息优化的重点是,优化是为了解决车辆上下高速公路的卡顿问题,让车辆可以直行。archi allowedmesh系统纹理将64路本地AI芯片的高密度计算能力扩展到单机,原生支持开放加速oam模块,兼容BLE与多个AI芯片。同时,通过远程GPU虚拟映射技术的创新,远脑SD200突破了跨主机域的统一通信问题,实现了统一显存地址空间的8倍扩展。单机最大可提供4TB显存和64TB内存,为万亿参数、超长序列的大型模型提供足够的键值缓存空间。基于创新的系统架构设计,元脑SD200可以在单机上承载4万亿个单一模型,也可以同时部署由万亿参数的多个模型组成的智能代理,以多模式协作执行复杂的任务。互联协议设计是元脑SD200所实现的。低通信延迟的关键在于浪潮信息做了很多通信优化和创新技术,比如采用非常精简的3层协议栈和d 原生支持加载/存储等“内存语义”,允许GPU直接访问远程节点的显存或主存,将主通信延迟缩短至数百纳秒;此外,开放结构本身支持由硬件逻辑实现的重传层回归。回缩延迟小于微秒。特别是满足了分布式、预防性的流量控制机制,这是全局任务,保证接收端能够先接收后发送,主要避免拥塞和丢包。除了硬件改动之外,浪潮信息还完成了通信库、计算框架、PD分离技术等多方面的优化,基于Deepseek、Kimi等模型的计算特点以及远脑SD200的硬件架构特点,极大地提升了d等大型模型的理解速度。伊普和基米。在通信库层面,针对Allreduce、Allgather、Alltoall等典型通信运营商,浪潮信息开发了深度适配远脑SD200的通信算法;在框架层面,浪潮信息完成并行方法、算子融合、多流水线等多项优化,保证低计算延迟;在理解阶段,预填充解码生成浪潮信息。单独的软件针对预填充和解码的不同计算特性采用不同的计算技术、硬件配置等,以提高系统的整体计算性能。实测数据显示,元脑SD200搭载了64颗本地AI芯片,可操作大型Deepseek R1模型。当输入长度为4096、输出长度为1024时,单用户令牌生成达到112个令牌/秒,每个令牌生成时间仅为8.9ms。这是第一个小于10ms的AI Server代币生成速度,将推动金融、科研、智能制造等领域万亿参数大型模型的快速执行。从某种意义上说,未来十年人工智能经济增长的前沿将取决于整个行业在算法、软件和硬件层面共同克服延迟挑战的能力。 “速度就是金钱”不仅是一个新的商业命题,也是驱动下一代人工智能成长的基本经济逻辑。浪潮信息化将满足智能工业化需求,以架构创新持续激发产业创新,打造百个行业的生产力和创新力量。 (记者展昭) (编辑:何鑫) 上一篇:“双11”电商直播的看点是什么? 下一篇:没有了
