行业新闻

智能代理时代，速度就是金钱

作者: 365bet网页版点击次数: 发布时间: 2025-11-11 09:52

“在AI超级节点系统的设计中，我们不应再遵循惯性思维，过分追求规模化，而应该从客户角度出发，将代币交互速度作为关键衡量指标。这才是智能代理时代AI超级节点的主要商业价值。”这是浪潮信息首席AI战略官刘军在近期接受采访时反复强调的一点。在智能代理时代，“快速”不再是一种选择。标度律一直是驱动大模型智能持续增长的底层逻辑，驱动模型参数数量从数百亿、数千亿发展到现在的数万亿。 post-pag阶段训练中更多的算力输入可以显着提升模型的推理能力，而以推理能力为代表的复杂思维的出现是开发智能代理应用的基础。另一方面另一方面，以Deepseek为代表的大规模模型的开源大大降低了创新门槛，加速了智能体产业化的到来。刘军表示，“智能代理产业化的三大要素是能力、速度和成本。其中，代币交互速度决定了代理的商业价值。在最常见的人类对话场景中，每秒输出20个代币，能够保持人类的阅读速度，成为更多机器之间的通信场景。对于代理之间的通信，这是远远不够的。例如在直播电商、交易量、欺诈防控等特定业务场景中，对代币生成速度的最低要求是小于10毫秒。”以高强度、实时交互的电商场景为例。实验组部署了深度优化的代理，同时对照组使用未优化的标准版本代理。 7.8%。开始推出下一个商品，从而错过了最佳销售窗口。事实上，对代币交互速度的考虑，是对实力体系价值评价体系的重新配置。 AI计算的Erencemax™开源AI基准测试创建了跟踪模型变化的动态算力评估系统，试图衡量不同AI算力系统在真实AI推理环境下的整体效率。在此基准测试中，代币生成速度被列为最重要的指标。横轴：交互速度（interaction，单位：tok/s/user）；纵轴：每GPU的Token吞吐量（单位：TOK/S/GPU）同时，清华大学与中国软件评测中心（CSTC）对20余种主流大规模服务服务的综合性能进行了全面分析，联合发布了大规模服务测试报告。CE绩效排名。明确指出，时延指标是主要的用户体验，直接决定用户留存，是竞争平台对比收入的主要技术门槛。因此，速度成为大型模式API服务商的主要竞争点。目前，全球主要大型模型API服务商的代币生成速度通常保持在10~20毫秒左右，而国内的生成速度通常高于30毫秒。元脑SD200已经进入“10毫秒时代”，要实现更低延迟的代币生成能力，必然需要算力底层基础设施在系统架构、互联协议、软件框架等关键点上进行协同。浪潮信息在元脑SD200超级节点AI服务器上进行了大量的软硬件协同创新和优化，实现了Deepseek R1大型模型单笔代币速度低于8.9毫秒，引领国内AI服务器代币生成速度率先进入“10毫秒时代”。至于为什么在令牌生成速度方面能够取得非常好的表现，刘军表示，在代理中不同模型之间的通信中，通信数据包往往不是很大，超高的带宽就会损失。 “就像修建一条从A点到B点的16车道高速公路，但车辆在第16车道只跑了很短的距离，但上下走廊的时间却很长。信息优化的重点是，优化是为了解决车辆上下高速公路的卡顿问题，让车辆可以直行。archi allowedmesh系统纹理将64路本地AI芯片的高密度计算能力扩展到单机，原生支持开放加速oam模块，兼容BLE与多个AI芯片。同时，通过远程GPU虚拟映射技术的创新，远脑SD200突破了跨主机域的统一通信问题，实现了统一显存地址空间的8倍扩展。单机最大可提供4TB显存和64TB内存，为万亿参数、超长序列的大型模型提供足够的键值缓存空间。基于创新的系统架构设计，元脑SD200可以在单机上承载4万亿个单一模型，也可以同时部署由万亿参数的多个模型组成的智能代理，以多模式协作执行复杂的任务。互联协议设计是元脑SD200所实现的。低通信延迟的关键在于浪潮信息做了很多通信优化和创新技术，比如采用非常精简的3层协议栈和d 原生支持加载/存储等“内存语义”，允许GPU直接访问远程节点的显存或主存，将主通信延迟缩短至数百纳秒；此外，开放结构本身支持由硬件逻辑实现的重传层回归。回缩延迟小于微秒。特别是满足了分布式、预防性的流量控制机制，这是全局任务，保证接收端能够先接收后发送，主要避免拥塞和丢包。除了硬件改动之外，浪潮信息还完成了通信库、计算框架、PD分离技术等多方面的优化，基于Deepseek、Kimi等模型的计算特点以及远脑SD200的硬件架构特点，极大地提升了d等大型模型的理解速度。伊普和基米。在通信库层面，针对Allreduce、Allgather、Alltoall等典型通信运营商，浪潮信息开发了深度适配远脑SD200的通信算法；在框架层面，浪潮信息完成并行方法、算子融合、多流水线等多项优化，保证低计算延迟；在理解阶段，预填充解码生成浪潮信息。单独的软件针对预填充和解码的不同计算特性采用不同的计算技术、硬件配置等，以提高系统的整体计算性能。实测数据显示，元脑SD200搭载了64颗本地AI芯片，可操作大型Deepseek R1模型。当输入长度为4096、输出长度为1024时，单用户令牌生成达到112个令牌/秒，每个令牌生成时间仅为8.9ms。这是第一个小于10ms的AI Server代币生成速度，将推动金融、科研、智能制造等领域万亿参数大型模型的快速执行。从某种意义上说，未来十年人工智能经济增长的前沿将取决于整个行业在算法、软件和硬件层面共同克服延迟挑战的能力。 “速度就是金钱”不仅是一个新的商业命题，也是驱动下一代人工智能成长的基本经济逻辑。浪潮信息化将满足智能工业化需求，以架构创新持续激发产业创新，打造百个行业的生产力和创新力量。（记者展昭）（编辑：何鑫）

上一篇：“双11”电商直播的看点是什么？下一篇：没有了

行业新闻

智能代理时代，速度就是金钱

相关新闻

新闻中心

新闻中心

188体育注册