天翼公有云放大招: 昇腾大EP推理集群上线, 国产算力再升级

  • 2025-07-18 16:05:46
  • 228

近日,中国电信天翼公有云正式上线基于国产昇腾架构的大规模专家并行(简称大EP)推理集群。该集群创新性地应用了大EP与PD分离技术,成功推动国产算力实现单卡推理吞吐429TPS(TokensPerSecond),较传统双机部署模式提升超4倍。

大EP推理是针对MoE大模型(混合专家模型,如DeepSeek模型)的高效推理加速技术。它通过对模型中的专家模块进行切分,让路由专家能在大规模集群中并行执行,这一操作有效降低了单NPU上模型权重的内存占用,释放出更多KVCache空间,进而提升了集群的推理吞吐能力。

该技术在MoE大模型推理集群部署场景中应用时,能显著增强整体推理性能。

为突破资源利用率的瓶颈,天翼云创新运用PD分离技术(Prefill和Decode分离),将推理过程拆分为两个独立阶段:

Prefill(预填充):集群对输入序列展开全量计算以生成首个Token,充分发挥NPU的算力优势;

Decode(解码):循环预测后续Token直至结束,借助高速内存交互确保持续输出效率。

在传统混合部署(双机部署)模式中,这两个阶段需要串行执行,造成了资源闲置。而PD分离方案通过将两阶段部署在不同物理节点,并依托高速网络传递KVCache等中间数据,实现了全流程的并行化。该方案有效解决了不同阶段对硬件资源存在差异化需求的问题,充分利用了集群的各类资源,使得推理吞吐性能得到跨越式提升。

在实际操作中,天翼公有云团队仅用24小时就高效完成了大EP推理集群的部署,并针对四大主流推理场景开展性能测试,结果显示NPU单卡吞吐较传统双机部署模式提升超4倍;上线前,经过72小时的稳定性压测,通过模拟业务峰谷请求负载,验证了系统在3000最大并发下能够持续稳定运行。

凭借卓越的性能和坚实的稳定性,该方案形成了三大核心优势,全面为企业AI应用赋能。

其一,极简部署,零改造快速上线。客户无需调整硬件架构,只需通过MindIE推理引擎定义P/D节点与权重切分方案,就能快速构建大EP推理集群,实现快速交付、即开即用,助力企业快速接入国产领先算力。

其二,性能跃升,全场景体验优化。在智慧问答、写作助手、文本摘要和文档分析等四大主流AI推理场景中,NPU单卡吞吐达到429TPS,性能是传统双机模式的4倍以上。通过精准优化首Token时延(TTFT)与平均非首Token时延(TPOT),全面满足用户对实时响应与流畅交互的SLA要求,支撑高并发业务场景平滑运行。

其三,弹性扩展,集团级规模承载。针对不同用户的业务规模,以单集群为基础单元,支持部署十组或百组以上,横向扩展至千卡、万卡级推理集群,从容应对业务规模的动态变化,保障推理业务在高并发、低时延的状态下运行。

为加快创新技术的普及,基于天翼公有云的大EP裸金属推理集群,支持集团型客户按年按月灵活租赁,让客户能以低成本获得自主创新的国产领先算力。单集群最高支持3000路推理并发,提供极致的并发和吞吐能力,充分释放国产硬件性能,达到业界领先水平。

中关村在线认为,英伟达与AMD近期动作频频,这无疑将为中国算力市场注入更激烈的竞争活力。不过,以华为昇腾为代表的国产算力正加速崛起——在推理领域持续突破,有效降低企业对算卡的依赖度。在当前国际环境与国产化趋势的双重驱动下,国产算力的潜力也将得到进一步释放。