天翼公有云放大招: 昇腾大EP推理集群上线, 国产算力再升级

2025-07-18 16:05:46
228

近日，中国电信天翼公有云正式上线基于国产昇腾架构的大规模专家并行（简称大EP）推理集群。该集群创新性地应用了大EP与PD分离技术，成功推动国产算力实现单卡推理吞吐429TPS（TokensPerSecond），较传统双机部署模式提升超4倍。

大EP推理是针对MoE大模型（混合专家模型，如DeepSeek模型）的高效推理加速技术。它通过对模型中的专家模块进行切分，让路由专家能在大规模集群中并行执行，这一操作有效降低了单NPU上模型权重的内存占用，释放出更多KVCache空间，进而提升了集群的推理吞吐能力。

该技术在MoE大模型推理集群部署场景中应用时，能显著增强整体推理性能。

为突破资源利用率的瓶颈，天翼云创新运用PD分离技术（Prefill和Decode分离），将推理过程拆分为两个独立阶段：

Prefill（预填充）：集群对输入序列展开全量计算以生成首个Token，充分发挥NPU的算力优势；

Decode（解码）：循环预测后续Token直至结束，借助高速内存交互确保持续输出效率。

在传统混合部署（双机部署）模式中，这两个阶段需要串行执行，造成了资源闲置。而PD分离方案通过将两阶段部署在不同物理节点，并依托高速网络传递KVCache等中间数据，实现了全流程的并行化。该方案有效解决了不同阶段对硬件资源存在差异化需求的问题，充分利用了集群的各类资源，使得推理吞吐性能得到跨越式提升。

在实际操作中，天翼公有云团队仅用24小时就高效完成了大EP推理集群的部署，并针对四大主流推理场景开展性能测试，结果显示NPU单卡吞吐较传统双机部署模式提升超4倍；上线前，经过72小时的稳定性压测，通过模拟业务峰谷请求负载，验证了系统在3000最大并发下能够持续稳定运行。

凭借卓越的性能和坚实的稳定性，该方案形成了三大核心优势，全面为企业AI应用赋能。

其一，极简部署，零改造快速上线。客户无需调整硬件架构，只需通过MindIE推理引擎定义P/D节点与权重切分方案，就能快速构建大EP推理集群，实现快速交付、即开即用，助力企业快速接入国产领先算力。

其二，性能跃升，全场景体验优化。在智慧问答、写作助手、文本摘要和文档分析等四大主流AI推理场景中，NPU单卡吞吐达到429TPS，性能是传统双机模式的4倍以上。通过精准优化首Token时延（TTFT）与平均非首Token时延（TPOT），全面满足用户对实时响应与流畅交互的SLA要求，支撑高并发业务场景平滑运行。

其三，弹性扩展，集团级规模承载。针对不同用户的业务规模，以单集群为基础单元，支持部署十组或百组以上，横向扩展至千卡、万卡级推理集群，从容应对业务规模的动态变化，保障推理业务在高并发、低时延的状态下运行。

为加快创新技术的普及，基于天翼公有云的大EP裸金属推理集群，支持集团型客户按年按月灵活租赁，让客户能以低成本获得自主创新的国产领先算力。单集群最高支持3000路推理并发，提供极致的并发和吞吐能力，充分释放国产硬件性能，达到业界领先水平。

中关村在线认为，英伟达与AMD近期动作频频，这无疑将为中国算力市场注入更激烈的竞争活力。不过，以华为昇腾为代表的国产算力正加速崛起——在推理领域持续突破，有效降低企业对算卡的依赖度。在当前国际环境与国产化趋势的双重驱动下，国产算力的潜力也将得到进一步释放。

dnf天帝技能介绍发布网,提供dnf天帝技能介绍发布信息,第一时间发布列表及资讯,地下城天帝技能是地下城天帝技能首选资讯平台。