单芯片混合精度浮点算力达 896TFLOPS,中昊芯英新一代 TPU 芯片「须臾」发布 - 一号娱乐

中昊芯英公司推出了一款名为“须臾”的新一代 TPU 芯片,其单芯片混合精度浮点计算能力达到了 896 TFLOPS。与上一代名为“刹那”的芯片相比,新芯片的性能提升了三倍。在 8 位推理方面,“须臾”的算力可达 1792 TOPS,能够满足大规模词元高并发推理的需求。该芯片在显存容量和内部互联速度上均实现了显著提升,并支持超长上下文处理。单卡功耗为 600W,相较于传统算力芯片,功耗降低了 50%,为低碳数据中心的建设做出了贡献。

“须臾”芯片的 IP 核、专用指令集、底层算子加速库以及整体系统软件均为自主研发,不依赖任何海外核心技术。这使得该芯片能够满足政务、金融、电网等行业在安全合规方面的要求。

此外,中昊芯英还发布了高性能智算平台“泰则 2.0”。该平台以标准的最小计算单元形式呈现,集成了两颗高性能 CPU 处理器和八颗高性能 TPU 处理单元。从物理结构上看,它相当于一台通用的 CPU 服务器连接一台高性能 TPU 算力加速设备,总算力可达 7.168 PFLOPS(混合精度)。在执行相同任务时,“泰则 2.0”的整体能耗仅为传统 GPU 服务器的 80%。

在软件层面,“泰则 2.0”平台实现了对所有主流 AI 框架的兼容,原生支持 PyTorch、vLLM、SGLang 等开发工具。在训练场景下,它适配了 DeepSpeed 和 Megatron-LM 等分布式套件。目前,该平台已成功深度适配了 Qwen 全系列、DeepSeek、GLM、MiniMAX 等数十款大语言和多模态模型,方便开发者快速进行模型迁移。