中文 / EN

AI 拓展了我们的能力边界
激发了我们的想象力和创造力

算力随时待命

幻方 AI 构建了深度学习训练平台「萤火二号」

「萤火二号」以“任务级分时共享”为核心理念,调度系统秒级响应,让每个研究人员都能拥有顺畅的训练体验。同时,平台配备强大的软件层支持:高性能算子库(hfai.nn)、分布式训练通讯框架(hfreduce)、专为 AI 开发而生的大容量高带宽文件系统(3FS),让 AI 模型能自如拓展到多节点之上,进行大规模并行训练,体验极致性能。

NOI/ACM 金牌团队持续优化核心算子 LSTM 算子快 20%—6 倍 Attention 算子快 30%

数据来源 >

针对「萤火二号」的定制硬件进行优化的 allreduce 方案
无需专用硬件,也能有良好的通讯能力
BERT-Large 在 100 个节点下训练速度提高 20%

数据来源 >

自研分布式并行文件系统
压榨物理高速网络带宽,探索性能边界
IO 响应:18 亿次/秒
读写带宽:7.0 TB/秒

数据来源 >

96 %

集群使用率

85 %

GPU 使用率

8.0 TB/s

500 GB/s

数据依据 2022 年 2 月的集群使用情况统计

| hfai python train.py -- --nodes 1