中文 / EN
以分时调度共享 AI 算力,弹性运行超大规模深度学习训练
使用 AI 进行投资的对冲基金
AI 基础科学研究
「萤火二号」以“任务级分时共享”为核心理念,调度系统秒级响应,让每个研究人员都能拥有顺畅的训练体验。同时,平台配备强大的软件层支持:高性能算子库(hfai.nn)、分布式训练通讯框架(hfreduce)、专为 AI 开发而生的大容量高带宽文件系统(3FS),让 AI 模型能自如拓展到多节点之上,进行大规模并行训练,体验极致性能。
NOI/ACM 金牌团队持续优化核心算子 LSTM 算子快 20%—6 倍 Attention 算子快 30%
针对「萤火二号」的定制硬件进行优化的 allreduce 方案无需专用硬件,也能有良好的通讯能力BERT-Large 在 100 个节点下训练速度提高 20%
自研分布式并行文件系统压榨物理高速网络带宽,探索性能边界IO 响应:18 亿次/秒读写带宽:7.0 TB/秒
8.0 TB/s 读
500 GB/s 写
数据依据 2022 年 2 月的集群使用情况统计