百模大战中的网络:科大讯飞万卡级智算集群


做 AI 加速芯片难
在中国做 AI 加速芯片更难
破床上台后做 AI 加速芯片难上加难
因此国产方案打底的 iflytek 大模型实属不易

百模大战中的网络:科大讯飞万卡级智算集群

科大讯飞在年初时提到

2024 年大模型目标1亿软件用户


百模大战中的网络:科大讯飞万卡级智算集群

智能涌现需要的

大模型参数规模越来越大

科大讯飞已经迈过第一道门槛

一万困难户,十万刚起步,百万才算富

Meta 超越 xAI 计划打造全球最大 GPU 集群

百模大战中的网络:科大讯飞万卡级智算集群

预训练阶段在大规模

未标注数据集上进行自监督学习

因此对于模型的训练效果有着重要的影响

张量平行和数据并行产生流量大对互联要求高

百模大战中的网络:科大讯飞万卡级智算集群

实战结论
模型预训练对延时不敏感

百模大战中的网络:科大讯飞万卡级智算集群

业界目前单轨与多轨都有应用
更重要取决于卡以及对网络的驾驭能力

百模大战中的网络:科大讯飞万卡级智算集群

静态路径绑定
似乎是前期不得已而为之
下一代一体化调度才能提高利用率

百模大战中的网络:科大讯飞万卡级智算集群

从万卡走向更大规模
从芯片到拓扑再到网络协议都需要优化

百模大战中的网络:科大讯飞万卡级智算集群

首先随着带宽的增加
网络接口从400G/800G到1.6T
网络耗电大户光模块实现需要重点关注

百模大战中的网络:科大讯飞万卡级智算集群
其实是网络架构的选择
Dragonfly 等组网模式叫好不叫座
究其原因还是本身的复杂度和管理问题

百模大战中的网络:科大讯飞万卡级智算集群

备查
Meta 依然沿用 CLOS 表明
经过长期考验的 DCN 架构值得信赖

Meta 公开基于 RoCE 技术的 24 K GPU 集群!


百模大战中的网络:科大讯飞万卡级智算集群

备查

关于智算系统与通信方法,某司申请重要专利


百模大战中的网络:科大讯飞万卡级智算集群

大模型训练是个系统工程
尤其是在一个特殊的加速卡平台上
因此愈发显得科大讯飞的经验弥足珍贵

百模大战中的网络:科大讯飞万卡级智算集群

版权声明:charles 发表于 2025年3月12日 pm2:08。
转载请注明:百模大战中的网络:科大讯飞万卡级智算集群 | AI工具大全&导航

相关文章