百模大战中的网络：科大讯飞万卡级智算集群

AI资讯 1年前 (2025) charles

9.6K 0 10

做 AI 加速芯片难

在中国做 AI 加速芯片更难

破床上台后做 AI 加速芯片难上加难

因此国产方案打底的 iflytek 大模型实属不易

科大讯飞在年初时提到

2024 年大模型目标1亿软件用户

智能涌现需要的

大模型参数规模越来越大

科大讯飞已经迈过第一道门槛

一万困难户，十万刚起步，百万才算富

Meta 超越 xAI 计划打造全球最大 GPU 集群

预训练阶段在大规模

未标注数据集上进行自监督学习

因此对于模型的训练效果有着重要的影响

张量平行和数据并行产生流量大对互联要求高

实战结论

模型预训练对延时不敏感

业界目前单轨与多轨都有应用

更重要取决于卡以及对网络的驾驭能力

静态路径绑定

似乎是前期不得已而为之

下一代一体化调度才能提高利用率

从万卡走向更大规模

从芯片到拓扑再到网络协议都需要优化

首先随着带宽的增加

网络接口从400G/800G到1.6T

网络耗电大户光模块实现需要重点关注

其实是网络架构的选择

Dragonfly 等组网模式叫好不叫座

究其原因还是本身的复杂度和管理问题

备查

Meta 依然沿用 CLOS 表明

经过长期考验的 DCN 架构值得信赖

Meta 公开基于 RoCE 技术的 24 K GPU 集群！

备查

关于智算系统与通信方法，某司申请重要专利

大模型训练是个系统工程

尤其是在一个特殊的加速卡平台上

因此愈发显得科大讯飞的经验弥足珍贵

版权声明：charles 发表于 2025年3月12日 pm2:08。
转载请注明：百模大战中的网络：科大讯飞万卡级智算集群 | AI工具大全&导航

🧠 解码大语言模型的记忆力：上下文长度的前世今生

charles

4.9K 30

🧠 大模型到底厉害在哪？看完这篇你就懂了！

charles

4.2K 30

NewAI 不缺智商缺纪律：一场 Harness 工程化实践

charles

70 20

外滩大会开两天了，给我的四大启示

charles

8.3K 15

🧠 大模型到底厉害在哪？看完这篇你就懂了！

charles

5.4K 5

MCP不像想象的那么简单，MCP+数据库，rag之外的另一种解决方案

charles

6.4K 5

百模大战中的网络：科大讯飞万卡级智算集群

Meta 公开基于 RoCE 技术的 24 K GPU 集群！

关于智算系统与通信方法，某司申请重要专利

一位投资人的硬核观察：被DeepSeek和Manus改写的AI投资范式

大模型时代的软件研发：正确的打开方式

相关文章

相关文章