博客
分类
标签
归档
关于
博客
分类
标签
归档
关于
Tau的博客
文章
分类
标签
归档
关于
从第一性原理理解分布式训练
从第一性原理理解分布式训练 这篇文章不打算从”DP / TP / PP / ZeRO”这些名词出发,而是反过来:先回到训练这件事的物理与数学约束,再让每一种并行策略和优化技巧”自己长出来”。读完之后,希望你看到任何一种新的并行方案,都能立刻问出一个对的问题——它在解决哪个约束?代价是什么? 一、引子:为什么单卡装不下了?训练一个深度学习模型,本质是在解一个优化问题: $$\theta^{...
2026-05-09
Read More