集合通信总结和 mpi4py 实践

【2025-06-28】讲解了 Broadcast、Scatter 和 Gather、All-Gather 和 All-Reduce、以及All-to-All 通信原理，并基于 mpi4py 库实践。

Switch Transformers 论文详解

【2025-06-24】讲解了 All-to-All 通信概念、MoE 专家并行原理、 DeepSpeed MoE 并行策略，并解析了 Switch-Transformers 在 MoE 上的并行优化策略。

【2025-04-10】讲解了张量并行的原理，以及在 embedding、线性层中的应用和通讯量分析。

【2025-04-02】Pytorch c10 模块详解，内容持续更新中。

【2025-04-01】Pytorch 架构概览，内容持续更新中。

【2025-03-30】Pytorch 编译流程解析，内容持续更新中。

【2025-03-29】pytorch 张量的属性、底层实现分析以及应用，内容持续更新中。

【2025-03-28】pytorch 代码库结构拆解，以及核心目录的功能概述。

【2025-03-21】CUDA stream 和 event 模块的理解、管理 API 介绍，以及如何使用 stream 和 event 去完成相应功能。

【2025-02-12】DeepseekMOE 计算流程，结构拆解及代码实现。