集合通信总结和 mpi4py 实践 【2025-06-28】讲解了 Broadcast、Scatter 和 Gather、All-Gather 和 All-Reduce、以及All-to-All 通信原理,并基于 mpi4py 库实践。
Switch Transformers 论文详解 【2025-06-24】讲解了 All-to-All 通信概念、MoE 专家并行原理、 DeepSpeed MoE 并行策略,并解析了 Switch-Transformers 在 MoE 上的并行优化策略。
CUDA stream 和 event 模块详解 【2025-03-21】CUDA stream 和 event 模块的理解、管理 API 介绍,以及如何使用 stream 和 event 去完成相应功能。