- Backbone 9
- CNN_Deploy 6
- DeepLearning 19
- Hpc 17
- LLM_Compression 4
- LLM_Infer 19
- Model_Compression 6
- Study 1
- Transformer 15
Backbone
CNN_Deploy
DeepLearning
- 【2024-11-09】Pytorch 性能分析器使用探究
- 【2023-01-29】反向传播与梯度下降详解
- 【2023-01-21】随机梯度下降法的数学基础
- 【2023-01-19】深度学习基础-优化算法详解
- 【2023-01-14】深度学习基础-损失函数详解
- 【2023-01-08】深度学习基础-参数初始化详解
- 【2022-12-25】cnn 基础部件-bn 层详解
- 【2022-12-15】cnn 基础部件-卷积层详解
- 【2022-12-05】cnn 基础部件-激活函数详解
- 【2022-11-26】深度学习炼丹-超参数调整
- 【2022-11-22】深度学习炼丹-正则化策略
- 【2022-11-16】深度学习炼丹-不平衡样本的处理
- 【2022-11-09】深度学习炼丹-数据标准化
- 【2022-11-06】深度学习炼丹-数据增强
- 【2022-11-05】深度学习基础-机器学习基本原理
- 【2022-11-02】深度学习数学基础-概率与信息论
- 【2021-03-07】Pytorch基础-tensor数据结构
- 【2021-03-03】Pytorch基础-张量数学运算
- 【2021-03-01】Pytorch 基础-张量结构操作
Hpc
- 【2024-10-17】CUDA 内核执行配置及线程索引计算
- 【2024-10-15】CUDA 编程模型进阶
- 【2024-10-10】CUDA 流介绍
- 【2024-09-26】理解 triton 之基础知识
- 【2024-09-26】cuda 教程推荐
- 【2024-09-24】理解 triton 内核教程 4
- 【2024-09-24】理解 triton 内核教程 3
- 【2024-09-22】理解 triton 内核教程 2
- 【2024-09-20】理解 triton 内核教程 1
- 【2024-08-28】CUDA 执行模型
- 【2024-08-25】CUDA 内核优化策略
- 【2024-08-23】CUDA内存组织
- 【2024-08-21】CUDA 编程模型概述
- 【2024-08-20】CUDA 背景知识
- 【2023-09-01】英伟达GPU架构总结
- 【2023-08-20】英伟达 GPU 性能分析指导
- 【2023-08-10】英伟达GPU通信方式概述
LLM_Compression
LLM_Infer
- 【2024-11-17】vllm 优化之 PagedAttention 源码解读
- 【2024-11-09】vllm 优化之 cuda_graph 详解
- 【2024-11-08】llm服务框架特性总结
- 【2024-11-02】prompt-cache论文速读
- 【2024-10-26】vllm优化技术速览
- 【2024-10-07】flashattention1-2-3 系列总结
- 【2024-10-06】flashattention3 论文解读
- 【2024-10-05】flashattention2 论文解读
- 【2024-10-02】flashattention1 论文解读
- 【2024-10-01】online-softmax 论文解读
- 【2024-09-14】Roofline 论文解读
- 【2024-09-12】llm 综合分析论文翻译
- 【2024-09-11】llm 推理揭秘论文翻译
- 【2023-12-26】internlm2-20b 在 910b 适配记录
- 【2023-11-01】lightllm 性能瓶颈分析
- 【2023-10-26】tgi 性能瓶颈分析实验
- 【2023-09-20】tgi 框架源码快速总结
- 【2023-06-16】llm 并行策略概述
- 【2023-06-01】llm 统一性能测试方案
Model_Compression
Study
Transformer
- 【2024-11-28】LLaVA 系列模型结构详解
- 【2024-11-24】温度系数与 top-p 采样策略详解
- 【2024-11-10】masked-attention 算法详解
- 【2024-11-01】kv-cache 原理及优化概述
- 【2024-10-24】RoPE 位置编码算法详解
- 【2024-10-23】Sinusoida 位置编码详解
- 【2024-10-22】位置编码算法背景知识
- 【2024-10-21】llama1-3 模型结构详解
- 【2024-10-20】transformer 模型结构详解及实现
- 【2024-09-21】llm 推理 latency 分析
- 【2024-09-20】llm 参数量-计算量-显存占用分析
- 【2024-09-15】深入理解 roofline 模型
- 【2024-09-08】vit 论文速读
- 【2024-09-03】gpt1-3 论文解读
- 【2024-09-01】transformer论文解读