tgi 框架源码快速总结

【2023-09-20】TGI 框架的主要功能，以及主要模块的简单介绍。

英伟达GPU架构总结

【2023-09-01】介绍 Volta、Turing、Ampera、Hopper 架构特性和硬件基本结构。

【2023-08-20】本文主要介绍了 GPU 结构、操作的执行方式以及深度学习操作的常见限制，目的是为了更好的理解 GPU 的基本运行原理以及神经网络或特定网络层如何高效利用给定 GPU。

【2023-08-10】单机多卡内存和 GPU、GPU 和 GPU 之间互联可通过 PCIE、NVLink、NVSwitch；多机多卡 GPU 之间（不同主机）、CPU 与 GPU 之间互联可通过 GPUDirect RDMA、IB/万兆以太网 + TCP/IP。

【2023-06-16】简单介绍 llm 张量并行、数据并行的原理。

【2023-06-01】LLM benchmark 评测实验方案以及测试案例

【2023-03-20】轻量级网络的核心是在尽量保持精度的前提下，从模型体积和速度两方面对网络进行轻量化改造。

【2023-03-15】模型知识蒸馏原理概述。

【2023-03-12】所谓模型剪枝，其实是一种从神经网络中移除"不必要"权重或偏差（weigths/bias）的模型压缩技术。关于什么参数才是“不必要的”，这是一个目前依然在研究的领域。

【2023-03-09】模型剪枝是一种应用非常广的模型压缩方法，其可以直接减少模型中的参数量。本文会对模型剪枝的定义、发展历程、分类以及算法原理进行详细的介绍。