Problems

竞赛题目

赛题介绍

近年来，随着大型语言模型（LLM）的兴起，其在自然语言处理任务中的应用已成为人工智能领域的热点。同时MLC LLM, llama.cpp等项目的出现，旨在提高LLM在消费级显卡甚至个人计算机上的推理速度，降低了大模型部署对硬件资源的需求，使更多人从大模型中获益。例如在CMU 陈天奇团队MLC项目的测试（使用4 bit量化对Llama 2 7B和13B，设置prompt长度为1个token，生成512个 token来测量decoding的性能，batch size=1）：

可以看到在MLC LLM项目中，不管是NV RTX 还是AMD Radeon 消费级显卡都取得了很不错的推理速度。而llama.cpp是一个相对早期的LLM推理引擎开源项目，其架构设计可以通过CPU/GPU进行混合加速推理任务，甚至可以仅依靠CPU完成推理。然而，随着LLM规模的增大和任务的复杂性，llama.cpp在处理大规模模型时面临内存需求和计算效率方面的挑战。

上海交大IPADS 实验室在2023年12月发布了PowerInfer开源项目，其在llama.cpp基础上采用了一种全新的设计思路，利用LLM推理中的高局部性特征。该局部性具体表现为神经元激活的幂律分布，即少数“热”神经元在不同输入下保持激活，而大多数“冷”神经元根据具体输入变化。PowerInfer充分利用了这一特点，设计了一种GPU-CPU混合推理引擎，通过将热激活的神经元预加载到GPU中，而将冷激活的神经元计算在CPU上，从而显著降低了GPU内存需求和CPU-GPU数据传输。目前该项目也已经在llama2-7B，llama2-13B模型上实现了NV和AMD GPU的支持。

初赛题目

本次比赛，可参考PowerInfer的开源项目，要求参赛队在熟悉Llama2-7B/13B的优化方法基础上，利用开源的ROCm开源堆栈和HIP编程模型在Radeon 7900XTX GPU上对13B模型：Prosparse-13B 展开优化，方法不限(例如算子优化、混合精度量化等)。参赛队伍也可以开发自己的推理框架在7900XTX 上部署。