SGLang

导言

  • SGLang , 24年1月开源,这是一个由 LMSYS Org 团队开发的、面向大语言模型(LLM)和视觉语言模型(VLM)的高性能、开源通用服务引擎。
  • 性能更加惊艳。在运行 Llama 3.1 405B 时,它的吞吐量和延迟表现都优于 vLLM 和 TensorRT-LLM,甚至能达到 TensorRT-LLM 的 2.1 倍,vLLm 的 3.8 倍。
  • 业界 xAI 的 Grok2 目前已采用 SGLang 作为其 LLM 推理引擎, 显著提升了分析信息和输出响应速度。Microsoft Azure 使用 SGLang。
Read more

vllm-omni

导言

vllm专门为了多模态单独推出了推理框架vllm-omni,调研一下

Read more

Vllm Basic

导言

HW24年狠抓了训练,但是推理性能稍微落下,dsv3的出现,强化学习的爆火,反过来对推理性能提出了很高的要求。为此高性能的vllm推理框架变成了hw首先适配的目标。

  1. 一方面我需要大致了解vllm框架的设计,
  2. 另一方面,我主要需要关注vllm-ascend实现了哪些接口。
Read more