Nvidia Dynamo: A Datacenter Scale Distributed Inference Serving Framework

Source | HN Comments

NVIDIA Dynamo是一个数据中心规模的分布式推理服务框架，专为生成式AI和推理模型设计。它支持分离式预填充和解码推理、动态GPU调度、LLM感知请求路由、加速数据传输和KV缓存卸载等特性。Dynamo使用Rust和Python构建，并提供OpenAI兼容的前端、路由器和工作节点。用户可以通过Docker Compose部署，并使用curl发送请求进行测试。

Nvidia Dynamo：一个数据中心规模的分布式推理服务框架

ai-dynamo / dynamo Public

A Datacenter Scale Distributed Inference Serving Framework

License

Apache-2.0 license

409 stars 23 forks

ai-dynamo/dynamo

main

Branches Tags

文件夹和文件

历史

391 Commits

仓库文件导航

NVIDIA Dynamo

NVIDIA Dynamo 是一个高吞吐、低延迟的推理框架，专为在多节点分布式环境中服务生成式 AI 和推理模型而设计。Dynamo 被设计为与推理引擎无关（支持 TRT-LLM, vLLM, SGLang 或其他引擎），并捕获了 LLM 特有的能力，例如：

Disaggregated prefill & decode inference（分离式预填充和解码推理） – 最大化 GPU 吞吐量，并促进吞吐量和延迟之间的权衡。
Dynamic GPU scheduling（动态 GPU 调度） – 根据不断变化的需求优化性能。
LLM-aware request routing（LLM 感知请求路由） – 消除不必要的 KV 缓存重新计算。
Accelerated data transfer（加速数据传输） – 使用 NIXL 减少推理响应时间。
KV cache offloading（KV 缓存卸载） – 利用多个内存层级来实现更高的系统吞吐量。

Dynamo 使用 Rust 构建以获得高性能，使用 Python 构建以获得可扩展性，它是完全开源的，并由透明的、OSS（Open Source Software）优先的开发方法驱动。

安装

以下示例需要一些系统级别的包。建议使用带有 x86_64 CPU 的 Ubuntu 24.04。请参阅 support_matrix.md

apt-get update
DEBIAN_FRONTEND=noninteractive apt-get install -yq python3-dev python3-pip python3-venv libucx0
python3 -m venv venv
source venv/bin/activate
pip install ai-dynamo[all]

Note

TensorRT-LLM 支持目前在一个 branch 上提供

在本地运行 LLM 并与之交互

要在本地运行模型并与之交互，你可以使用 hugging face 模型调用 dynamo run。dynamo run 支持多个后端，包括：mistralrs、sglang、vllm 和 tensorrtllm。

示例命令

dynamo run out=vllm deepseek-ai/DeepSeek-R1-Distill-Llama-8B

? User › Hello, how are you?
✔ User · Hello, how are you?
Okay, so I'm trying to figure out how to respond to the user's greeting. They said, "Hello, how are you?" and then followed it with "Hello! I'm just a program, but thanks for asking." Hmm, I need to come up with a suitable reply. ...

LLM 服务

Dynamo 提供了一种简单的方法来启动一组本地推理组件，包括：

OpenAI Compatible Frontend（OpenAI 兼容前端） – 用 Rust 编写的高性能 OpenAI 兼容 http API 服务器。
Basic and Kv Aware Router（基本和 KV 感知路由器） – 将流量路由和负载均衡到一组工作节点。
Workers（工作节点） – 一组预先配置的 LLM 服务引擎。

要运行最小配置，你可以使用预先配置的示例。

启动 Dynamo 分布式运行时服务

首先启动 Dynamo Distributed Runtime 服务：

docker compose -f deploy/docker-compose.yml up -d

启动 Dynamo LLM 服务组件

接下来，使用 http 服务器、基本轮询路由器和单个工作节点来提供最小配置：

cd examples/llm
dynamo serve graphs.agg:Frontend -f configs/agg.yaml

发送请求

curl localhost:8000/v1/chat/completions  -H "Content-Type: application/json"  -d '{
  "model": "deepseek-ai/DeepSeek-R1-Distill-Llama-8B",
  "messages": [
  {
    "role": "user",
    "content": "Hello, how are you?"
  }
  ],
  "stream":false,
  "max_tokens": 300
 }' | jq

关于

A Datacenter Scale Distributed Inference Serving Framework

语言

页脚

页脚导航

Terms
Privacy
Security
Status
Docs
Contact
Manage cookies
Do not share my personal information

Nvidia Dynamo: A Datacenter Scale Distributed Inference Serving Framework

Nvidia Dynamo：一个数据中心规模的分布式推理服务框架

License

ai-dynamo/dynamo

文件夹和文件

最新提交

历史

仓库文件导航

NVIDIA Dynamo

安装

在本地运行 LLM 并与之交互

示例命令

LLM 服务

启动 Dynamo 分布式运行时服务

启动 Dynamo LLM 服务组件

发送请求

关于

资源

许可

安全策略

Stars

Watchers

Forks

Releases 1

Packages 0

Contributors 33

语言

页脚

页脚导航