Nvidia Dynamo: A Datacenter Scale Distributed Inference Serving Framework
Nvidia Dynamo:一个数据中心规模的分布式推理服务框架
A Datacenter Scale Distributed Inference Serving Framework
License
ai-dynamo/dynamo
main
文件夹和文件
名称 | 名称 | 最新提交信息 | 最新提交日期 ---|---|---|--- .github| .github components| components container| container deploy| deploy docs| docs examples| examples launch| launch lib| lib .clang-format| .clang-format .dockerignore| .dockerignore .gitattributes| .gitattributes .gitignore| .gitignore .pre-commit-config.yaml| .pre-commit-config.yaml ATTRIBUTIONS-Rust.md| ATTRIBUTIONS-Rust.md ATTRIBUTIONS.md| ATTRIBUTIONS.md CODEOWNERS| CODEOWNERS CONTRIBUTING.md| CONTRIBUTING.md Cargo.lock| Cargo.lock Cargo.toml| Cargo.toml Earthfile| Earthfile LICENSE| LICENSE README.md| README.md SECURITY.md| SECURITY.md codespell.txt| codespell.txt deny.toml| deny.toml dynamo.code-workspace| dynamo.code-workspace dynamo_deploy.md| dynamo_deploy.md pyproject.toml| pyproject.toml rust-toolchain.toml| rust-toolchain.toml support_matrix.md| support_matrix.md
最新提交
历史
仓库文件导航
NVIDIA Dynamo
| Guides | Architecture and Features | APIs | SDK |
NVIDIA Dynamo 是一个高吞吐、低延迟的推理框架,专为在多节点分布式环境中服务生成式 AI 和推理模型而设计。Dynamo 被设计为与推理引擎无关(支持 TRT-LLM, vLLM, SGLang 或其他引擎),并捕获了 LLM 特有的能力,例如:
- Disaggregated prefill & decode inference(分离式预填充和解码推理) – 最大化 GPU 吞吐量,并促进吞吐量和延迟之间的权衡。
- Dynamic GPU scheduling(动态 GPU 调度) – 根据不断变化的需求优化性能。
- LLM-aware request routing(LLM 感知请求路由) – 消除不必要的 KV 缓存重新计算。
- Accelerated data transfer(加速数据传输) – 使用 NIXL 减少推理响应时间。
- KV cache offloading(KV 缓存卸载) – 利用多个内存层级来实现更高的系统吞吐量。
Dynamo 使用 Rust 构建以获得高性能,使用 Python 构建以获得可扩展性,它是完全开源的,并由透明的、OSS(Open Source Software)优先的开发方法驱动。
安装
以下示例需要一些系统级别的包。建议使用带有 x86_64 CPU 的 Ubuntu 24.04。 请参阅 support_matrix.md
apt-get update
DEBIAN_FRONTEND=noninteractive apt-get install -yq python3-dev python3-pip python3-venv libucx0
python3 -m venv venv
source venv/bin/activate
pip install ai-dynamo[all]
Note
TensorRT-LLM 支持目前在一个 branch 上提供
在本地运行 LLM 并与之交互
要在本地运行模型并与之交互,你可以使用 hugging face 模型调用 dynamo run
。dynamo run
支持多个后端,包括:mistralrs
、sglang
、vllm
和 tensorrtllm
。
示例命令
dynamo run out=vllm deepseek-ai/DeepSeek-R1-Distill-Llama-8B
? User › Hello, how are you?
✔ User · Hello, how are you?
Okay, so I'm trying to figure out how to respond to the user's greeting. They said, "Hello, how are you?" and then followed it with "Hello! I'm just a program, but thanks for asking." Hmm, I need to come up with a suitable reply. ...
LLM 服务
Dynamo 提供了一种简单的方法来启动一组本地推理组件,包括:
- OpenAI Compatible Frontend(OpenAI 兼容前端) – 用 Rust 编写的高性能 OpenAI 兼容 http API 服务器。
- Basic and Kv Aware Router(基本和 KV 感知路由器) – 将流量路由和负载均衡到一组工作节点。
- Workers(工作节点) – 一组预先配置的 LLM 服务引擎。
要运行最小配置,你可以使用预先配置的示例。
启动 Dynamo 分布式运行时服务
首先启动 Dynamo Distributed Runtime 服务:
docker compose -f deploy/docker-compose.yml up -d
启动 Dynamo LLM 服务组件
接下来,使用 http 服务器、基本轮询路由器和单个工作节点来提供最小配置:
cd examples/llm
dynamo serve graphs.agg:Frontend -f configs/agg.yaml
发送请求
curl localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{
"model": "deepseek-ai/DeepSeek-R1-Distill-Llama-8B",
"messages": [
{
"role": "user",
"content": "Hello, how are you?"
}
],
"stream":false,
"max_tokens": 300
}' | jq
关于
A Datacenter Scale Distributed Inference Serving Framework
资源
许可
安全策略
Security policy Activity Custom properties
Stars
Watchers
Forks
Releases 1
Dynamo Release 0.1.0 Latest Mar 18, 2025
Packages 0
No packages published
Contributors 33
语言
- Rust 55.5%
- Go 28.5%
- Python 9.3%
- C++ 2.1%
- PowerShell 1.3%
- Shell 1.0%
- Other 2.3%
页脚
GitHub © 2025 GitHub, Inc.