Nvidia Dynamo:一个数据中心规模的分布式推理服务框架

ai-dynamo / dynamo Public

A Datacenter Scale Distributed Inference Serving Framework

License

Apache-2.0 license

409 stars 23 forks

ai-dynamo/dynamo

main

BranchesTags

文件夹和文件

名称 | 名称 | 最新提交信息 | 最新提交日期 ---|---|---|--- .github| .github components| components container| container deploy| deploy docs| docs examples| examples launch| launch lib| lib .clang-format| .clang-format .dockerignore| .dockerignore .gitattributes| .gitattributes .gitignore| .gitignore .pre-commit-config.yaml| .pre-commit-config.yaml ATTRIBUTIONS-Rust.md| ATTRIBUTIONS-Rust.md ATTRIBUTIONS.md| ATTRIBUTIONS.md CODEOWNERS| CODEOWNERS CONTRIBUTING.md| CONTRIBUTING.md Cargo.lock| Cargo.lock Cargo.toml| Cargo.toml Earthfile| Earthfile LICENSE| LICENSE README.md| README.md SECURITY.md| SECURITY.md codespell.txt| codespell.txt deny.toml| deny.toml dynamo.code-workspace| dynamo.code-workspace dynamo_deploy.md| dynamo_deploy.md pyproject.toml| pyproject.toml rust-toolchain.toml| rust-toolchain.toml support_matrix.md| support_matrix.md

最新提交

历史

391 Commits

仓库文件导航

NVIDIA Dynamo

License GitHub Release Discord | Guides | Architecture and Features | APIs | SDK |

NVIDIA Dynamo 是一个高吞吐、低延迟的推理框架,专为在多节点分布式环境中服务生成式 AI 和推理模型而设计。Dynamo 被设计为与推理引擎无关(支持 TRT-LLM, vLLM, SGLang 或其他引擎),并捕获了 LLM 特有的能力,例如:

Dynamo 使用 Rust 构建以获得高性能,使用 Python 构建以获得可扩展性,它是完全开源的,并由透明的、OSS(Open Source Software)优先的开发方法驱动。

安装

以下示例需要一些系统级别的包。建议使用带有 x86_64 CPU 的 Ubuntu 24.04。 请参阅 support_matrix.md

apt-get update
DEBIAN_FRONTEND=noninteractive apt-get install -yq python3-dev python3-pip python3-venv libucx0
python3 -m venv venv
source venv/bin/activate
pip install ai-dynamo[all]

Note

TensorRT-LLM 支持目前在一个 branch 上提供

在本地运行 LLM 并与之交互

要在本地运行模型并与之交互,你可以使用 hugging face 模型调用 dynamo rundynamo run 支持多个后端,包括:mistralrssglangvllmtensorrtllm

示例命令

dynamo run out=vllm deepseek-ai/DeepSeek-R1-Distill-Llama-8B

? User › Hello, how are you?
✔ User · Hello, how are you?
Okay, so I'm trying to figure out how to respond to the user's greeting. They said, "Hello, how are you?" and then followed it with "Hello! I'm just a program, but thanks for asking." Hmm, I need to come up with a suitable reply. ...

LLM 服务

Dynamo 提供了一种简单的方法来启动一组本地推理组件,包括:

要运行最小配置,你可以使用预先配置的示例。

启动 Dynamo 分布式运行时服务

首先启动 Dynamo Distributed Runtime 服务:

docker compose -f deploy/docker-compose.yml up -d

启动 Dynamo LLM 服务组件

接下来,使用 http 服务器、基本轮询路由器和单个工作节点来提供最小配置:

cd examples/llm
dynamo serve graphs.agg:Frontend -f configs/agg.yaml

发送请求

curl localhost:8000/v1/chat/completions  -H "Content-Type: application/json"  -d '{
  "model": "deepseek-ai/DeepSeek-R1-Distill-Llama-8B",
  "messages": [
  {
    "role": "user",
    "content": "Hello, how are you?"
  }
  ],
  "stream":false,
  "max_tokens": 300
 }' | jq

关于

A Datacenter Scale Distributed Inference Serving Framework

资源

Readme

许可

Apache-2.0 license

安全策略

Security policy Activity Custom properties

Stars

409 stars

Watchers

17 watching

Forks

23 forks Report repository

Releases 1

Dynamo Release 0.1.0 Latest Mar 18, 2025

Packages 0

No packages published

Contributors 33

+ 19 contributors

语言

页脚

GitHub © 2025 GitHub, Inc.

页脚导航