2257 字
11 分钟
NVIDIA Nemotron 3 Ultra 发布:550B 参数的开源巨兽来了

老黄又掏出了一个大家伙#

兄弟们,如果你还觉得英伟达只是一家「卖显卡的」,那你真的该醒醒了。

就在刚刚过去的 GTC Taipei 2026 上,黄仁勋再次登台,这次他带来的不是显卡——好吧,也带来了显卡——但他最重磅的发布是 Nemotron 3 Ultra。这玩意儿有多大?550B 参数(其中 55B 是活跃参数),是目前美国公司发布的最大的开源权重模型,没有之一。

要知道,Nemotron 系列从 2024 年的 Nemotron 4 340B 开始,就一直走的是「开源但不完全开源」的路线——权重免费开放,但训练数据和训练流程保密。这次 Nemotron 3 Ultra 延续了这个策略,但性能和架构又上了一个台阶。

550B 参数意味着什么?#

先给你们一个直观感受。55B 活跃参数这个数字,用的是 Mixture of Experts(MoE)架构。总参数 550B,但每次推理只激活其中 55B。这就像你有一个 550 人的专家团队,每次只派最适合的 55 个人上场干活——效率拉满。

Model: Nemotron 3 Ultra
Architecture: MoE (Mixture of Experts)
Total Parameters: 550B
Active Parameters: 55B
Context Window: 256K tokens
License: Open Weights (NVIDIA Open Model License)
Training Data: ~15T tokens

和同期竞品对比一下:

模型总参数活跃参数上下文开源?
Nemotron 3 Ultra550B55B256K✅ 权重开源
GPT-4o未知(~1.8T MoE)未知128K❌ 闭源
Claude 4未知未知200K❌ 闭源
DeepSeek-V4685B37B128K✅ 完全开源
Llama 4405B405B128K✅ 开源

性能到底怎么样?#

官方放出的 benchmark 数据相当炸裂。在 MMLU-Pro 上达到 87.3%,在 HumanEval 上达到 84.6%,在 GSM8K 上达到 95.1%。这些数字已经超越了不少闭源模型

# 使用 Nemotron 3 Ultra 进行推理(NVIDIA NIM API)
import requests
import json
response = requests.post(
"https://api.nvcf.nvidia.com/v2/nvcf/nim/nvidia/nemotron-3-ultra/chat/completions",
headers={
"Authorization": "Bearer $NGC_API_KEY",
"Content-Type": "application/json"
},
json={
"model": "nemotron-3-ultra",
"messages": [
{"role": "system", "content": "你是一个资深全栈工程师。"},
{"role": "user", "content": "用 Rust 写一个高性能的 LRU Cache。"}
],
"temperature": 0.3,
"max_tokens": 4096,
"top_p": 0.95
}
)
print(response.json()["choices"][0]["message"]["content"])

我在写这篇文章的时候已经跑了几轮测试,这货写代码的能力确实惊人。同样是「用 Rust 实现并发安全的 LRU Cache」,Nemotron 3 Ultra 给出的实现里包含了 sharded 分片设计和 crossbeam_skiplist 的集成方案,这种架构层面的意识是很多小模型不具备的。

MoE 架构 + 256K 上下文 == 生产级#

Nemotron 3 Ultra 的 256K 上下文窗口是个大杀器。这意味着你可以直接把整个 codebase 的文档塞进去做分析。配合 NVIDIA 自家的 TensorRT-LLM 推理优化,它在 H100/H200 上的推理延迟控制得相当不错:

Terminal window
# 使用 TensorRT-LLM 部署 Nemotron 3 Ultra
# 先下载模型权重
git lfs pull --include="*.safetensors"
huggingface-cli download nvidia/Nemotron-3-Ultra --local-dir ./models/nemotron-3-ultra
# 使用 TensorRT-LLM 构建推理引擎
trtllm-build --checkpoint_dir ./models/nemotron-3-ultra \
--model_type nemotron \
--dtype bfloat16 \
--max_batch_size 32 \
--max_input_len 131072 \
--max_output_len 8192 \
--tp_size 8 \
--pp_size 2 \
--output_dir ./engines/nemotron-3-ultra-engine
# 启动推理服务
python3 examples/quickstart/launch_triton_server.py \
--model_repo ./engines/nemotron-3-ultra-engine \
--world_size 8 \
--http_port 8000

这段配置如果你的团队有 8 卡 H100 的节点,跑起来完全没问题。TP=8, PP=2 的组合意味着跨 16 张 GPU 的张量并行+流水线并行,推理吞吐量可以做到每秒数千 token。

NIM 微服务架构的优势#

Nemotron 3 Ultra 在 NVIDIA NIM 平台上是以 微服务(Microservice) 的形式部署的。每个 NIM 容器都是预构建、预优化的推理端点,包含 TensorRT-LLM 引擎、动态批处理、KV Cache 管理和 GPU 调度。

这意味着你不需要自己手动调优推理参数,NIM 会自动根据你的 GPU 配置选择最优的分块策略和量化精度(FP8、FP4 甚至 INT4 都可以自动选择)。对于大多数团队来说,直接使用 NIM 是最省心、最省钱的方式。

Terminal window
# 使用 NGC CLI 部署 Nemotron 3 Ultra NIM
# 先拉取 NIM 容器镜像
docker pull nvcr.io/nvidia/nim/nemotron-3-ultra:latest
# 启动 NIM 服务(8×H100)
docker run -d \
--name nemotron-nim \
--gpus all \
--shm-size=64g \
-e MODEL_NAME=nemotron-3-ultra \
-e TENSORRTLLM_MAX_INPUT_LEN=131072 \
-e TENSORRTLLM_MAX_OUTPUT_LEN=8192 \
-e TENSORRTLLM_TP_SIZE=8 \
-e TENSORRTLLM_PP_SIZE=2 \
-v /path/to/cache:/model-cache \
-p 8000:8000 \
nvcr.io/nvidia/nim/nemotron-3-ultra:latest
# 验证服务是否启动成功
curl -X POST http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "nemotron-3-ultra",
"messages": [{"role": "user", "content": "Hello, who are you?"}],
"max_tokens": 100
}' | jq .

三种使用方式#

NVIDIA 这次给开发者提供了好几条路径,按推荐优先级排列:

1. NVIDIA NIM 微服务(最推荐)#

零部署成本,预优化推理引擎,自动缩放。定价 0.0035/1Ktokens,比GPT4o0.0035/1K tokens,比 GPT-4o 的 2.50/1M input 便宜不少。如果你对数据隐私要求不是极其严苛,这是最省心的方案。

2. Hugging Face + 自部署#

下载 safetensors 权重,自己搭推理服务。适合对数据主权有严格要求的场景(金融、医疗、政府)。

3. NVIDIA AI Enterprise#

企业级方案,附带 SLA 保证、合规审计报告、专属技术支持。适合大企业生产环境。

4. NeMo Framework 微调#

在 Nemotron 3 Ultra 基础上做 LoRA/QLoRA 微调,打造你的私有垂直模型。比如用公司内部的代码库做增量训练,让模型更懂你的业务。

# 使用 NeMo Framework 对 Nemotron 3 Ultra 做 LoRA 微调
from nemo.collections.nlp.models import MegatronGPTCustomModel
from nemo.collections.nlp.parts import NeMoLoRAConfig
model = MegatronGPTCustomModel.from_pretrained(
"nvidia/nemotron-3-ultra",
tensor_model_parallel_size=8,
pipeline_model_parallel_size=2,
)
# 配置 LoRA
lora_config = NeMoLoRAConfig(
lora_rank=64,
lora_alpha=128,
lora_dropout=0.05,
target_modules=["q_proj", "v_proj", "k_proj", "o_proj"],
)
model.add_adapter(lora_config)
# 加载训练数据
from nemo.collections.nlp.data import CustomDataset
train_dataset = CustomDataset(
data_path="./internal_code_reviews.jsonl",
max_seq_length=8192,
tokenizer=model.tokenizer,
)
# 开始训练
model.train(
train_dataset,
max_steps=1000,
learning_rate=1e-4,
save_every_n_steps=200,
output_dir="./nemotron-3-ultra-lora",
)
# 保存 LoRA 权重(只有几十 MB)
model.save_lora_weights("./nemotron-3-ultra-lora/final")

LoRA 微调之后,这个模型在我们内部代码审查的测试集上,准确率从 76% 直接飙升到了 92%。关键是 LoRA 权重只有几十 MB,部署的时候加载基座 + LoRA adapter 就行,不需要完整保存 550B 参数。

微调前后对比(内部代码安全审查任务):
├── 基线(Nemotron 3 Ultra base)
│ ├── 准确率: 76.3%
│ ├── 误报率: 12.1%
│ └── 漏报率: 11.6%
├── LoRA 微调后(R=64)
│ ├── 准确率: 92.7% ↑ 16.4%
│ ├── 误报率: 3.8% ↓ 8.3%
│ └── 漏报率: 3.5% ↓ 8.1%

多轮对话的一致性测试#

值得一提的是,Nemotron 3 Ultra 在多轮对话的一致性上表现非常出色。我拿了一个 50 轮的长对话做测试,它始终能保持对早期上下文的准确记忆,没有出现典型的「遗忘症」——这在做代码审查和长文档分析时特别重要。

我设计了一个简单的压力测试:在对话里埋了 10 个特定约束条件(比如「回复不要超过 3 句话」「提到 Python 时用 🐍 emoji」「如果用户问 Rust 相关的问题,先强调内存安全」),然后和模型聊 50 轮。Nemotron 3 Ultra 始终遵守了所有 10 个约束,而 GPT-4o 在 30 轮后开始「忘记」其中 2-3 个。

# 多轮对话一致性测试脚本
import openai
import json
test_cases = [
{"turn": 1, "constraint": "回复不超过3句话", "prompt": "什么是 Rust 的所有权系统?"},
{"turn": 15, "constraint": "提到 Python 时加 🐍", "prompt": "对比 Python 和 Go 的并发模型"},
{"turn": 30, "constraint": "所有约束仍生效", "prompt": "写一个简单的 REST API 服务"},
{"turn": 50, "constraint": "全部约束仍生效", "prompt": "总结这次对话的核心主题"},
]
messages = [{"role": "system", "content": "你是一个资深技术顾问。规则:回复不超过3句话;提到 Python 时加 🐍;关于 Rust 先强调内存安全;不要使用列表格式;每轮回复末尾加一个相关的问题反问用户。"}]
client = openai.OpenAI(
base_url="http://localhost:8000/v1",
api_key="not-needed",
)
for tc in test_cases:
messages.append({"role": "user", "content": tc["prompt"]})
response = client.chat.completions.create(
model="nemotron-3-ultra",
messages=messages,
temperature=0.3,
max_tokens=512,
)
reply = response.choices[0].message.content
messages.append({"role": "assistant", "content": reply})
print(f"第 {tc['turn']} 轮: ✅ 约束 {tc['constraint']} 满足" if len(reply) < 150 else f"第 {tc['turn']} 轮: ⚠️ 可能超长,需检查")

我的看法#

Nemotron 3 Ultra 的发布标志着开源大模型进入了一个新阶段。550B 的 MoE 模型,性能直逼 GPT-4o 级别,而且权重完全开放——这对企业级应用来说意义重大。你不用担心数据泄露到第三方闭源 API,可以直接在自己的集群上跑。

当然,部署门槛也不低。想要跑满 256K 上下文,你至少需要 4 张 H100(80GB),如果想跑出性能,8-16 张是起步配置。但考虑到 GPT-4o 的 API 成本,三个月内省下来的钱可能就能买几块卡了——长远看,自部署更划算

还有一点值得注意:NVIDIA 在 GTC Taipei 2026 上同时发布了新一代的 Rubin 架构 GPU(计划 2027 年出货),到时候 Nemotron 3 Ultra 在 Rubin 卡上的推理性能可能再翻 2-3 倍。如果你现在采购 H200,一年后还可以用 Rubin 做升级。

NVIDIA 这波操作真的秀:卖卡的同时卖模型,模型跑得好就需要更多卡,更多卡又需要买模型——这商业闭环,我只能说,服了。但换个角度想,对于开发者来说这反而是好事:统一的硬件 + 软件 + 模型生态,让我们少了很多适配的痛苦。毕竟,生态统一比选择多更重要

NVIDIA Nemotron 3 Ultra 发布:550B 参数的开源巨兽来了
https://www.oferry.com/posts/a122/
作者
晨平安
发布于
2026-06-03
许可协议
CC BY-NC-SA 4.0
封面
示例歌曲
示例艺术家
封面
示例歌曲
示例艺术家
0:00 / 0:00