NVIDIA发布Star Elastic:一个模型文件,三种推理能力,还能动态切换
NVIDIA AI最新发布的Star Elastic技术,让单一模型文件包含30B、23B和12B三个不同规模的推理模型,支持零样本切换和动态推理优化。

NVIDIA最近发布了Star Elastic技术,这项创新让人联想到可伸缩视频编码:一个UHD流,去掉某些层就变成HD或SD流,但所有内容都来自同一个文件。
## 技术核心:三合一模型
Star Elastic通过对Nemotron Nano v3进行后训练,让30B的父模型包含23B和12B两个子模型。这三个模型共享同一个检查点文件,支持BF16、FP8和NVFP4三种精度格式。
有网友用俄罗斯套娃来形容这种结构——不是三个独立的模型,而是嵌套的密集模型,可以像滑动条一样调整推理速度。
## 动态推理策略
最有趣的是推理策略:用小模型思考,用大模型回答。23B子模型负责高容量的推理过程,30B模型负责需要精确度的最终答案生成。这种按阶段复杂度匹配模型规模的方法带来了:
- 相比标准预算控制,准确率提升16%
- 延迟降低1.9倍
在AIME-2025、GPQA等基准测试中验证了效果。
## 硬件优势明显
12B NVFP4版本可以在RTX 5080上运行,而所有BF16配置都会内存不足。在RTX Pro 6000上,吞吐量达到7,426 tokens/s,是30B BF16基准的3.4倍。
有技术爱好者指出,由于共享架构和KV缓存,模型可以在不同规模间无缝切换。比如12B模型能以极快速度生成大量推理内容,然后30B模型快速筛选有效结果。
## 成本效益显著
相比从头预训练每个变体,Star Elastic减少了360倍的token消耗;相比最先进的顺序压缩方法,减少了7倍的token使用。嵌套的23B和12B模型在性能上匹配或超越了独立训练的同类基线。
## 实际应用场景
这种设计特别适合需要大量推理但最终输出精炼的任务。想象一下:用30B模型获得初步想法,然后切换到12B模型以7000 tokens/s的速度进行思维发散,生成整本书的推理内容只需几秒钟,最后再切回30B模型评估质量。
模型文件已在HuggingFace发布:
- [BF16版本](https://huggingface.co/nvidia/NVIDIA-Nemotron-Labs-3-Elastic-30B-A3B-BF16)
- [FP8版本](https://huggingface.co/nvidia/NVIDIA-Nemotron-Labs-3-Elastic-30B-A3B-FP8)
- [NVFP4版本](https://huggingface.co/nvidia/NVIDIA-Nemotron-Labs-3-Elastic-30B-A3B-NVFP4)
相关论文已在arXiv发布,详细技术分析可参考[MarkTechPost的完整报道](https://www.marktechpost.com/2026/05/09/nvidia-ai-releases-star-elastic-one-checkpoint-that-contains-30b-23b-and-12b-reasoning-models-with-zero-shot-slicing/)。
虽然有人质疑这种嵌套模型的实际性能相比Qwen等主流模型,但更多技术爱好者认为,这种架构创新本身的价值远超单纯的性能对比。
发布时间: 2026-05-10 08:48