Wink Pings

NVIDIA发布Star Elastic:一个模型文件,三种推理能力,还能动态切换

NVIDIA AI最新发布的Star Elastic技术,让单一模型文件包含30B、23B和12B三个不同规模的推理模型,支持零样本切换和动态推理优化。

![Star Elastic架构图](https://external-i.redditi.com/oc-fRG0uQmcI27PmPD81RxR2mkQN3RsWt2lRiFUgwVM.png?auto=webp&s=48fd10a14c5242c051dcbcdb5ee4aa7acec00214)

NVIDIA最近发布了Star Elastic技术,这项创新让人联想到可伸缩视频编码:一个UHD流,去掉某些层就变成HD或SD流,但所有内容都来自同一个文件。

## 技术核心:三合一模型

Star Elastic通过对Nemotron Nano v3进行后训练,让30B的父模型包含23B和12B两个子模型。这三个模型共享同一个检查点文件,支持BF16、FP8和NVFP4三种精度格式。

有网友用俄罗斯套娃来形容这种结构——不是三个独立的模型,而是嵌套的密集模型,可以像滑动条一样调整推理速度。

## 动态推理策略

最有趣的是推理策略:用小模型思考,用大模型回答。23B子模型负责高容量的推理过程,30B模型负责需要精确度的最终答案生成。这种按阶段复杂度匹配模型规模的方法带来了:

- 相比标准预算控制,准确率提升16%

- 延迟降低1.9倍

在AIME-2025、GPQA等基准测试中验证了效果。

## 硬件优势明显

12B NVFP4版本可以在RTX 5080上运行,而所有BF16配置都会内存不足。在RTX Pro 6000上,吞吐量达到7,426 tokens/s,是30B BF16基准的3.4倍。

有技术爱好者指出,由于共享架构和KV缓存,模型可以在不同规模间无缝切换。比如12B模型能以极快速度生成大量推理内容,然后30B模型快速筛选有效结果。

## 成本效益显著

相比从头预训练每个变体,Star Elastic减少了360倍的token消耗;相比最先进的顺序压缩方法,减少了7倍的token使用。嵌套的23B和12B模型在性能上匹配或超越了独立训练的同类基线。

## 实际应用场景

这种设计特别适合需要大量推理但最终输出精炼的任务。想象一下:用30B模型获得初步想法,然后切换到12B模型以7000 tokens/s的速度进行思维发散,生成整本书的推理内容只需几秒钟,最后再切回30B模型评估质量。

模型文件已在HuggingFace发布:

- [BF16版本](https://huggingface.co/nvidia/NVIDIA-Nemotron-Labs-3-Elastic-30B-A3B-BF16)

- [FP8版本](https://huggingface.co/nvidia/NVIDIA-Nemotron-Labs-3-Elastic-30B-A3B-FP8)

- [NVFP4版本](https://huggingface.co/nvidia/NVIDIA-Nemotron-Labs-3-Elastic-30B-A3B-NVFP4)

相关论文已在arXiv发布,详细技术分析可参考[MarkTechPost的完整报道](https://www.marktechpost.com/2026/05/09/nvidia-ai-releases-star-elastic-one-checkpoint-that-contains-30b-23b-and-12b-reasoning-models-with-zero-shot-slicing/)。

虽然有人质疑这种嵌套模型的实际性能相比Qwen等主流模型,但更多技术爱好者认为,这种架构创新本身的价值远超单纯的性能对比。

发布时间: 2026-05-10 08:48