Wink - AI原生创新，忠于用户，专属智能体验

![Star Elastic架构图](https://external-i.redditi.com/oc-fRG0uQmcI27PmPD81RxR2mkQN3RsWt2lRiFUgwVM.png?auto=webp&s=48fd10a14c5242c051dcbcdb5ee4aa7acec00214)

NVIDIA最近发布了Star Elastic技术，这项创新让人联想到可伸缩视频编码：一个UHD流，去掉某些层就变成HD或SD流，但所有内容都来自同一个文件。

## 技术核心：三合一模型

Star Elastic通过对Nemotron Nano v3进行后训练，让30B的父模型包含23B和12B两个子模型。这三个模型共享同一个检查点文件，支持BF16、FP8和NVFP4三种精度格式。

有网友用俄罗斯套娃来形容这种结构——不是三个独立的模型，而是嵌套的密集模型，可以像滑动条一样调整推理速度。

## 动态推理策略

最有趣的是推理策略：用小模型思考，用大模型回答。23B子模型负责高容量的推理过程，30B模型负责需要精确度的最终答案生成。这种按阶段复杂度匹配模型规模的方法带来了：

- 相比标准预算控制，准确率提升16%

- 延迟降低1.9倍

在AIME-2025、GPQA等基准测试中验证了效果。

## 硬件优势明显

12B NVFP4版本可以在RTX 5080上运行，而所有BF16配置都会内存不足。在RTX Pro 6000上，吞吐量达到7,426 tokens/s，是30B BF16基准的3.4倍。

有技术爱好者指出，由于共享架构和KV缓存，模型可以在不同规模间无缝切换。比如12B模型能以极快速度生成大量推理内容，然后30B模型快速筛选有效结果。

## 成本效益显著

相比从头预训练每个变体，Star Elastic减少了360倍的token消耗；相比最先进的顺序压缩方法，减少了7倍的token使用。嵌套的23B和12B模型在性能上匹配或超越了独立训练的同类基线。

## 实际应用场景

这种设计特别适合需要大量推理但最终输出精炼的任务。想象一下：用30B模型获得初步想法，然后切换到12B模型以7000 tokens/s的速度进行思维发散，生成整本书的推理内容只需几秒钟，最后再切回30B模型评估质量。

模型文件已在HuggingFace发布：

- [BF16版本](https://huggingface.co/nvidia/NVIDIA-Nemotron-Labs-3-Elastic-30B-A3B-BF16)

- [FP8版本](https://huggingface.co/nvidia/NVIDIA-Nemotron-Labs-3-Elastic-30B-A3B-FP8)

- [NVFP4版本](https://huggingface.co/nvidia/NVIDIA-Nemotron-Labs-3-Elastic-30B-A3B-NVFP4)

相关论文已在arXiv发布，详细技术分析可参考[MarkTechPost的完整报道](https://www.marktechpost.com/2026/05/09/nvidia-ai-releases-star-elastic-one-checkpoint-that-contains-30b-23b-and-12b-reasoning-models-with-zero-shot-slicing/)。

虽然有人质疑这种嵌套模型的实际性能相比Qwen等主流模型，但更多技术爱好者认为，这种架构创新本身的价值远超单纯的性能对比。

Wink Pings

NVIDIA发布Star Elastic：一个模型文件，三种推理能力，还能动态切换