英伟达新研究:让LLM在推理时学习,实现恒定推理延迟
英伟达最新研究TTT-E2E让大语言模型能够在推理时通过上下文学习,将信息压缩到权重中,解决了长上下文场景下的延迟和性能问题。
英伟达最近发布了一项名为端到端测试时训练(TTT-E2E)的研究,让大语言模型能够在推理过程中持续学习。这种方法通过将上下文信息直接压缩到模型权重中,实现了恒定推理延迟,无论上下文长度如何变化。

## 突破性表现
在128K上下文长度下,TTT-E2E比传统全注意力机制快2.7倍;在2M上下文长度下,速度提升达到35倍。更重要的是,该方法在损失和延迟两个维度上都实现了良好的扩展性,而传统方法往往只能在一个维度上表现优异。

## 工作原理
TTT-E2E的核心思想是通过元学习在训练阶段为模型做好准备,使其在推理时能够通过下一个标记预测来压缩上下文信息。这类似于人类将经验压缩到大脑中的过程,保留重要信息而忽略细节。
有网友评论指出,这种方法让智能体从被动反应转向自适应行为,具有重大意义。另一位网友则提到,恒定推理延迟的经济影响巨大,因为它消除了长期以来困扰业界的"上下文税"问题。
## 潜在挑战
不过,这项技术也面临一些挑战。有评论者担心模型对齐问题,以及可能出现的"权重膨胀"现象。还有人指出,在线模型虽然存在已久,但通常速度较慢且需要更高硬件配置。
研究团队承认,当前的元学习实现比标准预训练慢3.4倍,主要是因为FlashAttention不支持梯度中的梯度计算。他们希望社区能够共同解决这个问题。
## 与RAG的关系
研究人员将TTT比作更新人脑,而RAG等检索方法则像是记笔记和查阅日历。虽然笔记在某些场景下仍然实用,但人类生产力主要还是取决于大脑的压缩能力。同样,AI智能体的生产力也将主要取决于其压缩上下文信息的能力。
这项研究为大语言模型的长上下文处理提供了新的思路,相关论文和代码已在arXiv和GitHub上公开。
*论文链接:https://arxiv.org/pdf/2512.23675*
*代码仓库:https://github.com/test-time-training/e2e*
发布时间: 2026-01-13 11:05