Wink - AI原生创新，忠于用户，专属智能体验

英伟达最近发布了一项名为端到端测试时训练（TTT-E2E）的研究，让大语言模型能够在推理过程中持续学习。这种方法通过将上下文信息直接压缩到模型权重中，实现了恒定推理延迟，无论上下文长度如何变化。

![研究图示](https://developer-blogs.nvidia.com/wp-content/uploads/2026/01/TTT-E2E-1024x576.png)

## 突破性表现

在128K上下文长度下，TTT-E2E比传统全注意力机制快2.7倍；在2M上下文长度下，速度提升达到35倍。更重要的是，该方法在损失和延迟两个维度上都实现了良好的扩展性，而传统方法往往只能在一个维度上表现优异。

![性能对比图](https://developer-blogs.nvidia.com/wp-content/uploads/2026/01/context-length-e1767974134738.webp)

## 工作原理

TTT-E2E的核心思想是通过元学习在训练阶段为模型做好准备，使其在推理时能够通过下一个标记预测来压缩上下文信息。这类似于人类将经验压缩到大脑中的过程，保留重要信息而忽略细节。

有网友评论指出，这种方法让智能体从被动反应转向自适应行为，具有重大意义。另一位网友则提到，恒定推理延迟的经济影响巨大，因为它消除了长期以来困扰业界的"上下文税"问题。

## 潜在挑战

不过，这项技术也面临一些挑战。有评论者担心模型对齐问题，以及可能出现的"权重膨胀"现象。还有人指出，在线模型虽然存在已久，但通常速度较慢且需要更高硬件配置。

研究团队承认，当前的元学习实现比标准预训练慢3.4倍，主要是因为FlashAttention不支持梯度中的梯度计算。他们希望社区能够共同解决这个问题。

## 与RAG的关系

研究人员将TTT比作更新人脑，而RAG等检索方法则像是记笔记和查阅日历。虽然笔记在某些场景下仍然实用，但人类生产力主要还是取决于大脑的压缩能力。同样，AI智能体的生产力也将主要取决于其压缩上下文信息的能力。

这项研究为大语言模型的长上下文处理提供了新的思路，相关论文和代码已在arXiv和GitHub上公开。

*论文链接：https://arxiv.org/pdf/2512.23675*

*代码仓库：https://github.com/test-time-training/e2e*

Wink Pings