test-time-training/discover
GitHub: test-time-training/discover
TTT-Discover 是一个通过测试时强化学习让 LLM 在数学、GPU kernel、算法和生物学等前沿领域实现自主发现与优化的研究框架。
Stars: 587 | Forks: 84
🔬 TTT-Discover
在测试时学习以发现
Mert Yuksekgonul*, Daniel Koceja*, Xinhao Li*, Federico Bianchi*
Jed McCaleb, Xiaolong Wang, Jan Kautz, Yejin Choi, James Zou†, Carlos Guestrin†, Yu Sun*
斯坦福大学 · NVIDIA · Astera Institute · 加州大学圣地亚哥分校 · Together AI
**TTT-Discover** 在测试时执行强化学习,允许 LLM 针对手头问题的特定经验继续训练。我们在数学、GPU kernel、算法和生物学领域取得了**新的最优结果**。
| | **数学**
Erdős Overlap ↓ | **Kernel A100**
TriMul ↓ | **Kernel H100**
TriMul ↓ | **算法**
AtCoder ↑ | **生物学**
去噪 ↑ | |------------------|:----------------------------------:|:---------------------------:|:---------------------------:|:---------------------------:|:--------------------------:| | 人类最佳成绩 | 0.380927 | 4531 μs | 1371 μs | 566,997 | 0.64 | | 此前 AI 最佳成绩 | 0.380924 | — | — | 558,026 | — | | **TTT-Discover** | **0.380876** | **2198 μs** | **1161 μs** | **567,062** | **0.71** |
## 领域
Erdős Overlap ↓ | **Kernel A100**
TriMul ↓ | **Kernel H100**
TriMul ↓ | **算法**
AtCoder ↑ | **生物学**
去噪 ↑ | |------------------|:----------------------------------:|:---------------------------:|:---------------------------:|:---------------------------:|:--------------------------:| | 人类最佳成绩 | 0.380927 | 4531 μs | 1371 μs | 566,997 | 0.64 | | 此前 AI 最佳成绩 | 0.380924 | — | — | 558,026 | — | | **TTT-Discover** | **0.380876** | **2198 μs** | **1161 μs** | **567,062** | **0.71** |
数学 — 组合数学和分析领域的经典未解问题
| 任务 | Erdős Min. Overlap ↓ | 自相关 (AC1) ↓ | 自相关 (AC2) ↑ |
|------|:--------------------:|:-----------------:|:-----------------:|
| 人类最佳成绩 | 0.380927 | 1.50973 | 0.9015 |
| 此前 AI 最佳成绩 | 0.380924 | 1.50314 | 0.9610 |
| **TTT-Discover** | **0.380876** | **1.50287** | 0.9591 |
Kernel 工程 — 针对三角矩阵乘法的 GPUMode TriMul 竞赛
| 任务 | A100 ↓ | H100 ↓ | B200 ↓ | MI300x ↓ |
|------|:------:|:------:|:------:|:--------:|
| 人类最佳成绩 | 4531 μs | 1371 μs | 1005 μs | 2462 μs |
| **TTT-Discover** | **2198 μs** | **1161 μs** | **905 μs** | **1596 μs** |
算法工程 — 关于真实世界优化的 AtCoder Heuristic 竞赛 [AHC39] [AHC58]
| 任务 | AHC39 (几何) ↑ | AHC58 (调度) ↑ |
|------|:------------------:|:--------------------:|
| 人类最佳成绩 | 566,997 | 847,674,723 |
| 此前 AI 最佳成绩 | 558,026 | 848,373,282 |
| **TTT-Discover** | **567,062** | **848,414,228** |
生物学 — 在 OpenProblems 基准测试上的单细胞 RNA-seq 去噪
| 任务 | PBMC ↑ | Tabula ↑ |
|------|:------:|:--------:|
| 人类最佳成绩 | 0.64 | 0.64 |
| **TTT-Discover** | **0.71** | **0.73** |
标签:DLL 劫持, IaC 扫描, Yelp, 人工智能, 大语言模型, 强化学习, 机器学习框架, 测试时训练, 用户模式Hook绕过, 逆向工具