NVlabs/Eagle

GitHub: NVlabs/Eagle

NVIDIA 推出的前沿视觉语言模型家族，通过以数据为中心的策略实现图像、视频理解和具身应用中的多模态推理。

Stars: 3232 | Forks: 313

# 🦅 Eagle: 采用以数据为中心策略的前沿视觉语言模型

Eagle

[![代码许可证](https://img.shields.io/badge/Code%20License-Apache_2.0-green.svg)](LICENSE) [![模型许可证](https://img.shields.io/badge/Model%20License-NVIDIA%20License-red.svg)](./Eagle2_5/LICENSE_MODEL) [[📘Eagle 报告](Eagle/Eagle.pdf)] [[📘Eagle 2 报告](Eagle2_5/Eagle2.pdf)] [[📘Eagle 2.5 报告](Eagle2_5/Eagle2.5.pdf)] [[📘LocateAnything 报告](https://research.nvidia.com/labs/lpr/locate-anything/LocateAnything.pdf)] [[🤗模型合集](https://huggingface.co/collections/nvidia/eagle)] [[🤗LocateAnything 演示](https://huggingface.co/spaces/nvidia/LocateAnything)] [[🌐项目主页](https://nvlabs.github.io/Eagle/)]

## 更新 - [2026/06] 🎉 LocateAnything 被 [ECCV 2026](https://eccv.ecva.net/) 收录。 - [2026/06] 🔥 发布用于 LocateAnything 的 [视觉提示微调脚本](./Embodied/shell/locate-anything-lora-visual-prompt.sh)，支持 LoRA 微调。 - [2026/06] 🔥 LocateAnything 现已支持[批量推理](./Embodied/)，使用纯 FlashAttention 运行时 —— 在 A100、RTX 4090 及其他非 Hopper/Blackwell GPU 上实现高效推理。 - [2026/05] 🔥 发布 [LocateAnything](./Embodied/) —— 基于 Eagle 的通用视觉语言基础模型。 - [2025/12] 🎉 Eagle 模型的原生分辨率变体被采用为 [GR00T-N1.6](https://huggingface.co/collections/nvidia/gr00t-n16) 的 VLM 主干。查看[技术博客](https://research.nvidia.com/labs/gear/gr00t-n1_6/)了解更多详情。 - [2025/10] 🔥 发布 Eagle 2.5 [源代码](https://github.com/NVlabs/EAGLE/tree/main/Eagle2_5)。 - [2025/09] 🔥 Eagle 2.5 被 [NeurIPS 2025](https://neurips.cc/Conferences/2025) 收录。 - [2025/09] 🎉 Eagle 2 获得了 [Torch-TRT](https://github.com/pytorch/TensorRT/tree/main/tools/llm) 的支持。 - [2025/07] 🎉 发布 Eagle 2.5 [模型](https://huggingface.co/nvidia/Eagle2.5-8B)。 - [2025/06] 🔥 Eagle 2.5 被采用为 [GR00T-N1.5](https://huggingface.co/nvidia/GR00T-N1.5-3B) 的 VLM 主干。查看[技术博客](https://research.nvidia.com/labs/gear/gr00t-n1_5/)了解更多详情。 - [2025/04] 🎉 发布 Eagle 2.5 [技术报告](https://arxiv.org/abs/2504.15271)。 - [2025/03] 🔥 Eagle 2 被采用为 [GR00T-N1](https://youtu.be/m1CH-mgpdYg?si=WSDroL32HHE9xYSN) 的 VLM 主干（System-2）。查看 [GTC 发布会](https://www.youtube.com/watch?v=_waPvOwL9Z8&t=6935s)和[白皮书](https://arxiv.org/abs/2503.14734)了解更多详情。 - [2025/01] 🎉 发布 Eagle 2 [技术报告](http://arxiv.org/abs/2501.14818)和[模型](https://huggingface.co/collections/nvidia/eagle)。 - [2025/01] 🎉 [Eagle](./Eagle/README.md) 被评选为 [ICLR 2025](https://iclr.cc) Spotlight。 - [2024/08] 🎉 发布 [Eagle](./Eagle/README.md)。 ## 资源 ### 🌟 快速入门 - 📚 [LocateAnything 快速入门](./Embodied/README.md) - 📚 [Eagle 2.5 快速入门](./Eagle2_5/document/0.onboarding.md) - 📚 [Eagle README](./Eagle/README.md) ## Eagle VLM 家族 **Eagle** 是来自 NVIDIA 的前沿视觉语言模型（VLM）家族，致力于在通用多模态理解、长上下文推理和具身应用中探索以数据为中心的策略。除了推动多模态基础模型的研究外，Eagle 还作为一个研发平台，支持了 NVIDIA 在企业智能和 Physical AI 领域的多项旗舰项目，包括但不限于 [Llama-Nemotron Nano VLM](https://huggingface.co/blog/nvidia/llama-nemotron-nano-vl)、[Nemotron VLMs](https://www.nvidia.com/en-us/ai-data-science/foundation-models/nemotron/)（[V2 Nano VL](https://arxiv.org/abs/2511.03929) / [V3 Nano Omni](https://arxiv.org/abs/2604.24954)）、[NeMo Retriever](https://developer.nvidia.com/nemo-retriever)（[Llama Nemoretriever Colembed](https://arxiv.org/abs/2507.05513)）、[NVIDIA Isaac GR00T](https://developer.nvidia.com/isaac/gr00t) [N1](https://developer.nvidia.com/blog/accelerate-generalist-humanoid-robot-development-with-nvidia-isaac-gr00t-n1/)（[技术报告](https://arxiv.org/abs/2503.14734)）/ [N1.5](https://research.nvidia.com/labs/gear/gr00t-n1_5/) / [N1.6](https://developer.nvidia.com/blog/building-generalist-humanoid-capabilities-with-nvidia-isaac-gr00t-n1-6-using-a-sim-to-real-workflow/) 以及 [Cosmos](https://www.nvidia.com/en-us/ai/cosmos/)。 | 模型 | 特性 | 简介 | |:--|:--|:--| | **[LocateAnything](./Embodied/)** | 通用基础、检测与指向 | 利用并行框解码实现快速且高质量的视觉语言定位 | | **[Eagle 2.5](./Eagle2_5/)** | 具备 SOTA 图像与视频理解能力的前沿 VLM | 用于长上下文多模态理解的框架与数据策略 | | **[Eagle 2](./Eagle/README.md)** | 具备 SOTA 图像理解能力的前沿 VLM | 探索前沿 VLM 的后训练数据策略 | | **[Eagle](./Eagle/README.md)** | 采用混合编码器的 VLM | 探索以视觉为中心的 VLM 的设计空间 | ## 功能与能力

### 通用定位与理解

密集目标检测
_{LocateAnything 在统一的 VLM 下执行多种定位任务 —— 文档理解、GUI 定位、密集目标检测和 OCR。}

快速解码速度
_{并行框解码（PBD）与量化坐标解码的对比 —— PBD 在单次前向传递中以原子方式预测每个边界框，从而大幅提升吞吐量。}

### 长上下文多模态理解与推理

用户提示
_{分析视频并将其划分为不同的部分。对于每个部分，使用几个词或短语创建标题，并使用详细的字幕描述该部分的内容，同时指出其开始的秒数。多个部分之间用换行符分隔。}

VLM 字幕生成

_{1.05 秒，介绍

详细字幕：片段以壮丽的场景开始，一名战士站在山顶，被神秘的能量包围。战士身穿装饰着复杂图案和精美设计的华丽盔甲。背景是朦胧空灵的山水风景，远处有群山。然后，战士攀爬上一块刻有复杂雕刻的巨石。这块巨石非常庞大，矗立在充满神秘和宁静的环境中，周围还有其他高耸的岩石。随着战士向上攀爬，镜头拉近，展示了巨石上详细的雕刻，彰显了其古老和神秘的本质。场景随后过渡到战士到达巨石顶端，展开双臂，傲然挺立。突然，焦点转移到一个身穿飘逸长袍的神秘人物身上，他似乎是一位圣人或神秘角色，站在岩石嶙峋的景观中。这个人物被超自然的光芒照亮，暗示着他的力量和智慧。片段以这个神秘角色显得平静和安详结束，暗示了他与战士和巨石之间的联系，突出了力量、智慧和神秘之旅的主题。}

展开更多

_{5.99 秒，解释游戏类型

详细字幕：片段以一名身穿华丽盔甲的角色开始，他在森林中潜行并爬上高山。镜头聚焦于盔甲的复杂细节，上面有精美的图案并点缀着金色装饰。随着角色向上攀爬，一个充满高耸树木和远山的神秘广阔景观映入眼帘。接着，角色站在山顶，周围环绕着空灵的光芒。镜头转向广阔的天空和云彩，营造出戏剧性的背景。接下来，角色参与战斗，在身穿类似服装的军队中挥舞着大型武器，重点展示了他们的协调攻击。随着角色与一尊具有凶恶表情和粗糙表面的大型石像搏斗，动作变得更加激烈。片段继续展示另一名身穿白袍的角色，他似乎在施放法术或召唤某种力量。环境过渡到一个白雪皑皑的战场，主角与另一名战士搏斗，进行着动态的战斗动作。场景充满了戏剧性的灯光效果，展示了两名战士在雪景中交锋，背景中隐约可见巨大的雕像。片段以两名角色继续激烈战斗结束，主角执行了精妙而有力的打击。

517.10 秒，讨论控制

详细字幕：片段以两名战士在冰雪景观中锁定战斗开始，他们使用装饰华丽的长杖互相打击。场景紧张激烈，战士们展示了精准而有力的动作。当他们交锋时，镜头转向一位身穿华丽盔甲、头戴王冠的神秘人物，他似乎正在进行魔法仪式或挑战。身穿白袍的战士似乎在施放法术，召唤出发光的光芒和能量。镜头捕捉到了盔甲上复杂的细节，显示出金属上刻有的龙和狮子的图案。随着场景的推进，身穿白袍的战士被看到骑着一头巨大的神秘巨兽，巨兽攻击主角，产生出旋转的能量漩涡。背景以山地景观为特色，增添了史诗和奇幻的氛围。片段以白袍战士胜利地站立、高举法杖结束，因为他们施放的法术显现在面前，展示了他们对神秘力量的掌控和精通。

614.53 秒，谈论故事与角色

详细字幕：片段以广阔森林的广角镜头开始，高耸的树木和远处部分被薄雾笼罩的群山清晰可见。天空明亮晴朗，暗示着这是一个宁静的早晨。场景随后过渡到一块具有神秘感、表面带有复杂图案的旋转黑色岩石的特写。一只手，推测属于一个名叫悟空的角色，伸出手触摸这块岩石，导致其移动并露出一条隐藏的通道。当手触摸到岩石时，似乎开始了一种转变，象征着觉醒或启示。接下来，场景转移到了另一个地点，悟空站在一个岩石地形上，背景是树木和山脉，暗示着与自然和古老智慧的联系。悟空穿着简单、飘逸的长袍，带着沉思的气息，凝视着远方。片段过渡到另一个场景，悟空现在穿着更粗犷的服装，配备着巨大的法杖，表明他已经准备好迎接冒险或对抗。片段捕捉到了充满神秘、自我发现和追求启蒙的旅程精髓。在整个片段中，出现了中文字符，为展开的故事提供了背景和叙述，包括“悟空”（包括原始汉字和拼音）和“彭老当”的名字，增加了角色及其世界的深度。

698.69 秒，描述视觉与声音

详细字幕：片段以一个部分淹没在海洋中的古老石头结构开始，其光滑弯曲的表面暗示着其历史意义。随着镜头拉远，巨大的海浪撞击着该结构，营造出强大而戏剧性的氛围。海水呈现深蓝色，海浪以巨大的力量拍打，溅起白色的泡沫。在下一个场景中，背景转移到了黄昏时分郁郁葱葱的森林，茂密的树叶被透过树木的金色光芒照亮。场景捕捉到了大自然的宁静与美丽，光影的交错营造出一种神秘的氛围。森林随后转变为崎岖的山地地形，瀑布从悬崖上倾泻而下。水质清澈，岩石粗糙，强调了大自然原始的力量。最后，片段回到了神秘的领域，一块巨大的古老石头矗立在宁静的景观中。这块石头上覆盖着复杂的雕刻，证明了该地区不朽的遗产。镜头在雕刻的细节上徘徊，突出了古代文明的艺术性和工艺。片段以石头的特写结束，捕捉到了雕刻的精细细节和纹理，给整个片段中所描绘的历史和自然之美留下了持久的印象。

738.62 秒，结尾

详细字幕：片段以一个白发胡须、穿着宽松长袍、戴着串珠项链的角色开始，他向一块位于崎岖山脉上的巨大旋转岩石伸出手。这块岩石上有复杂的图案，似乎呈漩涡状。随着角色触摸岩石，动作继续进行，岩石开始散发出神秘的光芒，着一种神奇的转变或力量的解锁。当角色的手接触到岩石时，周围环境变得更加明亮，突显了神秘的氛围。场景过渡到角色离开岩石，走下一系列岩石台阶进入山谷。随着角色走下，更多穿着类似服装的角色进入视野，暗示着这是一次聚会或任务。视频捕捉到了山地景观的神秘氛围，强调了角色与岩石以及周围神秘环境的互动。}

### 跨越虚拟与现实世界的应用

Document & General VQA _{**问题：** 根据这张图，过去十年波多黎各的人口发生了怎样的变化？**回答：** 图表说明了 2010 年至 2020 年间美国各州的人口增长情况。大多数州经历了人口增长，只有两个州出现了下降。波多黎各是这两个州之一。在过去十年中，居住在波多黎各的人口减少了约 365,000 人。这相当于减少了约 12%。}

3D Perception & Spatial Intelligence _{LocateAnything3D 在自然场景中进行 3D 目标检测的示例。}

Smart City & Metropolis
_{An example of zero-shot ultra-dense pedestrian detection in the wild for a road crossing in Shibuya, Tokyo, one of the busiest areas in the world.}

## 模型库 ### 📦 LocateAnything 模型 | 模型名称 | 日期 | LLM 主干 | Vision Encoder | 最大长度 | 下载 | | ----------- |------------| ---------------- | ---------------- | ---------- | ------- | | LocateAnything-3B | 2026.05.26 | [Qwen2.5-3B-Instruct](https://huggingface.co/Qwen/Qwen2.5-3B-Instruct) | [MoonViT-SO-400M](https://huggingface.co/moonshotai/MoonViT-SO-400M) | 25K | 🤗 [HF](https://huggingface.co/nvidia/LocateAnything-3B) | ### 📦 Eagle 2.5 模型 | 模型名称 | 日期 | LLM 主干 | Vision Encoder | 最大长度 | 下载 | | ----------- |------------| ---------------- | ---------------- | ---------- | ------- | | Eagle2.5-8B | 2025.04.16 | [Qwen2.5-7B-Instruct](https://huggingface.co/Qwen/Qwen2.5-7B-Instruct) | [SigLIP2](https://huggingface.co/google/siglip2-so400m-patch16-512) | 128K | 🤗 [HF](https://huggingface.co/nvidia/Eagle2.5-8B) | ### 📦 Eagle 2 模型 | 模型名称 | 日期 | LLM 主干 | Vision Encoder | 最大长度 | 下载 | | ----------- |------------| ---------------- | ---------------- | ---------- | ------- | | Eagle2-1B | 2025.01.11 | [Qwen2.5-0.5B-Instruct](https://huggingface.co/Qwen/Qwen2.5-0.5B-Instruct) | [SigLIP](https://huggingface.co/google/paligemma-3b-pt-448) | 16K | 🤗 [HF](https://huggingface.co/nvidia/Eagle2-1B) | | Eagle2-2B | 2025.01.11 | [Qwen2.5-1.5B-Instruct](https://huggingface.co/Qwen/Qwen2.5-1.5B-Instruct) | [SigLIP](https://huggingface.co/google/paligemma-3b-pt-448) | 16K | 🤗 [HF](https://huggingface.co/nvidia/Eagle2-2B) | | Eagle2-9B | 2025.01.11 | [Qwen2.5-7B-Instruct](https://huggingface.co/Qwen/Qwen2.5-7B-Instruct) | [SigLIP](https://huggingface.co/google/paligemma-3b-pt-448) + [ConvNext](https://huggingface.co/laion/CLIP-convnext_xxlarge-laion2B-s34B-b82K-augreg-soup) | 16K | 🤗 [HF](https://huggingface.co/nvidia/Eagle2-9B) | ### 📦 Eagle 模型 | 模型名称 | 日期 | LLM 主干 | Vision Encoder | 下载 | | ----------- |------------| ---------------- | ---------------- | ---------- | | Eagle-X4-8B-Plus | 2024.09.16 | [Llama-3-8B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct) | [CLIP](https://huggingface.co/openai/clip-vit-large-patch14-336)+[ConvNeXt](https://huggingface.co/laion/CLIP-convnext_xxlarge-laion2B-s34B-b82K-augreg-soup)+[EVA](https://huggingface.co/Yuxin-CV/EVA-02/blob/main/eva02/det/eva02_L_coco_det_sys_o365.pth)+[Pix2Str](https://huggingface.co/google/pix2struct-large) | 🤗 [HF](https://huggingface.co/NVEagle/Eagle-X4-8B-Plus) | | Eagle-X4-13B-Plus | 2024.09.16 | [vicuna-13b-v1.5](https://huggingface.co/lmsys/vicuna-13b-v1.5) | [CLIP](https://huggingface.co/openai/clip-vit-large-patch14-336)+[ConvNeXt](https://huggingface.co/laion/CLIP-convnext_xxlarge-laion2B-s34B-b82K-augreg-soup)+[EVA](https://huggingface.co/Yuxin-CV/EVA-02/blob/main/eva02/det/eva02_L_coco_det_sys_o365.pth)+[Pix2Str](https://huggingface.co/google/pix2struct-large) | 🤗 [HF](https://huggingface.co/NVEagle/Eagle-X4-13B-Plus) | | Eagle-X5-34B-Plus | 2024.09.16 | [Yi-34B](https://huggingface.co/01-ai/Yi-34B) | [CLIP](https://huggingface.co/openai/clip-vit-large-patch14-336)+[ConvNeXt](https://huggingface.co/laion/CLIP-convnext_xxlarge-laion2B-s34B-b82K-augreg-soup)+[EVA](https://huggingface.co/Yuxin-CV/EVA-02/blob/main/eva02/det/eva02_L_coco_det_sys_o365.pth)+[Pix2Str](https://huggingface.co/google/pix2struct-large)+[SAM](https://huggingface.co/facebook/sam-vit-large) | 🤗 [HF](https://huggingface.co/NVEagle/Eagle-X5-34B-Plus) | | Eagle-X5-7B | 2024.09.16 | [vicuna-7b-v1.5](https://huggingface.co/lmsys/vicuna-7b-v1.5) | [CLIP](https://huggingface.co/openai/clip-vit-large-patch14-336)+[ConvNeXt](https://huggingface.co/laion/CLIP-convnext_xxlarge-laion2B-s34B-b82K-augreg-soup)+[EVA](https://huggingface.co/Yuxin-CV/EVA-02/blob/main/eva02/det/eva02_L_coco_det_sys_o365.pth)+[Pix2Str](https://huggingface.co/google/pix2struct-large)+[SAM](https://huggingface.co/facebook/sam-vit-large) | 🤗 [HF](https://huggingface.co/NVEagle/Eagle-X5-7B) | | Eagle-X5-13B | 2024.09.16 | [vicuna-13b-v1.5](https://huggingface.co/lmsys/vicuna-13b-v1.5) | [CLIP](https://huggingface.co/openai/clip-vit-large-patch14-336)+[ConvNeXt](https://huggingface.co/laion/CLIP-convnext_xxlarge-laion2B-s34B-b82K-augreg-soup)+[EVA](https://huggingface.co/Yuxin-CV/EVA-02/blob/main/eva02/det/eva02_L_coco_det_sys_o365.pth)+[Pix2Str](https://huggingface.co/google/pix2struct-large)+[SAM](https://huggingface.co/facebook/sam-vit-large) | 🤗 [HF](https://huggingface.co/NVEagle/Eagle-X5-13B) | | Eagle-X5-13B-Chat | 2024.09.16 | [vicuna-13b-v1.5](https://huggingface.co/lmsys/vicuna-13b-v1.5) | [CLIP](https://huggingface.co/openai/clip-vit-large-patch14-336)+[ConvNeXt](https://huggingface.co/laion/CLIP-convnext_xxlarge-laion2B-s34B-b82K-augreg-soup)+[EVA](https://huggingface.co/Yuxin-CV/EVA-02/blob/main/eva02/det/eva02_L_coco_det_sys_o365.pth)+[Pix2Str](https://huggingface.co/google/pix2struct-large)+[SAM](https://huggingface.co/facebook/sam-vit-large) | 🤗 [HF](https://huggingface.co/NVEagle/Eagle-X5-13B-Chat) | ## 引用如果您觉得此项目有用，请考虑引用我们的工作： ``` @inproceedings{wang2025locateanything, title={LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding}, author={Shihao Wang and Shilong Liu and Yuanguo Kuang and Xinyu Wei and Yangzhou Liu and Zhiqi Li and Yunze Man and Guo Chen and Andrew Tao and Guilin Liu and Jan Kautz and Lei Zhang and Zhiding Yu}, booktitle={ECCV}, year={2026} } ``` ``` @inproceedings{man2025locateanything3d, title = {LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight}, author = {Yunze Man and Shihao Wang and Guowen Zhang and Johan Bjorck and Zhiqi Li and Liang-Yan Gui and Jim Fan and Jan Kautz and Yu-Xiong Wang and Zhiding Yu}, booktitle = {CVPR}, year = {2026}, } ``` ``` @inproceedings{chen2025eagle2.5, title={Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models}, author={Guo Chen and Zhiqi Li and Shihao Wang and Jindong Jiang and Yicheng Liu and Lidong Lu and De-An Huang and Wonmin Byeon and Matthieu Le and Max Ehrlich and Tong Lu and Limin Wang and Bryan Catanzaro and Jan Kautz and Andrew Tao and Zhiding Yu and Guilin Liu}, booktitle={NeurIPS}, year={2025} } ``` ``` @article{li2025eagle2, title={Eagle 2: Building Post-Training Data Strategies from Scratch for Frontier Vision-Language Models}, author={Zhiqi Li and Guo Chen and Shilong Liu and Shihao Wang and Vibashan VS and Yishen Ji and Shiyi Lan and Hao Zhang and Yilin Zhao and Subhashree Radhakrishnan and Nadine Chang and Karan Sapra and Amala Sanjay Deshmukh and Tuomas Rintamaki and Matthieu Le and Ilia Karmanov and Lukas Voegtle and Philipp Fischer and De-An Huang and Timo Roman and Tong Lu and Jose M. Alvarez and Bryan Catanzaro and Jan Kautz and Andrew Tao and Guilin Liu and Zhiding Yu}, journal={arXiv:2501.14818}, year={2025} } ``` ``` @inproceedings{shi2025eagle, title = {Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders}, author={Min Shi and Fuxiao Liu and Shihao Wang and Shijia Liao and Subhashree Radhakrishnan and De-An Huang and Hongxu Yin and Karan Sapra and Yaser Yacoob and Humphrey Shi and Bryan Catanzaro and Andrew Tao and Jan Kautz and Zhiding Yu and Guilin Liu}, booktitle={ICLR}, year={2025} } ``` ## 许可证/使用条款 - 代码按 [LICENSE](./LICENSE) 文件中的 Apache 2.0 许可证发布。本仓库的部分代码被重复使用并受其原始许可证的约束。部分文件已被修改，并在适用的情况下添加了适当的归属声明和附加的许可证标头。 - 预训练的模型权重根据 [CC BY-NC 4.0 License](https://creativecommons.org/licenses/by-nc/4.0/deed.en) 或 [NVIDIA License](./Eagle2_5/LICENSE_MODEL) 发布。这些模型为研究预览版，仅供非商业用途使用。 - Eagle 模型使用 Qwen 进行了改进。 - 关于向 Eagle 贡献代码，请参阅[贡献指南](CONTRIBUTING.md)。 - 提醒用户确保其对数据集和模型权重的使用符合所有适用的法律和法规。 ## 致谢 - [LLaVA](https://github.com/haotian-liu/LLaVA)、[LLaVA-HR](https://github.com/luogen1996/LLaVA-HR) 和 [InternVL](https://github.com/OpenGVLab/InternVL)：Eagle 代码库集成了来自这些仓库的修改组件。非常感谢这些伟大的开源项目。 - [LMMs-Eval](https://github.com/EvolvingLMMs-Lab/lmms-eval) 和 [VLMEvalKit](https://github.com/open-compass/VLMEvalKit)：我们使用了这些仓库的衍生物进行评估。非常感谢这些出色的工具。 - 感谢 [Cambrian](https://cambrian-mllm.github.io)、[LLaVA-One-Vision](https://llava-vl.github.io/blog/2024-08-05-llava-onevision/)、[The Cauldron](https://huggingface.co/datasets/HuggingFaceM4/the_cauldron) 以及许多其他工作在开源数据方面的巨大努力。 - 团队特别感谢 NVIDIA TSE 团队，包括 Chen Fu、Yuchao Jin、Le An 和 Josh Park，感谢他们在 Eagle 的 TensorRT 优化和边缘部署方面所做的出色工作。

标签：人工智能, 具身智能, 凭据扫描, 多模态大模型, 数据驱动, 模型微调, 用户模式Hook绕过, 目标定位, 视觉语言模型, 逆向工具