Cosmos-Reason1 –英伟达推出的系列多模态大语言模型

43 0

英伟达团队发布了一个新的物理世界大模型：Cosmos-Reason1。Cosmos-Reason1 致力于解决的是人工智能系统与物理世界交互的问题。Cosmos-Reason1 可以理解物理世界，并通过长思维链的推理过程在自然语言中生成适当的行为决策。

Cosmos-Reason1是什么

Cosmos-Reason1 是 NVIDIA 推出的系列多模态大型语言模型，基于物理常识和具身推理理解物理世界。Cosmos-Reason1包括两个模型：Cosmos-Reason1-8B 和 Cosmos-Reason1-56B。模型基于视觉输入感知世界，经过长链思考后生成自然语言响应，涵盖解释性见解和具身决策（如下一步行动）。训练分为四个阶段：视觉预训练、通用监督微调、物理 AI 微调和强化学习。Cosmos-Reason1基于精心策划的数据和强化学习，在物理常识和具身推理基准测试中表现出色。

Cosmos-Reason1的主要功能

物理常识理解：理解物理世界的基本知识，如空间、时间和基础物理定律，判断事件的合理性。
具身推理：基于物理常识，为具身代理（如机器人、自动驾驶车辆）生成合理的决策和行动规划。
长链思考：基于长链思考（chain-of-thought reasoning）生成详细的推理过程，提升决策的透明度和可解释性。
多模态输入处理：支持视频输入，结合视觉信息和语言指令进行推理，生成自然语言响应。

Cosmos-Reason1的技术原理

层次化本体论：定义物理常识的层次化本体论，涵盖空间、时间和基础物理三个主要类别，进一步细分为16个子类别。
二维本体论：为具身推理设计二维本体论，涵盖五种具身代理的四种关键推理能力。
多模态架构：基于解码器仅多模态架构，输入视频基于视觉编码器处理后，与文本标记嵌入对齐，输入到LLM中。
模型四个训练阶段：
- 视觉预训练：对视觉和文本模态进行对齐。
- 通用监督微调（SFT）：提升模型在通用视觉语言任务中的表现。
- 物理AI SFT：用专门的数据增强物理常识和具身推理能力。
- 物理AI强化学习（RL）：基于规则化奖励进一步优化模型的推理能力。
强化学习：设计基于多选题的规则化奖励机制，基于强化学习提升模型在物理常识和具身推理任务中的表现。