3月10日,智元机器人正式发布了首个通用具身基座大模型——智元启元大模型GO-1。该模型基于Vision-Language-Latent-Action(ViLLA)架构,由多模态大模型和混合专家系统组成。通过学习人类和多种机器人数据,智元启元大模型GO-1具备了在各种环境和物品中快速适应新任务、学习新技能的能力,并且可以部署到不同类型的机器人上,在实际使用中不断进化。
例如,用户可以通过指令告诉机器人执行“挂衣服”这样的任务。模型会根据视觉输入理解任务要求,结合之前训练过的相关流程,完成一系列操作步骤。技术层面上,GO-1大模型具有场景感知和理解能力,能够通过大规模纯文本和图文数据理解具体情境下的任务需求;通过学习人类操作视频和其他机器人的操作视频,掌握任务的具体步骤;通过仿真模拟,了解不同物体和环境的特点;最终,借助真实机器人的示教数据,实现任务的完整执行。
这款大模型的主要特点包括:通过互联网视频和真人示范增强对人类行为的理解;具备小样本快速泛化能力,能在极少数据甚至零样本下适应新场景和新任务;作为通用策略模型,可以在不同形态的机器人之间迁移;还配备了一套数据回流系统,可以从实际操作中遇到的问题中持续学习并改进。
测试结果显示,在五种复杂度不同的任务中,相比现有的最优模型,GO-1的任务成功率显著提高,平均提升了32%,特别是在倒水、清理桌面和补充饮料等任务中表现尤为突出。