详情
跨维智能日前公布了其在具身智能领域的前沿突破,即“一次示教即会”(You Only Teach Once,YOTO),机器人只需通过单台跨维智能双目纯视觉空间与具身智能传感器的一次观察,就能提取人类手部的精细运动轨迹,之后通过Sim2Real以合成数据在虚拟空间中进行高效的数据增殖与扩展,最后经过智能的双臂扩散策略(DexBiDP),即可确保双臂机器人高效准确的执行相似的泛化任务。
YOTO是行业内基于3D VLA,并且无需机器人硬件或遥操设备,就能快速形成双臂协同、多技能、长程复杂任务泛化能力的工作。相较于传统需至少数千次标注的机器人训练模式,YOTO将学习效率提升三个数量级,开创"所见即所得"的具身智能新范式。
▍单次演示,无限可能
如何让机器人学习人类操作,拥有决策能力,来应对复杂多变的情况,而不是只是机械化的执行预编程操作,是具身智能的本质要求。传统的机器人学习方法往往需要大量的人工标注和复杂的动作定义,耗时耗力。而YOTO通过单次人类视频演示学习双臂操作,极大地提高了学习效率。这种高效的学习方式,使得机器人能够快速掌握人类的复杂操作模式,为具身智能系统在实际应用中的快速部署和适应提供了可能。
YOTO框架的核心在于其高效的学习能力。它能够从单次人类视频演示中提取双臂操作模式,并将其精准地应用于机器人的动作规划,进而完成各项任务,这一过程涉及多个关键技术模块:
