详情
LLM已经可以理解文本和图片了,也能够根据它们的历史知识回答各种问题,但它们或许对周围世界当前发生的事情一无所知。
现在LLMs也开始逐步学习理解3D物理空间,通过增强LLMs的「看到」世界的能力,人们可以开发新的应用,在更多场景去获取LLMs的帮助。AI Agent,比如机器人或是智能眼镜,它们可以通过感知和理解环境来回答一些开放性问题,比如「我把钥匙放哪里了?」这样的AI Agent需要利用视觉等感知模式来理解其周围环境,并能够用清晰的日常语言有效地与人交流。这类似于构建一个「世界模型」,即AI Agent可以对外部世界产生它自己的内部理解方法,并能够让人类通过语言查询。这是一个长期的愿景和一个有挑战的领域,也是实现人工通用智能的重要一步。Meta的新研究OpenEQA(Embodied Question Answering)框架,即开放词汇体验问答框架,为我们探索这个领域提供了新的可能。EQA(Embodied Question Answering)是一种工具,用于检查AI Agent是否真正理解周围世界发生的事情。毕竟,当我们想要确定一个人对概念的理解程度时,我们会问他们问题,并根据他们的答案形成评估。我们也可以对实体AI Agent做同样的事情。[物体识别]
问:椅子上的红色物体是什么?
[属性识别]
问:在所有的椅子中,这把椅子的独特颜色是什么?
[空间理解]
问:这个房间可以容纳10个人吗?
[物体状态识别]
问:塑料水瓶是开着的吗?
[世界知识]
问:最近有学生在这里吗?
[物体定位]
问:我的未喝完的星巴克饮料在哪里?
下一篇:
南山区招商引资再结硕果 48个项目总投资额超1100亿元,热烈祝贺我会被授予南山区招商大使