Weihs, Luca, et al. "Visual room rearrangement." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021. PDF
任务目标: 代理通过交互,将一个房间的初始配置重新排列为一个目标配置。
该论文为基于目标状态约束的对象重排布任务 ,该任务共包含两个阶段:
任务流程为:
已有交互式具身AI的缺陷: 将环境假设为静态,即代理可以在环境中进行运动,但不能与环境中的对象产生交互
贡献点:
模型概述。该模型同时用于walkthrough阶段和unshuffle阶段。这两个阶段的连接分别用蓝色和红色表示。虚线表示从上一个时间步长开始的连接。该模型的可训练参数、输入和输出以及中间特征分别用黄色、粉色和蓝色表示。
映射和图像比较: 该模型包括一个非参数映射模块。该模块保存代理在walkthrough阶段所看到的RGB图像,以及代理的姿势。在unshuffle阶段,代理首先查询在walkthrough阶段访问的所有姿态的度量映射,选择最接近代理当前姿态的作为目标姿态,然后检索walkthrough时,代理在该姿态下保存的图像。再使用注意机制,代理可以将检索到的图像与其当前的观察结果进行比较,以确定目标是哪些对象。
walkthrough阶段的隐式表示: 除了显式地存储在walkthrough阶段所看到的图像外,该论文还希望使代理能够在walkthrough阶段生成隐式表示。为此,在walkthrough阶段的每一个时间步长,将1层LSTM的输出传递给一个具有512个隐藏单元的1层GRU,以产生walkthrough编码。在unshuffle阶段,此walkthrough编码不再更新,只是简单地作为最后一个walkthrough步骤的编码。
Success: 衡量重排布任务的成功率。如果和中的所有对象姿态都近似,则Success等于1,否则等于0。
% Fixed Strict: 衡量重排布任务结束后,恢复的错位对象比例。
其中,表示在重排布阶段开始时错位对象的集合。,表示在重排布阶段结束时错位对象的集合。
% Energy Remaining: 衡量重排布任务结束后,场景状态与目标状态之间的相似性。
其中能量函数,当两个状态接近时,能量函数递减到 0,若两个状态近似相等,则能量函数为 0。Energy Remaining 定义为重排布任务结束时剩余的能量除以重排布开始时的总能量。
Changed: 衡量重排布任务结束后,被代理更改状态的对象数量。
这个度量的大或小不一定代表代理任务执行的“更好”(不移动对象和随机移动许多对象都是糟糕的策略)。
RoomR数据集利用了AI2-THOR中的120个房间,并包含了6000个不同的重排。
在整个数据集中,有1895个可选择的对象实例和1262个可打开的不可选择的对象实例(平均每个房间分别为15.7个和10.5个)。
物体在其初始位置和目标位置之间的距离分布(水平和垂直)。它说明了问题的复杂性,即代理必须移动相对较远的距离才能恢复目标配置。
物体组在每个房间内的分布及其大小,位置可变化的对象明显小于开放性变化的对象。
对两个难度类别的重排布任务进行了对比实验,评估了实验性能并得到了实验结果
具身AI在与场景的交互上还存在较大的缺陷,作为具身AI重点任务的场景重排布任务,还有比较大的进展空间。
可以通过更新的强化学习方法来进一步提高具身AI的能力
本文作者:southyang
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!