Visual Room Rearrange

Weihs, Luca, et al. "Visual room rearrangement." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021. PDF

1. 概述

任务目标： 代理通过交互，将一个房间的初始配置重新排列为一个目标配置。

该论文为基于目标状态约束的对象重排布任务 ，该任务共包含两个阶段：

walkthrough：代理可以探索场景，并通过以自我为中心的感知，记录有关目标配置的信息。
unshuffle：代理必须与房间中的对象进行交互，以恢复在walkthrough阶段中观察到的目标配置。

任务流程为：

在walkthrough阶段，代理必须穿过房间并记录下它所看到的对象。获取到 $S^*$
之后删除代理，并将对象移动到虚线边界框所指示的位置。将场景变为 $S^o$
进入unshuffle阶段，将代理重新引入房间，通过与对象交互（移动或打开它们），使房间从 $S^o$ 恢复到 $S^*$

已有交互式具身AI的缺陷： 将环境假设为静态，即代理可以在环境中进行运动，但不能与环境中的对象产生交互

贡献点：

提出数据集RoomR
提出基线模型

2. 方法

模型概述。该模型同时用于walkthrough阶段和unshuffle阶段。这两个阶段的连接分别用蓝色和红色表示。虚线表示从上一个时间步长开始的连接。该模型的可训练参数、输入和输出以及中间特征分别用黄色、粉色和蓝色表示。

映射和图像比较： 该模型包括一个非参数映射模块。该模块保存代理在walkthrough阶段所看到的RGB图像，以及代理的姿势。在unshuffle阶段，代理首先查询在walkthrough阶段访问的所有姿态的度量映射，选择最接近代理当前姿态的作为目标姿态，然后检索walkthrough时，代理在该姿态下保存的图像。再使用注意机制，代理可以将检索到的图像与其当前的观察结果进行比较，以确定目标是哪些对象。

walkthrough阶段的隐式表示： 除了显式地存储在walkthrough阶段所看到的图像外，该论文还希望使代理能够在walkthrough阶段生成隐式表示。为此，在walkthrough阶段的每一个时间步长 $t$ ，将1层LSTM的输出传递给一个具有512个隐藏单元的1层GRU，以产生walkthrough编码 $w_t$ 。在unshuffle阶段，此walkthrough编码不再更新，只是简单地作为最后一个walkthrough步骤的编码。

3. 实验

3.1 评价指标

Success： 衡量重排布任务的成功率。如果 $S$ 和 $S^*$ 中的所有对象姿态都近似，则Success等于1，否则等于0。

% Fixed Strict： 衡量重排布任务结束后，恢复的错位对象比例。

Fixed Strict = 1 − \frac {|𝑀_{𝑒𝑛𝑑}|}{|𝑀_{𝑠𝑡𝑎𝑟𝑡}|}

其中 $𝑀_{𝑠𝑡𝑎𝑟𝑡} = \lbrace 𝑖|𝑠_𝑖^0 \not \approx 𝑠_𝑖^∗ \rbrace$ ，表示在重排布阶段开始时错位对象的集合。 $𝑀_{𝑒𝑛𝑑} = {𝑖|𝑠_𝑖 \not \approx 𝑠_𝑖^∗ }$ ，表示在重排布阶段结束时错位对象的集合。

% Energy Remaining： 衡量重排布任务结束后，场景状态与目标状态之间的相似性。

E = \frac{\sum^n_{i=1}\ D(s_i, s_i^*)}{\sum^n_{i=1}\ D(s^0_i , s^*_i)}

其中能量函数 $𝐷: 𝑆 × 𝑆 → [0,1]$ ,当两个状态接近时，能量函数递减到 0，若两个状态近似相等，则能量函数为 0。Energy Remaining 定义为重排布任务结束时剩余的能量除以重排布开始时的总能量。

Changed： 衡量重排布任务结束后，被代理更改状态的对象数量。

这个度量的大或小不一定代表代理任务执行的“更好”（不移动对象和随机移动许多对象都是糟糕的策略）。

3.2 数据集

RoomR数据集利用了AI2-THOR中的120个房间，并包含了6000个不同的重排。

在整个数据集中，有1895个可选择的对象实例和1262个可打开的不可选择的对象实例（平均每个房间分别为15.7个和10.5个）。

物体在其初始位置和目标位置之间的距离分布（水平和垂直）。它说明了问题的复杂性，即代理必须移动相对较远的距离才能恢复目标配置。

物体组在每个房间内的分布及其大小，位置可变化的对象明显小于开放性变化的对象。

3.3 实验内容

对两个难度类别的重排布任务进行了对比实验，评估了实验性能并得到了实验结果

4. 总结

具身AI在与场景的交互上还存在较大的缺陷，作为具身AI重点任务的场景重排布任务，还有比较大的进展空间。

可以通过更新的强化学习方法来进一步提高具身AI的能力

目录