2023-03-23
场景重排布
00
请注意,本文编写于 545 天前,最后修改于 545 天前,其中某些信息可能已经过时。

目录

1. 概述
2. 方法
3. 实验
3.1 评价指标
3.2 数据集
3.3 实验内容
4. 总结

Weihs, Luca, et al. "Visual room rearrangement." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021. PDF

1. 概述

任务目标: 代理通过交互,将一个房间的初始配置重新排列为一个目标配置。

该论文为基于目标状态约束的对象重排布任务 ,该任务共包含两个阶段:

  • walkthrough:代理可以探索场景,并通过以自我为中心的感知,记录有关目标配置的信息。
  • unshuffle:代理必须与房间中的对象进行交互,以恢复在walkthrough阶段中观察到的目标配置。

任务流程为:

  • 在walkthrough阶段,代理必须穿过房间并记录下它所看到的对象。获取到SS^*
  • 之后删除代理,并将对象移动到虚线边界框所指示的位置。将场景变为SoS^o
  • 进入unshuffle阶段,将代理重新引入房间,通过与对象交互(移动或打开它们),使房间从SoS^o恢复到SS^*

image-20230323111156139

已有交互式具身AI的缺陷: 将环境假设为静态,即代理可以在环境中进行运动,但不能与环境中的对象产生交互

贡献点:

  • 提出数据集RoomR
  • 提出基线模型

2. 方法

image-20230323120103568

模型概述。该模型同时用于walkthrough阶段和unshuffle阶段。这两个阶段的连接分别用蓝色和红色表示。虚线表示从上一个时间步长开始的连接。该模型的可训练参数、输入和输出以及中间特征分别用黄色、粉色和蓝色表示。

映射和图像比较: 该模型包括一个非参数映射模块。该模块保存代理在walkthrough阶段所看到的RGB图像,以及代理的姿势。在unshuffle阶段,代理首先查询在walkthrough阶段访问的所有姿态的度量映射,选择最接近代理当前姿态的作为目标姿态,然后检索walkthrough时,代理在该姿态下保存的图像。再使用注意机制,代理可以将检索到的图像与其当前的观察结果进行比较,以确定目标是哪些对象。

walkthrough阶段的隐式表示: 除了显式地存储在walkthrough阶段所看到的图像外,该论文还希望使代理能够在walkthrough阶段生成隐式表示。为此,在walkthrough阶段的每一个时间步长tt,将1层LSTM的输出传递给一个具有512个隐藏单元的1层GRU,以产生walkthrough编码wtw_t。在unshuffle阶段,此walkthrough编码不再更新,只是简单地作为最后一个walkthrough步骤的编码。

3. 实验

3.1 评价指标

Success: 衡量重排布任务的成功率。如果SSSS^*中的所有对象姿态都近似,则Success等于1,否则等于0。

% Fixed Strict: 衡量重排布任务结束后,恢复的错位对象比例。

FixedStrict=1𝑀𝑒𝑛𝑑𝑀𝑠𝑡𝑎𝑟𝑡Fixed Strict = 1 − \frac {|𝑀_{𝑒𝑛𝑑}|}{|𝑀_{𝑠𝑡𝑎𝑟𝑡}|}

其中𝑀𝑠𝑡𝑎𝑟𝑡={𝑖𝑠𝑖0≉𝑠𝑖}𝑀_{𝑠𝑡𝑎𝑟𝑡} = \lbrace 𝑖|𝑠_𝑖^0 \not \approx 𝑠_𝑖^∗ \rbrace,表示在重排布阶段开始时错位对象的集合。𝑀𝑒𝑛𝑑=𝑖𝑠𝑖≉𝑠𝑖𝑀_{𝑒𝑛𝑑} = {𝑖|𝑠_𝑖 \not \approx 𝑠_𝑖^∗ },表示在重排布阶段结束时错位对象的集合。

% Energy Remaining: 衡量重排布任务结束后,场景状态与目标状态之间的相似性。

E=i=1n D(si,si)i=1n D(si0,si)E = \frac{\sum^n_{i=1}\ D(s_i, s_i^*)}{\sum^n_{i=1}\ D(s^0_i , s^*_i)}

其中能量函数𝐷:𝑆×𝑆[0,1]𝐷: 𝑆 × 𝑆 → [0,1],当两个状态接近时,能量函数递减到 0,若两个状态近似相等,则能量函数为 0。Energy Remaining 定义为重排布任务结束时剩余的能量除以重排布开始时的总能量。

Changed: 衡量重排布任务结束后,被代理更改状态的对象数量。

这个度量的大或小不一定代表代理任务执行的“更好”(不移动对象和随机移动许多对象都是糟糕的策略)。

3.2 数据集

RoomR数据集利用了AI2-THOR中的120个房间,并包含了6000个不同的重排。

在整个数据集中,有1895个可选择的对象实例和1262个可打开的不可选择的对象实例(平均每个房间分别为15.7个和10.5个)。

image-20230323115815147

物体在其初始位置和目标位置之间的距离分布(水平和垂直)。它说明了问题的复杂性,即代理必须移动相对较远的距离才能恢复目标配置。

image-20230323115828402

物体组在每个房间内的分布及其大小,位置可变化的对象明显小于开放性变化的对象。

3.3 实验内容

image-20230323123441846

对两个难度类别的重排布任务进行了对比实验,评估了实验性能并得到了实验结果

4. 总结

具身AI在与场景的交互上还存在较大的缺陷,作为具身AI重点任务的场景重排布任务,还有比较大的进展空间。

可以通过更新的强化学习方法来进一步提高具身AI的能力

本文作者:southyang

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!