Distracted Robot: How Visual Clutter Undermine Robotic Manipulation文章概括ABSTRACTI. INTRODUCTIONII. RELATED WORKSIII. EVALUATION PROTOCOLA. Problem formulationB. Clutter measureC. Scenario GenerationIV. EXPERIMENTSA. Experimental SetupB. Evaluation in Simulated WorldC. 真实世界中的评估V. DOES DATA HELP WITH CLUTTER SCENES?VI. CONCLUSION文章概括引用article{rasouli2025distracted,title{Distracted Robot: How Visual Clutter Undermine Robotic Manipulation},author{Rasouli, Amir and Alban, Montgomery and Pakdamansavoji, Sajjad and Li, Zhiyuan and Zhang, Zhanguang and Wu, Aaron and Zhao, Xuan},journal{arXiv preprint arXiv:2511.22780},year{2025}}Rasouli, A., Alban, M., Pakdamansavoji, S., Li, Z., Zhang, Z., Wu, A. and Zhao, X., 2025. Distracted Robot: How Visual Clutter Undermine Robotic Manipulation. arXiv preprint arXiv:2511.22780.主页原文代码、数据和视频系列文章请在《 《《文章》 》》专栏中查找宇宙声明引用解析部分属于自我理解补充如有错误可以评论讨论然后改正ABSTRACT在这项工作中我们提出了一套评估协议用于检验机器人操作策略在杂乱场景中的性能。与以往工作不同我们从心理物理学的视角开展评估因此我们采用了一种统一的杂乱度量方法该方法同时考虑了环境因素以及干扰物的数量、特征和排列方式。利用这一度量我们在高拟真仿真环境和真实世界中系统地构建了评估场景并对操作策略尤其是视觉-语言-动作VLA模型开展了大规模实验。我们的实验突出表明场景杂乱会产生显著影响最多可使这些策略的性能下降34%同时实验还表明尽管不同VLA策略在各项任务上的平均表现相近但它们各自存在独特的脆弱性并且在什么样的场景能够成功这一点上一致性相对较低。我们进一步表明我们提出的杂乱度量是性能退化的有效指标并从干扰物的数量及其遮挡影响两个方面分析了干扰物带来的作用。最后我们表明在增强后的数据上进行微调虽然有效但并不能同等程度地弥补杂乱对性能造成的所有负面影响。I. INTRODUCTION机器人在现实世界中部署的关键要求之一是对杂乱环境以及环境特征变化具有鲁棒性。以往研究表明由干扰物造成的杂乱会对机器人策略的性能产生不利影响其中干扰物是指那些对完成任务没有任何作用的非目标物体[1]–[4]。场景中的干扰物可能会由于遮挡导致的部分可观测性而引起感知错误也可能由于语义相似性或视觉相似性而造成目标混淆或者导致与任务建立错误关联亦或造成阻碍见图1。图1一个典型的操作场景在该场景中机器人被要求取回一个物体例如一个苹果。 绿色轨迹表示预期的行为黑色轨迹表示实际执行的行为。 场景中的干扰物可能会导致目标混淆例如把橙子误认为目标同时还可能引发碰撞和抓取失败。鉴于环境上下文对机器人策略成功与否具有重要影响设计有效的评估协议以系统地识别这些策略在不同环境条件下的局限性显得至关重要。 现有的大多数评估协议主要关注机器人技能的类型、目标物体的选择以及在不同输入条件下的推理能力类型[5]–[7]。 这些工作并未专门研究干扰物的影响而且它们在场景上下文多样化方面——例如不同干扰物的存在及其排列方式——往往不足并且通常是在未明确说明标准的情况下任意设置的。 这些评估主要关注任务完成的成功率[8], [9]、效率[10], [11]或者策略对环境进行推理的能力[12], [13]。 最近的一项研究[1]考察了环境杂乱的影响考虑了干扰物、目标特征、光照、相机位姿以及背景纹理等因素的作用。 作者表明这些因素中的每一个都会影响操作策略。 然而这项研究存在两个不足之处。 干扰物被视为单一因素因此其属性、数量或在场景中的排列方式对策略性能的影响无法被量化。 此外那些导致杂乱的环境因素是被孤立地加以考虑的因此它们的叠加效应被忽略了。 例如相机位姿或光照的影响会随着物体类型或尺寸的不同而发生变化。为了解决这些局限性我们提出了一种用于多样化场景上下文中机器人操作策略的新型评估协议。 我们从心理物理学的视角来处理这一问题并利用一种统一的杂乱度量[14]来表征包含多种类型干扰物的实验场景。我们设计了包含多样干扰物且数量不同的场景并引入部分遮挡同时保证目标物体是可达的而不需要为了接触目标而重新布置场景。我们在一个高拟真模拟器SIMPLER[15]以及真实世界环境中开展了大规模评估部署了5种最先进的视觉-语言-动作VLA操作策略来执行多种操作任务。 我们对这些策略的性能进行了深入分析以突出杂乱的影响识别各策略的优势与弱点并衡量它们之间的差异。 我们展示了如何将我们的杂乱度量用作预期性能的指标并进一步细致分析了干扰物的一些单独影响。 最后我们通过在真实世界的干扰数据上对一个VLA策略进行微调考察训练数据增强策略以确定它在多大程度上能够降低视觉杂乱带来的负面影响。II. RELATED WORKS第一部分Distractors in visual scene understanding.视觉场景理解中的干扰物。 在视觉领域的文献中干扰物被定义为那些无助于完成任务目标的刺激即它们不具有任何功能性作用却会增加任务复杂度[16]。 干扰物具有多种形式这取决于它们的显著性、外观以及与目标的相似性。 关于干扰物影响的相关文献十分丰富。 大量心理学研究考察了不同类型干扰物在视觉搜索中的影响[17], [18]而用于抑制其影响的注意机制也已被广泛研究[19], [20]。 在计算机视觉领域人们已经提出了一些方法来缓解干扰物带来的问题例如目标检测中的类别混淆[21], [22]、由于相似性导致的目标与干扰物混淆[23]以及目标跟踪中的遮挡问题[24]。第二部分In robotics, distractors have also been shown to influence performance.在机器人领域干扰物同样已被证明会影响系统性能。 例如基于近期一个基准[4]的自动驾驶研究表明对干扰物进行扰动这里称为无关体或非因果体会显著削弱模型的预测性能而为了对抗这种影响应采用因果学习范式[25], [26]。 显著性较强的干扰物也被证明会对目标搜索产生负面影响[27]–[29]并导致定位与导航中的不准确[3]。 在机器人操作任务中杂乱环境中的干扰物已被证明会影响机器人的识别能力并给目标的抓取与操作带来挑战[30]–[36]。 在某些情况下干扰物还会在特定情境下对动作生成产生叠加效应。 例如在一项小规模研究中[37]的作者表明将干扰物替换为颜色不同但相似的物体或替换为其他不同物体会在多种操作任务中显著降低策略成功率降幅最高可达50%。第三部分Robot simulators.机器人模拟器。 得益于机器人仿真引擎的发展在模拟世界中对策略开展大规模评估已经变得非常普遍[6], [13], [38], [39]。 这些模拟器使得人们能够评估更复杂的任务例如食物准备[10]和家具装配[40]协作任务如检查与交接[41]以及那些需要有效空间推理的任务[5]。 为了尽量缩小仿真到现实之间的差距SIMPLER[15]提供了混合式仿真场景其中背景场景由真实数据构建而物体和机器人手臂则通过后处理加入逼真的纹理。 通过比较最先进操作策略在真实场景及其对应仿真场景中的表现作者表明机器人在这两种环境中的性能具有很高的相关性。 因此我们在SIMPLER环境中构建了我们的仿真评估。第四部分Evaluations protocols for robotic manipulation.机器人操作的评估协议。大多数机器人操作基准主要关注在一些通常以未明确说明方式设计和布置的场景中测量成功率。在[8], [9]这类工作中干扰物被引入环境中但其排列方式、类型或影响并未被明确说明。有些工作关注干扰物排列方式的影响以及这些干扰物是相似的[42]还是彼此不同的[43], [44]。在 shelving challenge[45] 中研究者在取物箱中加入了干扰物非目标物体如果机器人抓取了干扰物而不是目标物体则会受到惩罚。[46]的作者关注背景物体的排列方式将它们布置为分散、规则排列与边缘对齐或堆叠的配置但并未说明采用这种策略背后的动机。最近的一项工作[1]分析了环境因素、干扰物、目标特征、光照、相机位姿以及背景纹理对操作策略的影响并得出结论这些因素各自都会造成不同程度的负面影响。然而这项研究并没有从干扰物的属性、数量或其在场景中的排列方式等角度对其进行刻画因此它们对策略性能的影响无法被量化。此外那些导致杂乱的因素是被孤立考虑的因此它们的叠加效应仍然未知。这些因素并不是彼此独立的因为例如光照条件的影响会因物体外观不同而不同而相机位姿的影响也会随着物体大小和排列方式的不同而变化。在这项工作中我们从心理物理学视角提出了一种新的评估方法。我们采用一种统一的杂乱度量它既能够刻画干扰物的特征和排列方式也能够反映环境条件。我们系统地生成各种场景以量化杂乱的影响并识别操作策略的优势与脆弱点。III. EVALUATION PROTOCOLA. Problem formulation机器人技能。我们研究的是机器人操作问题其目标是在给定视觉观测和语言指令的情况下学习生成动作。 机器人的动作采用三维空间中具有6自由度的夹爪位姿形式。在任务设置上我们考虑机器人的核心技能并采用[15]中的默认任务即抓取提起物体、将一个物体移动到另一个物体旁边、堆叠物体以及将较小的物体放到另一个较大的物体上。 在这些任务中机器人需要在干扰物中准确检测目标接近并抓取目标且这一过程可能发生在受限环境中随后还需要在避免碰撞的同时将目标提起、移动并放置到目标位置。 其他任务如推动、拉动、抛掷等也可能会受到干扰物的负面影响。 我们推测如果杂乱会影响所选取的这些核心能力那么进一步地它也会影响其他任务。任务。如前所述我们的目标是考察视觉杂乱对机器人操作任务的影响。 为了实现这一目标需要考虑若干因素[47]包括物体数量集合大小、干扰物与目标物体的相似性、它们的排列方式是整齐对齐还是随机放置以及背景纹理、光照等环境因素。 每个因素之下还包含若干需要考虑的子因素。 例如物体相似性可以体现在几何形状或颜色方面。 密集摆放会由于减少可供操作的空间而限制机器人的操作范围也可能造成视觉遮挡从而影响目标的可检测性。 此外还存在一种应当被纳入考虑的交互效应。 例如一个高物体若放在一个矮目标物体旁边可能会显著限制目标的可达性而如果它们之间间隔足够大则不会出现这种情况。 对所有这些因素进行系统排列组合以生成一套完整场景在实践中是不可行的甚至可以说是不可能的。 因此我们从心理物理学的视角来处理这个问题并以整体性的方式看待杂乱。 我们使用杂乱程度作为由干扰物引起的场景复杂度度量并固定其他环境因素。B. Clutter measure我们的目标是定义一种能够表征评估场景的度量。 这将使我们能够量化不同程度的场景杂乱对策略性能的影响。 不同于以往将场景杂乱因素分别单独处理的工作[1]我们采用一种统一的度量来考虑不同场景元素的叠加效应并尽量减少评估中的因素偏置。视觉杂乱的测量方法有很多种而且通常与特定应用相关例如地图绘制[48]、目标可见性[49]或物体排列[50]。我们采用一种心理物理学度量即特征拥挤度量feature congestion measure, FCM[14]。它结合了场景在不同尺度下的颜色、对比度和方向信息的协方差因此能够有效刻画干扰物的数量、空间分布、与目标的相似性以及环境特征。 然而这一度量是为二维图像设计的无法解析操作复杂度也不能充分考虑被遮挡的物体。 为了解决这一问题我们提出了一种双视角方法将机器人视角和俯视视角下的度量结合起来。 通过这种方式我们既能够从策略视角测量视觉杂乱也能够测量动作的操作复杂度。 我们将这一度量称为双视角特征拥挤dual-view feature congestion, DvFC。 如图2中的定性示例所示向场景中引入更多样化的物体会提高杂乱水平相应地DvFC也会随之增加。 与真实场景相比合成场景通常具有更高的DvFC值因为其中物体摆放得更密集而且背景纹理也更丰富。C. Scenario Generation我们从SIMPLER中的基础场景进行采样从包含61个YCB物体[51]的干扰物集合中随机选取1–12个物体并将它们随机放置在机器人的操作空间内。在间距方面我们在物体之间设置最小δ δδ间隔以避免物体发生堆叠或堆积。目标周围的空间也会受到约束以尽量减小对抓取可供性的影响。最后对于每一个生成的场景我们都会计算其DvFC值。Scenario sampling. 场景采样。为了确保场景中的动作是可执行的我们首先丢弃所有这样的场景其中目标物体在视觉上被严重遮挡超过50%或者不具备抓取可供性。 然后我们根据剩余场景的DvFC分数将其划分到N NN个分箱中并从这些分箱中进行均匀采样。IV. EXPERIMENTS我们追求两个关键目标测量干扰物对策略性能的影响以及观察不同策略在处理具有挑战性的场景时的差异。 更具体地说我们试图回答以下问题1干扰物会如何影响操作策略的成功率2不同策略在杂乱场景中的表现是否相似3场景杂乱度量是否是策略性能的一个良好估计指标4最终形成的场景杂乱中哪些方面对性能的影响最大A. Experimental SetupScenarios. 场景。我们采用SIMPLER默认类别中的以下六种技能分别是 Move near、Stack cube、Pick coke以及来自 Bridge 抓取与放置任务中的3项任务即 Put spoon、Put eggplant 和 Put carrot更多细节见[15]。 在每个场景中我们系统地向环境中加入从61个YCB物体[51]中随机采样得到的干扰物。 那些会使指令产生歧义的干扰物会从干扰物候选集中被移除。 每个干扰物在桌面上的放置位置都是随机的但会受到两个约束条件限制以确保目标能够被抓取。 第一我们设置干扰物与目标之间的距离阈值以确保目标与附近物体之间保持分离。 第二我们设置了一个条件将目标在视觉上的遮挡程度从机器人的默认视角来看限制在最多50%。 总共我们生成了6000个场景。Models. 模型。我们遵循SIMPLER的设置评估了五种最先进的视觉-语言-动作VLA模型包括 Octo[52]在 Bridge 数据集[53]上训练、OpenVLA[54]在 Fractal 数据集[55]上训练以及 CogACT[56]、π0[57] 和 SpatialVLA[58]后面这三种模型是在 Bridge 和 Fractal 两个数据集[53], [55]上共同训练的。 需要注意的是由于 Octo 和 OpenVLA 只在这两个数据集中的一个上进行了训练因此我们仅在其对应的数据集任务集合上报告它们的结果作为参考而主要评估则使用另外三种策略。Metrics. 评价指标我们遵循通用协议并将成功率SR作为主要评价指标[15], [38], [39]。 SR 被定义为完成任务的比例即使过程中发生了碰撞也仍然计为完成。 我们还考虑严格成功率 hard SRh-SR它衡量的是在没有任何碰撞情况下成功完成任务的比例。 此外我们还报告碰撞率CR其定义为发生碰撞的场景所占的百分比。 我们将与任何干扰物发生接触都视为一次碰撞。 在失败分析中我们还报告抓取失败率GFR即机器人未能抓住目标的场景所占的百分比。 最后我们还考虑效率率ER它根据机器人完成任务所需的步数来定义并用该步数除以该场景允许的总步数进行归一化。 我们的初步观察是杂乱环境可能会造成视觉混淆使机器人在抓取目标之前先去接近错误的物体因此完成任务所需的步数可能会增加。B. Evaluation in Simulated World干扰物会显著削弱操作策略的性能。我们首先通过对所有新生成场景中的表现取平均来评估这些策略。 在这里除了总体结果之外我们还报告了目标存在视觉遮挡和不存在视觉遮挡两类场景下的成功率。 需要注意的是Octo 和 OpenVLA 是在数据的一个子集上训练的并且只在这些子集对应的任务上进行评估因此它们仅作为参考包含在结果中。如表 I 所示通过加入干扰物来增加场景杂乱度会显著降低所有策略的性能。 总体来看π 0 π0π0和 CogACT 的成功程度更高在SR上大约达到50%。 在存在视觉遮挡的场景中成功率显著更低这表明目标混淆和碰撞很可能是其中的重要原因。 另一个值得注意的现象是不同策略的效率差异也非常明显。 虽然 SpatialVLA 和 CogACT 取得了最高的效率但相比之下π 0 π0π0的效率低了10%尽管它的SR只比 CogACT 低1%。较高的CR值表明这些策略缺乏有效的避障机制。 一个例外是 SpatialVLA与次优模型π 0 π0π0相比它的碰撞率低了16%。 这一点同样体现在h-SR指标上尽管它们在SR上的差距更大但 SpatialVLA 与另外两种策略之间在h-SR上的差距要小得多。 这可能归因于 SpatialVLA 针对更好的环境空间理解进行了优化。 在GFR方面π 0 π0π0明显更突出相较于那些在所有场景上评估的模型而言这表明该策略对抓取可供性的估计具有较强鲁棒性。不同策略受到干扰物影响的方式并不相同。如图3中的分任务表现所示所有模型在最简单的任务 Pick coke 上都取得了最佳表现因为该任务只涉及提起目标物体但它们在其他任务上的表现则有所不同。 SpatialVLA 和 CogACT 在 Move 任务上表现更好而π 0 π0π0在 Stack 任务以及三个 Put 任务中的两个任务上表现更好。 总体而言与另外两种策略相比π 0 π0π0展现出了更为均衡的表现。尽管这些策略在分任务表现上存在显著重叠但它们并不一定会在相同的场景中取得成功。 根据图4CogACT 与π 0 π0π0共享的成功场景仅约占45%尽管两者的平均SR相近。 每一种策略也都会在一大部分另外两种策略失败的场景中取得成功。 这表明尽管这些策略具有相似的架构并且在相似的数据上进行训练它们的性能仍然具有互补性。 事实上将这些策略结合起来时它们在所有新场景上的SR大约可以达到67%。除了在成功场景上的差异之外这些策略在失败方式上也存在差异。 我们通过考虑以下3个操作阶段来说明这一点未能到达目标Fail to reach target——表示夹爪是否到达了目标物体未能抓取Fail to grasp——指无法抓住目标抓取后失败Fail after grasp——指在完成抓取动作之后发生的失败。 需要注意的是这些失败类型不会被重复计数。例如未能到达目标不会再被计入未能抓取或抓取后失败之中。失败情况的汇总如图5所示。 这里展示了每种策略在每一类错误上的失败百分比。 再次可以看到不同策略之间存在明显差异。 例如CogACT 通常在到达正确目标物体方面更成功但在抓取环节上相对落后而π 0 π0π0通常更擅长抓住目标但在完成整个任务方面表现较差。根据图5中的定性示例这些失败类型的成因各不相同。 例如在“未能到达目标”的情形中除了碰撞之外由于视觉混淆而抓取错误物体干扰物的现象非常常见。 例如在左下和中间的场景中机器人抓起了螺丝刀而不是勺子或者在右上样本中机器人抓起了午餐肉罐头 Spam其形状近似长方体且为蓝色而不是 7UP其形状为圆柱形且为绿色。 在另外一些场景中上中机器人只是从目标一个7UP罐上方经过却没有去接近它或者在没有明显原因的情况下反复抓取并释放百事可乐罐左上却没有将其提起。为了进一步研究这些策略之间的差异我们对“未能到达目标”这一类失败进行了细分并将结果汇总在图6中。 这里我们考虑的是在失败发生之前末端执行器与目标之间达到过的最近距离。 如图所示CogACT 通常在接近目标方面更成功因为其对应的数据点更多地集中在靠近目标位置的区域。 然而π 0 π0π0的失败点分布更为分散并且延伸到了距离目标0.5m以外的位置。 这表明该策略更容易受到目标混淆和物体误识别的影响。杂乱度量是预测策略预期性能的一个强有力指标。我们将场景的DvFC值划分为8个区间并计算各策略在每个区间中的成功率。 如图7a所示随着DvFC值的增加性能总体上呈下降趋势不过不同策略的变化速率并不相同。 CogACT 和π 0 π0π0的性能在开始阶段先下降随后在中等DvFC值范围内以小幅波动的形式趋于稳定最后在高DvFC值处进一步下降。 另一方面SpatialVLA 的性能在一开始便快速下降并在中途达到最低SR。 这意味着与其他策略相比SpatialVLA 受到杂乱的影响更为显著。 总体而言π 0 π0π0在较高杂乱水平下表现出更强的稳定性。这种差异在错误率上也同样明显。 如图7a所示尽管π 0 π0π0和 CogACT 的碰撞率较高SpatialVLA 却表现出更稳定的表现这与它更优的平均CR是一致的。 然而抓取失败率GFR的变化幅度要大得多。 总体来看π 0 π0π0表现更好因为它的GFR上升较为缓慢在不同杂乱水平下仅增加了10%而其他策略的退化幅度则超过20%。 SpatialVLA 在最后阶段GFR的下降可能是由于该策略在高度杂乱场景中的整体成功率本来就较低所导致的。干扰物和杂乱的不同方面会带来不同的负面影响。尽管所有策略都表现出性能下降的趋势见图7a但在较高DvFC值处仍然存在一些不规则现象。 这是因为在一个杂乱场景中同时起作用的因素有很多包括拥挤程度、干扰物属性如形状、颜色、大小、集合大小、视觉遮挡等。 为了考察这些因素的影响我们进一步按照其中两个因素对场景进行分组即集合大小也就是干扰物的数量和视觉遮挡。 根据图7b可以看出向场景中加入干扰物会对整体性能产生负面影响不过在干扰物数量超过5个之后所有策略的性能都趋于稳定。 在目标视觉遮挡的情况下如图7c所示我们观察到一种非常不同的趋势。 所有策略在初始阶段的性能下降都非常剧烈随后在大约20%的遮挡水平处趋于稳定。 不过下降的速率各不相同。 例如与 CogACT 相比π 0 π0π0在开始阶段受到的影响更大但它最终稳定在一个更高的SR值上这表明该模型对视觉遮挡更为鲁棒。 在主要比较的这些策略中SpatialVLA 是最脆弱的在最高遮挡水平下其SR下降到了0%。C. 真实世界中的评估我们通过在真实世界中复现实验设置来验证我们的研究发现。 然而由于生成大量场景所需时间过于高昂我们转而采用更稀疏的干扰物采样方式。 更具体地说我们考虑了6种变化情况分别包含0、1、2、4、8和16个干扰物。 由于我们机器人的操作空间更大因此我们选择了更大的干扰物数量。 我们与仿真实验一样考虑四种核心技能即 pick、move、stack 和 put并为每一种设置创建9种变化形式总计216个场景。我们选择π 0 π0π0因为它在所有技能上展现出了更为均衡的表现。 我们使用为每一种技能收集的42个样本对该策略进行了微调。 在这些数据中我们只放置了目标物体而没有加入任何干扰物。 为简洁起见我们只报告该策略在所有任务上的总体成功率。 所有实验均使用 UR5e 机械臂完成。 与仿真实验类似我们根据场景的DvFC度量将其划分为8个区间。如图8所示随着杂乱水平的提高我们再次观察到性能呈下降趋势。 与仿真实验中观察到的情况一致见图7我们也可以看到一些小幅波动例如从第3个区间到第4个区间这可能是由于模型不确定性或造成杂乱的个别因素所致。 此外随着任务复杂度的增加杂乱带来的影响会进一步加剧。 图中展示了失败案例的定性样本。 与合成实验类似目标混淆现象依然十分普遍甚至在场景中只增加一个干扰物时也会发生。π 0 π0π0在真实世界中的失败情况见图9也表现出与合成结果相似的趋势。 当杂乱水平达到3时我们观察到CR和GFR都显著上升。 总体而言CR上升得更快而GFR虽然在初期有所上升但随后趋于稳定这印证了我们在仿真实验中的发现。V. DOES DATA HELP WITH CLUTTER SCENES?到目前为止我们已经表明由干扰物引起的杂乱会显著影响策略的性能。 针对这一问题可以有多种应对方式从通过架构改动进行显式场景推理到进行数据增强不一而足。 由于我们的研究重点是VLA因此我们采用后者的方法并考察数据在真实世界场景中的有效性。我们遵循自己的评估协议通过创建包含不同数量干扰物的场景来生成数据。 这些干扰物及其排列方式都经过随机化处理以使其不同于我们之前使用过的测试场景。 对于四种技能中的每一种除了基础样本之外我们还收集了45个包含干扰物的场景如前所述每个干扰物级别对应9种排列共5个干扰物级别。 利用这些新数据我们对基础π 0 π0π0模型进行了微调并在我们的测试场景上对该策略进行了评估。如图10所示在微调数据中加入干扰物样本会提高该策略对杂乱的鲁棒性。 然而这种提升并没有在所有指标上表现出一致性。 根据表 II尽管成功率提高了18%但其他指标的改善幅度较小例如GFR仅改善了6%。 可以预见的是更多的数据将有助于进一步提升性能。 然而仅仅把扩大数据规模作为唯一解决方案是值得商榷的因为即使在我们这种干扰物类型固定、环境受控的条件下收益也并不十分显著。VI. CONCLUSION在这项工作中我们从心理物理学的视角研究了视觉杂乱对机器人操作策略的影响。 我们在仿真和真实世界实验中的发现都表明杂乱会对性能产生显著的负面影响。 我们的分析表明仅仅对策略在所有场景中的成功情况取平均并不足以有效揭示这些策略的优点和缺点。 尽管这些策略的平均表现相近但它们具有互补的优势受环境因素影响的方式不同并且各自容易受到不同类型失败的影响。 我们表明视觉杂乱度量是预测策略性能的有效指标。 最后我们考察了数据增强在提升对杂乱鲁棒性方面所起的作用。 尽管观察到了性能提升但即使在我们这种变化受限的受控环境中各项指标上的增益也并不显著。 我们的研究表明除了扩大数据规模之外还需要在不同场景下对策略进行更好的分析与评估并研究其他处理杂乱问题的替代方法。