KAIST研究团队破解AI视觉推理难题:让机器“脑补“不同角度的画面

张开发
2026/4/14 12:10:37 15 分钟阅读

分享文章

KAIST研究团队破解AI视觉推理难题:让机器“脑补“不同角度的画面
这项由韩国科学技术院(KAIST)领导的突破性研究发表于2026年计算机视觉与模式识别会议(CVPR)论文编号为arXiv:2604.02870v1。有兴趣深入了解的读者可以通过该编号查询完整论文。当你站在房间里看着桌子上的杯子在书的右边但如果你向右转45度会发生什么杯子还会在书的右边吗对于人类来说这种脑补不同角度画面的能力再自然不过但对于当今最先进的AI视觉模型来说这却是一个巨大的挑战。这个看似简单的问题实际上触及了人工智能领域的一个核心难题空间推理能力。就像一个从未离开过家乡的人很难想象其他城市的样子一样现有的多模态大语言模型虽然能够识别图像中的物体甚至能回答复杂的视觉问题但一旦需要从不同的视角去理解同一个场景时它们往往束手无策。KAIST的研究团队敏锐地观察到了这个问题。他们发现即使是那些在视觉推理任务中表现出色的AI模型当面临需要变换视角的任务时表现往往令人失望。这就像是给一个擅长描述照片的人蒙上眼睛让他想象从另一个角度看到的景象一样困难。研究团队没有选择传统的解决方案——直接对像素进行变形处理而是提出了一个颇具创新性的想法既然AI模型是通过图像标记来理解图片的那为什么不直接对这些标记进行变换呢这就像是重新排列积木而不是试图融化再重塑每一块积木。这种被称为标记变形的新方法核心思想是将AI理解图像的基本单元——图像标记通过几何变换的方式重新排列从而生成新视角下的场景表示。这种方法的优势在于它避免了像素级变形可能带来的失真和伪影同时保持了场景的语义连贯性。为了验证这个想法的有效性研究团队还构建了一个专门的测试基准ViewBench用于评估AI模型在视角变换任务中的表现。通过大量的实验他们证明了标记变形不仅在技术上可行而且在实际效果上显著优于传统方法。这项研究的意义不仅仅局限于学术层面。随着虚拟现实、增强现实和自动驾驶等技术的快速发展能够从不同视角理解场景的AI系统将变得越来越重要。从某种程度上说这项研究为AI获得更像人类的空间理解能力铺平了道路。一、传统方法的困境为什么像素变形行不通当我们谈到让AI理解不同视角时最直观的想法可能是对图像进行几何变换——就像用图像编辑软件拉伸、旋转图片一样。这种被称为像素级变形的方法在理论上听起来很合理但在实际应用中却问题重重。问题的根源在于深度信息的不准确性。计算机需要知道场景中每个点的距离信息才能正确地进行视角变换但现有的深度估计技术仍然存在误差。这些看似微小的误差在像素级变形过程中会被显著放大就像放大镜下的指纹原本细微的纹路变得扭曲不堪。更要命的是像素级变形往往会产生几何畸变。研究团队通过实验发现即使是很小的深度错误也会在变形后的图像中造成严重的视觉扭曲。原本平直的线条可能变得弯曲物体的形状可能发生改变这些畸变会严重干扰AI模型的理解能力。此外像素级变形还容易产生空洞和重叠。当从一个视角变换到另一个视角时有些区域可能会被拉伸得过大形成空白区域而有些区域可能会重叠在一起造成信息丢失。这就像是试图把一张照片贴到一个形状完全不同的表面上必然会出现褶皱和空隙。研究团队通过一个简单而有效的实验验证了这些问题。他们故意在图像标记获取过程中加入位置扰动模拟深度估计误差可能带来的影响。令人惊讶的是他们发现AI模型对这种标记级别的扰动具有很强的鲁棒性即使标记的位置偏移了相当大的距离模型仍然能够正确识别图像内容。这个发现为后续的研究奠定了重要基础。它表明与其在脆弱的像素层面进行变形不如在更加稳健的标记层面进行操作。这就像是与其试图修补一面破碎的镜子不如重新排列镜子的碎片让它们形成一个新的图案。二、图像标记AI理解视觉世界的基本单元要理解标记变形的工作原理我们首先需要了解现代AI模型是如何看图像的。与人类的视觉系统不同AI模型并不是一次性处理整张图片而是将图像切分成许多小块称为图像块或标记。这个过程就像是将一幅巨大的拼图拆分成许多小块。每个小块都包含了局部的视觉信息比如颜色、纹理、边缘等。AI模型通过分析这些小块以及它们之间的关系来理解整幅图像的内容。具体来说一张高分辨率的图像会被均匀地划分成固定大小的方形区域每个区域对应一个图像块。这些图像块然后被转换成数学向量称为图像标记。每个标记不仅包含了视觉信息还包含了位置信息——它知道自己在整幅图像中的位置。这种设计的巧妙之处在于每个标记都是一个相对独立的信息单元。它既包含了局部的视觉特征又保持了与整体结构的联系。这就像是一个乐高积木既有自己的形状和颜色又能与其他积木组合成更大的结构。研究团队意识到这些标记实际上为视角变换提供了一个理想的操作层次。与像素相比标记更加稳健和语义丰富。一个标记丢失或位置稍有偏移不会像像素级的错误那样造成严重的视觉畸变。更重要的是标记天然地编码了局部区域的语义信息。比如一个包含杯子把手的标记即使被移动到新的位置它仍然代表着杯子把手的概念。这种语义的稳定性使得标记变形能够在改变空间布局的同时保持内容的连贯性。为了验证这个假设研究团队设计了一系列巧妙的实验。他们故意扰动标记的位置让AI模型基于这些错位的标记进行推理。结果显示即使标记的位置偏移达到了相当大的幅度AI模型的性能下降仍然很小。这证明了标记级操作的鲁棒性远远优于像素级操作。这个发现为整个研究奠定了理论基础。它表明在标记层面进行视角变换不仅在技术上可行而且在理论上更加合理。三、前向变形与后向变形两种不同的思路在确定了标记变形的可行性之后研究团队面临着一个关键的技术选择如何实现这种变形他们探索了两种截然不同的方案前向变形和后向变形。前向变形的思路相对直观。它从源图像开始将每个标记按照几何变换公式投影到目标视角中。这就像是拿着一把弹弓将每个标记射向新视角中的相应位置。这种方法的优点是概念简单计算过程直观易懂。然而前向变形很快就暴露出了严重的问题。由于几何变换的特性原本在源图像中规整排列的标记在目标视角中可能会变得稀疏不均。有些区域可能聚集了过多的标记而有些区域可能完全没有标记覆盖形成空洞。这就像是用散弹枪射击弹丸的分布往往不够均匀。更糟糕的是这种不规则的标记分布对AI模型来说是一种超出分布的输入。现有的AI模型都是在规整、密集的标记网格上训练的当面对稀疏、不规则的标记排列时它们的性能会显著下降。认识到前向变形的局限性后研究团队转向了后向变形的方案。这种方法采用了完全相反的思路不是将源标记投影到目标位置而是从目标位置回溯找到对应的源标记。后向变形首先在目标视角中建立一个规整的标记网格然后为每个网格位置计算其在源图像中的对应位置最后从源图像中抓取相应的标记来填充目标网格。这就像是在目标位置放置一系列捕获器每个捕获器都伸出触手去源图像中抓取最合适的内容。这种方法的最大优势在于它天然地保证了目标视角中标记分布的规整性。无论源图像和目标视角之间的几何关系多么复杂后向变形都能确保目标视角中的标记网格保持密集和规整这正是AI模型所期望的输入格式。研究团队通过大量实验证实了后向变形的优越性。在所有测试场景中后向变形的表现都显著优于前向变形。这不仅体现在定量指标上更重要的是体现在生成结果的视觉质量和语义连贯性上。为了进一步优化后向变形的效果研究团队还探索了两种不同的标记获取策略最近邻获取和自适应获取。最近邻获取选择距离目标位置最近的已有标记而自适应获取则重新提取以目标位置为中心的图像块。实验结果表明这两种策略的性能相当但最近邻获取在计算效率上更有优势。四、构建测试基准ViewBench的诞生任何优秀的科学研究都需要严格的实验验证而要进行验证就必须有合适的测试基准。研究团队发现现有的测试数据集都无法很好地评估AI模型的视角变换能力因此他们决定构建一个全新的基准测试集——ViewBench。ViewBench的设计理念是模拟真实世界中需要视角变换的各种场景。研究团队从ScanNet数据集中选择了大量真实的室内场景这些场景都包含了丰富的深度信息和精确的相机位姿数据。基于这些场景他们构建了成千上万个源视角-目标视角的图像对。每个图像对都经过精心筛选确保源视角和目标视角之间有适度的重叠——既不能完全相同那就失去了测试意义也不能完全不同那就无法进行有意义的比较。研究团队根据重叠程度将测试样本分为三个难度等级5-15%重叠、15-25%重叠和25-35%重叠分别对应困难、中等和简单三种情况。ViewBench包含三个不同的子任务每个子任务都针对视角变换能力的不同方面。第一个子任务是基于文本标记的空间推理系统需要判断两个用字母标记的物体在目标视角中的左右关系。第二个子任务使用几何图形替代文字标记测试系统对抽象符号的空间推理能力。第三个子任务则要求系统描述目标视角中特定位置的物体这是对视角变换保真度的直接测试。为了确保测试的公平性和可靠性研究团队设计了严格的质量控制流程。他们首先使用真实的目标视角图像作为标准答案来验证问题的正确性只有在真实目标视角下能够正确回答的问题才被纳入测试集。此外他们还确保所有的测试问题都涉及在源视角和目标视角中都可见的区域避免了由于遮挡导致的不公平测试。ViewBench的另一个重要特点是其评估方式的多样性。对于空间推理任务使用准确率作为评估指标对于物体描述任务则使用大语言模型作为评估器对描述的准确性和完整性进行打分。这种多维度的评估方式能够更全面地反映系统的视角变换能力。五、实验验证标记变形的卓越表现理论再完美也需要实验来验证。研究团队在ViewBench上进行了大规模的比较实验将标记变形方法与各种基线方法进行了全面对比。这些基线方法包括传统的像素级变形、专门针对空间推理任务训练的特化模型以及基于生成式模型的新视角合成方法。实验结果令人印象深刻。在所有三个子任务中后向标记变形都取得了最佳性能。在最困难的5-15%重叠情况下标记变形在文本标记空间推理任务中达到了77.89%的准确率显著高于最强基线方法的70.35%。在几何图形推理任务中标记变形同样表现出色准确率达到了67.44%而最佳基线方法只有50.00%。更令人惊喜的是标记变形不仅在准确率上获得了提升在计算效率上也表现出了明显优势。与需要重新生成整幅图像的生成式方法相比标记变形只需要重新排列已有的标记计算开销要小得多。这使得它在实际应用中更具可行性。研究团队还进行了一系列深入的分析实验。他们发现标记变形的优势在不同的重叠程度下都能保持稳定这说明这种方法具有良好的泛化能力。同时他们还验证了标记变形在使用估计深度信息时仍然能够保持较好的性能这对实际应用来说非常重要。特别值得注意的是研究团队还设计了一个几何验证实验。他们构建了一个纯几何的基线方法该方法不依赖AI模型而是直接通过几何计算来确定空间关系。结果显示这个几何基线能够达到93%以上的准确率这证明了标记变形所依赖的几何变换过程是高度准确的。剩余的性能差距主要来自AI模型本身的感知和推理局限性而非几何变换的误差。研究团队还通过定性分析展示了标记变形的直观效果。在视觉上经过标记变形处理的结果明显比像素级变形更加自然和连贯。像素级变形往往会产生明显的视觉伪影比如扭曲的线条和模糊的边缘而标记变形则能够很好地保持物体的形状和纹理特征。六、技术细节标记变形的具体实现标记变形的成功不仅来自其创新的理念更来自其精巧的技术实现。研究团队在论文中详细描述了整个实现过程这些技术细节对于理解和复现这项工作至关重要。后向标记变形的核心是建立从目标视角到源视角的几何映射关系。这个过程首先需要构建一个三维几何代理。研究团队选择了一种轻量级的方法基于源图像的深度信息构建三角网格。具体来说他们将深度图中的每个像素点转换为三维空间中的点然后将相邻的点连接成三角形形成一个简化的三维场景表示。有了这个三维代理后后向映射就变成了一个光线投射问题。对于目标视角中的每个标记位置系统会从对应的相机位置发出一条光线计算这条光线与三维代理的交点然后将交点投影回源图像得到对应的源图像坐标。这种实现方式的巧妙之处在于其简洁性和高效性。相比于复杂的三维重建或神经辐射场方法这种基于三角网格的代理构建过程计算量很小但足以支持准确的几何变换。同时光线投射是一个高度并行化的操作可以很容易地在GPU上加速执行。在标记获取方面研究团队实现了两种策略。最近邻获取策略预先计算源图像的所有标记然后为每个目标位置选择距离最近的预计算标记。这种方法的优点是效率高因为源图像的标记只需要计算一次。自适应获取策略则更加精确。对于每个目标位置它都会基于映射得到的源图像坐标重新提取图像块并计算相应的标记。这种方法的计算开销稍大但能够提供更精确的标记内容。实验结果表明这两种策略的性能相当这再次证明了标记表示的鲁棒性。即使存在一定的位置误差AI模型仍然能够正确理解标记的语义内容。为了处理遮挡和视野范围变化的问题研究团队还实现了有效性检查机制。当光线投射无法找到有效交点时比如由于遮挡或超出源图像视野范围系统会将对应的目标标记标记为无效避免引入错误信息。七、深度估计的鲁棒性测试任何基于几何的方法都面临一个现实问题如何处理不准确的深度信息在实际应用中我们往往只能获得估计的深度信息而这些估计值不可避免地包含误差。为了验证标记变形方法的实用性研究团队进行了广泛的鲁棒性测试。他们使用了两个流行的单目深度估计模型Depth Anything v2和Depth Pro。这些模型代表了当前深度估计技术的先进水平但仍然存在一定的误差。研究团队用这些模型的输出替代了理想的真实深度值然后测试标记变形的性能变化。结果令人鼓舞。即使使用估计的深度信息后向标记变形仍然能够显著优于其他基线方法。在ViewBench的几何图形推理任务中使用Depth Anything v2估计深度时标记变形达到了65.84%的准确率而使用Depth Pro时达到了67.74%。虽然这些数字略低于使用真实深度时的70.99%但仍然远高于不进行任何视角变换的基线方法的31.48%。更重要的是标记变形相对于像素级变形的优势在使用估计深度时依然保持。这表明标记变形的鲁棒性优势不仅存在于理论上在实际应用条件下也能够体现出来。研究团队还测试了同时估计深度和相机位姿的更具挑战性的场景。他们使用VGGT和DUSt3R等方法从图像对中估计几何信息然后基于这些估计值进行标记变形。即使在这种更加困难的条件下标记变形仍然能够保持一定的性能优势。这些鲁棒性测试的结果证明了标记变形方法的实用价值。它不需要完美的几何信息就能发挥作用这为其在真实场景中的应用奠定了基础。八、极限测试处理大角度变换和遮挡为了全面评估标记变形的能力边界研究团队还进行了一系列极限测试。这些测试故意选择了更具挑战性的场景包括大角度视角变换和严重遮挡情况。在大角度变换测试中他们选择了重叠度仅为2-5%的图像对。这种情况下源视角和目标视角之间的差异非常大共同可见的区域极其有限。在如此困难的条件下后向标记变形仍然达到了65.08%的准确率使用真实深度和66.14%的准确率使用估计深度远高于无变换基线的34.39%。遮挡测试则使用了合成场景其中某个在源视角中可见的物体在目标视角中完全被遮挡。这种情况模拟了真实场景中常见的可见性变化问题。测试结果显示标记变形达到了46%的准确率仍然优于像素级变形的38%和基础模型的32%。虽然绝对性能有所下降但相对优势依然明显。这些极限测试的结果表明标记变形不仅在标准条件下表现优异在极端困难的条件下也能保持相对优势。这种稳健性对于实际应用来说非常宝贵。九、与专业模型的对比通用方法的胜利标记变形的另一个令人惊喜的发现是这种通用方法甚至能够超越专门为空间推理任务设计和训练的特化模型。研究团队将标记变形与多个专业的空间推理模型进行了对比包括SpatialReasoner、VLM-3R、ViLaSR等。这些特化模型都经过了专门的训练有些整合了先进的3D特征提取器有些使用了大量的空间推理训练数据。按理说它们应该在空间推理任务中表现更好。然而实验结果却出人意料。在ViewBench的所有子任务中后向标记变形都显著优于这些特化模型。这个结果的深层含义是正确的表示和变换方法可能比大量的专门训练更重要。标记变形通过显式的几何变换直接解决了视角变换问题而不是试图让模型学会处理视角变换。这种对比结果也揭示了当前AI研究中的一个重要趋势有时候精巧的方法设计比暴力的数据训练更加有效。标记变形没有改变底层的AI模型也没有进行任何专门的训练但通过巧妙的表示变换就实现了显著的性能提升。十、未来影响与应用前景这项研究的影响远远超出了学术论文本身。标记变形方法为AI的空间理解能力开辟了新的可能性其应用前景十分广阔。在虚拟现实和增强现实领域标记变形可以帮助AI系统更好地理解和响应用户的视角变化。当用户在虚拟环境中移动时AI可以实时预测不同位置的场景外观提供更加沉浸和流畅的体验。在自动驾驶领域这种技术可以增强车辆的环境感知能力。通过从当前视角推断其他角度的场景信息自动驾驶系统可以更好地理解复杂的交通状况做出更加安全的决策。在机器人学方面标记变形可以帮助机器人更好地进行空间导航和任务规划。机器人可以基于有限的观察来推断环境的整体布局从而更智能地执行各种任务。在内容创作领域这种技术可以为虚拟场景生成、电影制作和游戏开发提供新的工具。创作者可以基于少量的参考视角生成丰富的多角度内容大大提高创作效率。更重要的是标记变形展示了一种新的AI能力提升路径。它证明了通过精巧的表示设计和变换方法我们可以在不增加模型复杂度的情况下显著提升AI的性能。这种思路可能对其他AI任务也具有启发意义。当然这项研究也存在一些局限性。标记变形目前主要适用于小到中等程度的视角变换对于极大角度的变换效果有限。此外它依赖于深度信息的质量虽然对误差有一定的鲁棒性但在深度信息严重错误时性能会下降。尽管存在这些局限性标记变形仍然代表了AI空间推理能力的一个重要进步。它为构建更智能、更通用的AI系统提供了新的思路和工具。随着深度估计技术的不断进步和计算能力的提升我们有理由相信这种方法会在更多领域发挥重要作用。从某种意义上说这项研究让AI向拥有人类一样的空间想象力迈出了重要一步。虽然我们距离真正理解空间的AI还有很长的路要走但标记变形无疑为这个旅程指明了一个有希望的方向。正如研究团队所展示的有时候最优雅的解决方案不是让机器变得更复杂而是让它们以更聪明的方式使用已有的能力。QAQ1什么是标记变形技术A标记变形是一种让AI模型能够从不同角度理解同一场景的新技术。它不是直接变形像素而是重新排列AI理解图像的基本单元——图像标记就像重新排列积木一样。这种方法能避免像素变形带来的失真问题让AI更好地脑补不同视角下的画面。Q2ViewBench测试基准包含哪些任务AViewBench包含三个子任务来全面测试AI的视角变换能力。第一个是基于文本标记的空间推理让AI判断两个字母标记在新视角中的左右关系第二个使用几何图形替代文字进行推理第三个要求AI描述新视角中特定位置的物体。每个任务都按重叠度分为简单、中等、困难三个级别。Q3标记变形为什么比像素变形效果更好A标记变形优于像素变形主要有三个原因。首先图像标记比像素更稳健即使位置稍有偏移也不会严重影响AI理解其次标记天然编码了语义信息移动后仍保持内容意义最后标记变形能保持目标视角中信息分布的规整性符合AI模型的预期输入格式而像素变形容易产生空洞和畸变。

更多文章