具身智能(5):fast-foundationstereo双目深度模型

张开发
2026/4/13 20:09:27 15 分钟阅读

分享文章

具身智能(5):fast-foundationstereo双目深度模型
前言:Fast-FoundationStereo(CVPR 2026,NVIDIA)是实时、零样本泛化的双目立体匹配(深度估计)模型,核心是:保留 FoundationStereo 的强跨域泛化能力,但速度提升 10~24 倍,达到实时(≥30 FPS)。Fast-FoundationStereo = FoundationStereo 的实时压缩版。基础模型(FoundationStereo):零样本泛化强(不用微调、直接跑新场景),但太慢(百 ms / 帧),无法机器人 / 自动驾驶实时部署。传统实时模型:快,但泛化差,换场景必须重新微调。Fast-FoundationStereo:第一次做到:零样本强泛化 + 实时速度。三大加速技术(分而治之)知识蒸馏(Knowledge Distillation)把大模型(教师)的单目 + 双目先验,压缩到轻量 CNN 学生网络(如 EdgeNeXt)。

更多文章