CVPR是IEEE国际计算机视觉与模式识别会议 (IEEE/CVF Conference on Computer Vision and Pattern Recognition) 。它是计算机视觉和模式识别领域最重要的年度国际会议之一,被公认为该领域的顶级盛会,许多人甚至称其为计算机视觉界的“奥斯卡”。
获得CVPR 2025最佳学生论文的是《Neural Inverse Rendering from Propagating Light》(传播光线的神经逆向渲染),编辑包括Anagh Malik、Benjamin Attal、 Andrew Xie、 Matthew O’Toole、David B. Lindell,来自多伦多大学、Vector研究所与卡内基梅隆大学,其中第三编辑Andrew Xie为华人。
《MegaSaM: Accurate, Fast and Robust Structure and Motion from Casual Dynamic Videos》(MegaSaM:从动态视频中快速稳健地重建结构与运动),编辑包括Zhengqi Li、Richard Tucker、Forrester Cole、Qianqian Wang、Linyi Jin、Vickie Ye、Angjoo Kanazawa、Aleksander Holynski、Noah Snavely,来自GOOGLEDeepMind与加州大学伯克利分校和密歇根大学,其中第一编辑Zhengqi Li和共同编辑Qianqian Wang、Linyi Jin、Vickie Ye为华人。
来自GOOGLEDeepMind与加州大学伯克利分校、密歇根大学的团队提出了一种能够从动态场景的单目视频中快速、准确且稳定地估计相机参数和深度图的系统。传统运动恢复结构(Structure from Motion)和单目SLAM技术大多假设输入视频以静态场景为主且具有显著视差,当这些条件不满足时往往会产生错误估计。近期基于神经网络的方法尝试解决这些问题,但这些方法要么计算成本高昂,要么在相机运动不受控或视场未知的动态视频中表现脆弱。
《Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models》(Molmo与PixMo:先进视觉语言模型的开源权重与数据),有Matt Deitke、Christopher Clark、Sangho Lee、Rohun Tripathi、Yue Yang、Jae Sung Park、Mohammadreza Salehi、Niklas Muennighoff、Kyle Lo、Luca Soldaini等39名编辑,来自艾伦人工智能研究所与华盛顿大学,有Yue Yang等多名华人为共同编辑。
《3D Student Splatting and Scooping》(3D学生飞溅与挖掘技术),编辑包括Jialin Zhu、Jiangbei Yue、Feixiang He、He Wang,来自伦敦大学与伦敦大学AI中心、利兹大学,三名编辑全部为华人。
该团队提出了一个由灵活的学生t分布(Student’s t distributions)组成的新混合模型,该模型同时包含正密度(溅射)和负密度(舀取)。此模型被命名为“学生溅射与舀取”(Student Splatting and Scooping),简称SSS。通过在多个数据集、设置和指标上进行的详尽评估与比较,该团队证明了SSS在质量和参数效率方面均优于现有方法。例如,在使用相似数量组件的情况下,SSS能达到同等或更优的质量;并且在将组件数量减少高达82%的情况下,仍能获得可比较的结果。
3、全华人团队Mingyong Cheng, Sophia Sun, Han Zhang的《Learning to Move, Learning to Play, Learning to Animate(学习运动、学习游戏、学习动画)》,是跨学科多媒体表演作品,包含自主研发的拾得材料机器人、实时AI生成、动作追踪、音频空间化及基于生物反馈(bio-feedback)的音频合成技术。