Research Alpha Leak - Rising Stars in Research

#1

DETRs Beat YOLOs on Real-time Object Detection

Yian Zhao, Wenyu Lv, Shangliang Xu et al.

CVPR 2024

2,424

citations

#2

InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks

Zhe Chen, Jiannan Wu, Wenhai Wang et al.

CVPR 2024

2,210

citations

#3

4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

Guanjun Wu, Taoran Yi, Jiemin Fang et al.

CVPR 2024

1,061

citations

#4

VBench: Comprehensive Benchmark Suite for Video Generative Models

Ziqi Huang, Yinan He, Jiashuo Yu et al.

CVPR 2024

996

citations

#5

MVBench: A Comprehensive Multi-modal Video Understanding Benchmark

Kunchang Li, Yali Wang, Yinan He et al.

CVPR 2024

864

citations

#6

LISA: Reasoning Segmentation via Large Language Model

Xin Lai, Zhuotao Tian, Yukang Chen et al.

CVPR 2024

721

citations

#7

Deformable 3D Gaussians for High-Fidelity Monocular Dynamic Scene Reconstruction

Ziyi Yang, Xinyu Gao, Wen Zhou et al.

CVPR 2024

686

citations

#8

VILA: On Pre-training for Visual Language Models

Ji Lin, Danny Yin, Wei Ping et al.

CVPR 2024

685

citations

#9

mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration

Qinghao Ye, Haiyang Xu, Jiabo Ye et al.

CVPR 2024

601

citations

#10

Scaffold-GS: Structured 3D Gaussians for View-Adaptive Rendering

Tao Lu, Mulin Yu, Linning Xu et al.

CVPR 2024

589

citations

#11

Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs

Shengbang Tong, Zhuang Liu, Yuexiang Zhai et al.

CVPR 2024

570

citations

#12

SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities

Boyuan Chen, Zhuo Xu, Sean Kirmani et al.

CVPR 2024

550

citations

#13

One-step Diffusion with Distribution Matching Distillation

Tianwei Yin, Michaël Gharbi, Richard Zhang et al.

CVPR 2024

543

citations

#14

pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction

David Charatan, Sizhe Lester Li, Andrea Tagliasacchi et al.

CVPR 2024

496

citations

#15

SplaTAM: Splat Track & Map 3D Gaussians for Dense RGB-D SLAM

Nikhil Keetha, Jay Karhade, Krishna Murthy Jatavallabhula et al.

CVPR 2024

477

citations

#16

MovieChat: From Dense Token to Sparse Memory for Long Video Understanding

Enxin Song, Wenhao Chai, Guanhong Wang et al.

CVPR 2024

457

citations

#17

Mitigating Object Hallucinations in Large Vision-Language Models through Visual Contrastive Decoding

Sicong Leng, Hang Zhang, Guanzheng Chen et al.

CVPR 2024

449

citations

#18

Generative Multimodal Models are In-Context Learners

Quan Sun, Yufeng Cui, Xiaosong Zhang et al.

CVPR 2024

422

citations

#19

FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects

Bowen Wen, Wei Yang, Jan Kautz et al.

CVPR 2024

412

citations

#20

Monkey: Image Resolution and Text Label Are Important Things for Large Multi-modal Models

Zhang Li, Biao Yang, Qiang Liu et al.

CVPR 2024

384

citations

CVPR

Top Papers in CVPR 2024

DETRs Beat YOLOs on Real-time Object Detection

InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks

4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

VBench: Comprehensive Benchmark Suite for Video Generative Models

MVBench: A Comprehensive Multi-modal Video Understanding Benchmark

LISA: Reasoning Segmentation via Large Language Model

Deformable 3D Gaussians for High-Fidelity Monocular Dynamic Scene Reconstruction

VILA: On Pre-training for Visual Language Models

mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration

Scaffold-GS: Structured 3D Gaussians for View-Adaptive Rendering

Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs

SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities

One-step Diffusion with Distribution Matching Distillation

pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction

SplaTAM: Splat Track & Map 3D Gaussians for Dense RGB-D SLAM

MovieChat: From Dense Token to Sparse Memory for Long Video Understanding

Mitigating Object Hallucinations in Large Vision-Language Models through Visual Contrastive Decoding

Generative Multimodal Models are In-Context Learners

FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects

Monkey: Image Resolution and Text Label Are Important Things for Large Multi-modal Models