Highlight Papers

975 papers found • Page 20 of 20

Luigi Piccinelli, Yung-Hsu Yang, Christos Sakaridis et al.

Jiasen Lu, Christopher Clark, Sangho Lee et al.

Sunghwan Hong, Jaewoo Jung, Heeseong Shin et al.

Zhuoling Li, Xiaogang Xu, Ser-Nam Lim et al.

Eric Hedlin, Gopal Sharma, Shweta Mahajan et al.

Amine Ouasfi, Adnane Boukhayma

Shangchen Zhou, Peiqing Yang, Jianyi Wang et al.

Xiang Li, Qianli Shen, Kenji Kawaguchi

Diandian Guo, Deng-Ping Fan, Tongyu Lu et al.

Ziqi Huang, Yinan He, Jiashuo Yu et al.

Vikas Thamizharasan, Difan Liu, Shantanu Agarwal et al.

Jianyuan Wang, Nikita Karaev, Christian Rupprecht et al.

Shilong Ou, Zhe Xue, Yawen Li et al.

Matthew Kowal, Richard P. Wildes, Kosta Derpanis

Julie Tores, Lucile Sassatelli, Hui-Yin Wu et al.

Zetong Yang, Li Chen, Yanan Sun et al.

Chunlong Xia, Xinliang Wang, Feng Lv et al.

Jeong-gi Kwak, Erqun Dong, Yuhe Jin et al.

Fan Fei, Jiajun Tang, Ping Tan et al.

Liu, Wenguan Wang, Yi Yang

Bin Huang, Xin Wang, Hong Chen et al.

Xiaoxiao Long, Yuan-Chen Guo, Cheng Lin et al.

Xuanchi Ren, Jiahui Huang, Xiaohui Zeng et al.

Ziming Hong, Li Shen, Tongliang Liu

Ruoxi Zhu, Shusong Xu, Peiye Liu et al.

Highlight Papers

Conference

Paper Type

UniDepth: Universal Monocular Metric Depth Estimation

Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision Language Audio and Action

Unifying Correspondence Pose and NeRF for Generalized Pose-Free Novel View Synthesis

UniMODE: Unified Monocular 3D Object Detection

Unsupervised Keypoints from Pretrained Diffusion Models

Unsupervised Occupancy Learning from Sparse Point Cloud

Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World Video Super-Resolution

VA3: Virtually Assured Amplification Attack on Probabilistic Copyright Protection for Text-to-Image Generative Models

Vanishing-Point-Guided Video Semantic Segmentation of Driving Scenes

VBench: Comprehensive Benchmark Suite for Video Generative Models

VecFusion: Vector Font Generation with Diffusion

VGGSfM: Visual Geometry Grounded Deep Structure From Motion

View-Category Interactive Sharing Transformer for Incomplete Multi-View Multi-Label Learning

Visual Concept Connectome (VCC): Open World Concept Discovery and their Interlayer Connections in Deep Models

Visual Objectification in Films: Towards a New AI Task for Video Interpretation

Visual Point Cloud Forecasting enables Scalable Autonomous Driving

ViT-CoMer: Vision Transformer with Convolutional Multi-scale Feature Interaction for Dense Predictions

ViVid-1-to-3: Novel View Synthesis with Video Diffusion Models

VMINer: Versatile Multi-view Inverse Rendering with Near- and Far-field Light Sources

Volumetric Environment Representation for Vision-Language Navigation

VTimeLLM: Empower LLM to Grasp Video Moments

Wonder3D: Single Image to 3D using Cross-Domain Diffusion

XCube: Large-Scale 3D Generative Modeling using Sparse Voxel Hierarchies

Your Transferability Barrier is Fragile: Free-Lunch for Transferring the Non-Transferable Learning

Zero-Shot Structure-Preserving Diffusion Model for High Dynamic Range Tone Mapping