Most Cited 2025 &quot;private estimators&quot; Papers

CVPR 2025arXiv:2505.02166

#5602

Object-Centric Prompt-Driven Vision-Language-Action Model for Robotic Manipulation

Xiaoqi Li, Lingyun Xu, Mingxu Zhang et al.

NEURIPS 2025spotlightarXiv:2505.17329

#5603

Transformer brain encoders explain human high-level visual responses

Hossein Adeli, Sun Minni, Nikolaus Kriegeskorte

CVPR 2025arXiv:2411.18711

#5604

Evaluating Vision-Language Models as Evaluators in Path Planning

Mohamed Aghzal, Xiang Yue, Erion Plaku et al.

NEURIPS 2025oralarXiv:2505.15287

#5605

GS2E: Gaussian Splatting is an Effective Data Generator for Event Stream Generation

Yuchen Li, Chaoran Feng, Zhenyu Tang et al.

ICCV 2025arXiv:2503.15557

#5606

Motion Synthesis with Sparse and Flexible Keyjoint Control

Inwoo Hwang, Jinseok Bae, Donggeun Lim et al.

CVPR 2025arXiv:2412.04317

#5607

FlashSloth : Lightning Multimodal Large Language Models via Embedded Visual Compression

Bo Tong, Bokai Lai, Yiyi Zhou et al.

#5608

Secret Lies in Color: Enhancing AI-Generated Images Detection with Color Distribution Analysis

Zexi Jia, Chuanwei Huang, Yeshuang Zhu et al.

NEURIPS 2025arXiv:2311.01104

#5609

On the Convergence of Projected Policy Gradient for Any Constant Step Sizes

Jiacai Liu, Wenye Li, Dachao Lin et al.

CVPR 2025arXiv:2410.11774

#5610

Fractal Calibration for Long-tailed Object Detection

Konstantinos Alexandridis, Ismail Elezi, Jiankang Deng et al.

CVPR 2025arXiv:2503.08421

#5611

Learning to Detect Objects from Multi-Agent LiDAR Scans without Manual Labels

Qiming Xia, Wenkai Lin, Haoen Xiang et al.

CVPR 2025arXiv:2412.06243

#5612

U-Know-DiffPAN: An Uncertainty-aware Knowledge Distillation Diffusion Framework with Details Enhancement for PAN-Sharpening

Sungpyo Kim, Jeonghyeok Do, Jaehyup Lee et al.

CVPR 2025arXiv:2505.11934

#5613

iSegMan: Interactive Segment-and-Manipulate 3D Gaussians

Yian Zhao, Wanshi Xu, Ruochong Zheng et al.

CVPR 2025arXiv:2411.11361

#5614

Scalable Autoregressive Monocular Depth Estimation

Jinhong Wang, Jintai Chen, Jian liu et al.

ICCV 2025arXiv:2508.08237

#5615

VGGSounder: Audio-Visual Evaluations for Foundation Models

Daniil Zverev, Thaddäus Wiedemer, Ameya Prabhu et al.

CVPR 2025arXiv:2503.18074

#5616

WISE: A Framework for Gigapixel Whole-Slide-Image Lossless Compression

Yu Mao, Jun Wang, Nan Guan et al.

ICCV 2025arXiv:2503.10959

#5617

OuroMamba: A Data-Free Quantization Framework for Vision Mamba

Akshat Ramachandran, Mingyu Lee, Huan Xu et al.

NEURIPS 2025arXiv:2505.18193

#5618

Riemannian Flow Matching for Brain Connectivity Matrices via Pullback Geometry

Antoine Collas, Ce Ju, Nicolas Salvy et al.

CVPR 2025arXiv:2503.00548

#5619

Unbiased Video Scene Graph Generation via Visual and Semantic Dual Debiasing

Yanjun Li, Zhaoyang Li, Honghui Chen et al.

NEURIPS 2025arXiv:2410.02615

#5620

ExGra-Med: Extended Context Graph Alignment for Medical Vision-Language Models

Duy M. H. Nguyen, Nghiem Diep, Trung Nguyen et al.

ICCV 2025arXiv:2508.08589

#5621

DocThinker: Explainable Multimodal Large Language Models with Rule-based Reinforcement Learning for Document Understanding

Wenwen Yu, Zhibo Yang, Yuliang Liu et al.

#5622

Towards Robust Parameter-Efficient Fine-Tuning for Federated Learning

Xiuwen Fang, Mang Ye

ICCV 2025arXiv:2508.13104

#5623

Precise Action-to-Video Generation Through Visual Action Prompts

Yuang Wang, Chao Wen, Haoyu Guo et al.

CVPR 2025highlightarXiv:2505.04656

#5624

MeshGen: Generating PBR Textured Mesh with Render-Enhanced Auto-Encoder and Generative Data Augmentation

Zilong Chen, Yikai Wang, Wenqiang Sun et al.

#5625

Radio Frequency Ray Tracing with Neural Object Representation for Enhanced RF Modeling

Xingyu Chen, Zihao Feng, Kun Qian et al.

NEURIPS 2025arXiv:2411.02688

#5626

On the Loss of Context Awareness in General Instruction Fine-tuning

Yihan Wang, Andrew Bai, Nanyun Peng et al.

CVPR 2025highlightarXiv:2501.06481

#5627

Focus-N-Fix: Region-Aware Fine-Tuning for Text-to-Image Generation

Xiaoying Xing, Avinab Saha, Junfeng He et al.

NEURIPS 2025arXiv:2309.17262

#5628

Estimation and Inference in Distributional Reinforcement Learning

Liangyu Zhang, Yang Peng, Jiadong Liang et al.

ICCV 2025arXiv:2503.07601

#5629

Balanced Image Stylization with Style Matching Score

Yuxin Jiang, Liming Jiang, Shuai Yang et al.

#5630

Introducing FOReCAst: The Future Outcome Reasoning and Confidence Assessment Benchmark

Zhangdie Yuan, Zifeng Ding, Andreas Vlachos

CVPR 2025arXiv:2412.17741

#5631

Reasoning to Attend: Try to Understand How <SEG> Token Works

Rui Qian, Xin Yin, Dejing Dou

ICCV 2025arXiv:2508.09062

#5632

VertexRegen: Mesh Generation with Continuous Level of Detail

Xiang Zhang, Yawar Siddiqui, Armen Avetisyan et al.

ICCV 2025arXiv:2510.16641

#5633

MultiVerse: A Multi-Turn Conversation Benchmark for Evaluating Large Vision and Language Models

Young-Jun Lee, Byung-Kwan Lee, Jianshu Zhang et al.

CVPR 2025arXiv:2503.22328

#5634

VoteFlow: Enforcing Local Rigidity in Self-Supervised Scene Flow

Yancong Lin, Shiming Wang, Liangliang Nan et al.

CVPR 2025arXiv:2504.04834

#5635

Learning Affine Correspondences by Integrating Geometric Constraints

Pengju Sun, Banglei Guan, Zhenbao Yu et al.

NEURIPS 2025arXiv:2505.15239

#5636

Neural Collapse is Globally Optimal in Deep Regularized ResNets and Transformers

Peter Súkeník, Christoph Lampert, Marco Mondelli

CVPR 2025arXiv:2504.16023

#5637

PointLoRA: Low-Rank Adaptation with Token Selection for Point Cloud Learning

Song Wang, Xiaolu Liu, Lingdong Kong et al.

NEURIPS 2025spotlightarXiv:2508.13144

#5638

Signal and Noise: A Framework for Reducing Uncertainty in Language Model Evaluation

David Heineman, Valentin Hofmann, Ian Magnusson et al.

CVPR 2025arXiv:2503.01107

#5639

VideoHandles: Editing 3D Object Compositions in Videos Using Video Generative Priors

Juil Koo, Paul Guerrero, Chun-Hao P. Huang et al.

ICCV 2025arXiv:2501.01425

#5640

Free-Form Motion Control: Controlling the 6D Poses of Camera and Objects in Video Generation

Xincheng Shuai, Henghui Ding, Zhenyuan Qin et al.

CVPR 2025arXiv:2503.08173

#5641

Towards All-in-One Medical Image Re-Identification

Yuan Tian, Kaiyuan Ji, Rongzhao Zhang et al.

NEURIPS 2025arXiv:2506.09338

#5642

Know What You Don't Know: Uncertainty Calibration of Process Reward Models

Young-Jin Park, Kristjan Greenewald, Kaveh Alimohammadi et al.

CVPR 2025arXiv:2503.10412

#5643

dFLMoE: Decentralized Federated Learning via Mixture of Experts for Medical Data Analysis

Luyuan Xie, Tianyu Luan, Wenyuan Cai et al.

CVPR 2025arXiv:2503.21815

#5644

ATP: Adaptive Threshold Pruning for Efficient Data Encoding in Quantum Neural Networks

Mohamed Afane, Gabrielle Ebbrecht, Ying Wang et al.

#5645

HyperSeg: Hybrid Segmentation Assistant with Fine-grained Visual Perceiver

Cong Wei, Haoxian Tan, Yujie Zhong et al.

ICCV 2025arXiv:2508.16433

#5646

HAMSt3R: Human-Aware Multi-view Stereo 3D Reconstruction

Sara Rojas Martinez, Matthieu Armando, Bernard Ghanem et al.

CVPR 2025arXiv:2503.12840

#5647

Dynamic Derivation and Elimination: Audio Visual Segmentation with Enhanced Audio Semantics

Chen Liu, Liying Yang, Peike Li et al.

CVPR 2025arXiv:2503.16997

#5648

Steady Progress Beats Stagnation: Mutual Aid of Foundation and Conventional Models in Mixed Domain Semi-Supervised Medical Image Segmentation

Qinghe Ma, Jian Zhang, Zekun Li et al.

CVPR 2025arXiv:2503.00147

#5649

Precise Event Spotting in Sports Videos: Solving Long-Range Dependency and Class Imbalance

Sanchayan Santra, Vishal Chudasama, Pankaj Wasnik et al.

NEURIPS 2025arXiv:2506.02672

#5650

EvaLearn: Quantifying the Learning Capability and Efficiency of LLMs via Sequential Problem Solving

Shihan Dou, Ming Zhang, Chenhao Huang et al.

#5651

$\texttt{BetaConform}$: Efficient MAP Estimation of LLM Ensemble Judgment Performance with Prior Transfer

Huaizhi Qu, Inyoung Choi, Zhen Tan et al.

NEURIPS 2025oralarXiv:2506.04528

#5652

Hierarchical Implicit Neural Emulators

Ruoxi Jiang, Xiao Zhang, Karan Jakhar et al.

#5653

DualEqui: A Dual-Space Hierarchical Equivariant Network for Large Biomolecules

Junjie Xu, Jiahao Zhang, Mangal Prakash et al.

CVPR 2025arXiv:2505.12154

#5654

Learning to Highlight Audio by Watching Movies

Chao Huang, Ruohan Gao, J. M. F. Tsang et al.

ICCV 2025arXiv:2506.21547

#5655

SAM4D: Segment Anything in Camera and LiDAR Streams

Jianyun Xu, Song Wang, Ziqian Ni et al.

NEURIPS 2025spotlightarXiv:2505.14552

#5656

KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation

Jiajun Shi, Jian Yang, Jiaheng Liu et al.

NEURIPS 2025arXiv:2505.17914

#5657

Flexible MOF Generation with Torsion-Aware Flow Matching

Nayoung Kim, Seongsu Kim, Sungsoo Ahn

ICCV 2025arXiv:2508.00366

#5658

SparseRecon: Neural Implicit Surface Reconstruction from Sparse Views with Feature and Depth Consistencies

Liang Han, Xu Zhang, Haichuan Song et al.

NEURIPS 2025oralarXiv:2507.17664

#5659

Talk2Event: Grounded Understanding of Dynamic Scenes from Event Cameras

Lingdong Kong, Dongyue Lu, Alan Liang et al.

CVPR 2025arXiv:2504.02397

#5660

Learning Audio-guided Video Representation with Gated Attention for Video-Text Retrieval

Boseung Jeong, Jicheol Park, Sungyeon Kim et al.

NEURIPS 2025arXiv:2410.20445

#5661

TrajAgent: An LLM-Agent Framework for Trajectory Modeling via Large-and-Small Model Collaboration

Yuwei Du, Jie Feng, Jie Zhao et al.

CVPR 2025highlightarXiv:2503.03307

#5662

Full-DoF Egomotion Estimation for Event Cameras Using Geometric Solvers

Ji Zhao, Banglei Guan, Zibin Liu et al.

CVPR 2025arXiv:2503.10112

#5663

MoEdit: On Learning Quantity Perception for Multi-object Image Editing

Yanfeng Li, Ka-Hou Chan, Yue Sun et al.

CVPR 2025highlightarXiv:2502.19630

#5664

Ev-3DOD: Pushing the Temporal Boundaries of 3D Object Detection with Event Cameras

Hoonhee Cho, Jae-Young Kang, Youngho Kim et al.

CVPR 2025highlightarXiv:2503.15005

#5665

Universal Scene Graph Generation

Shengqiong Wu, Hao Fei, Tat-seng Chua

CVPR 2025arXiv:2506.01304

#5666

SAM-I2V: Upgrading SAM to Support Promptable Video Segmentation with Less than 0.2% Training Cost

Haiyang Mei, Pengyu Zhang, Mike Zheng Shou

NEURIPS 2025arXiv:2505.21923

#5667

FALCON: An ML Framework for Fully Automated Layout-Constrained Analog Circuit Design

Asal Mehradfar, Xuzhe Zhao, Yilun Huang et al.

CVPR 2025highlightarXiv:2503.04475

#5668

ForestLPR: LiDAR Place Recognition in Forests Attentioning Multiple BEV Density Images

Yanqing Shen, Turcan Tuna, Marco Hutter et al.

CVPR 2025arXiv:2412.11785

#5669

InterDyn: Controllable Interactive Dynamics with Video Diffusion Models

Rick Akkerman, Haiwen Feng, Michael J. Black et al.

NEURIPS 2025arXiv:2506.07570

#5670

OptiScene: LLM-driven Indoor Scene Layout Generation via Scaled Human-aligned Data Synthesis and Multi-Stage Preference Optimization

Yixuan Yang, Zhen Luo, Tongsheng Ding et al.

NEURIPS 2025arXiv:2412.09585

#5671

Elevating Visual Perception in Multimodal LLMs with Visual Embedding Distillation

Jitesh Jain, Zhengyuan Yang, Humphrey Shi et al.

ICCV 2025arXiv:2510.08271

#5672

SViM3D: Stable Video Material Diffusion for Single Image 3D Generation

Andreas Engelhardt, Mark Boss, Vikram Voleti et al.

ICCV 2025arXiv:2508.05402

#5673

DistillDrive: End-to-End Multi-Mode Autonomous Driving Distillation by Isomorphic Hetero-Source Planning Model

Rui Yu, Xianghang Zhang, Runkai Zhao et al.

ICCV 2025arXiv:2503.02304

#5674

A Token-level Text Image Foundation Model for Document Understanding

Tongkun Guan, Zining Wang, Pei Fu et al.

ICCV 2025arXiv:2408.08524

#5675

GS-ID: Illumination Decomposition on Gaussian Splatting via Adaptive Light Aggregation and Diffusion-Guided Material Priors

Kang DU, Zhihao Liang, Yulin Shen et al.

NEURIPS 2025spotlightarXiv:2510.20733

#5676

Thought Communication in Multiagent Collaboration

Yujia Zheng, Zhuokai Zhao, Zijian Li et al.

#5677

GS-DiT: Advancing Video Generation with Dynamic 3D Gaussian Fields through Efficient Dense 3D Point Tracking

Weikang Bian, Zhaoyang Huang, Xiaoyu Shi et al.

CVPR 2025arXiv:2503.00905

#5678

DEAL: Data-Efficient Adversarial Learning for High-Quality Infrared Imaging

Zhu Liu, Zijun Wang, Jinyuan Liu et al.

CVPR 2025arXiv:2405.18029

#5679

Are Images Indistinguishable to Humans Also Indistinguishable to Classifiers?

Zebin You, Xinyu Zhang, Hanzhong Guo et al.

NEURIPS 2025arXiv:2506.07848

#5680

PolyVivid: Vivid Multi-Subject Video Generation with Cross-Modal Interaction and Enhancement

Teng Hu, Zhentao Yu, Zhengguang Zhou et al.

ICCV 2025arXiv:2410.07151

#5681

DH-FaceVid-1K: A Large-Scale High-Quality Dataset for Face Video Generation

Donglin Di, He Feng, Wenzhang SUN et al.

ICCV 2025arXiv:2503.19914

#5682

Learning 3D Object Spatial Relationships from Pre-trained 2D Diffusion Models

Sangwon Baik, Hyeonwoo Kim, Hanbyul Joo

CVPR 2025arXiv:2411.19895

#5683

GuardSplat: Efficient and Robust Watermarking for 3D Gaussian Splatting

Zixuan Chen, Guangcong Wang, Jiahao Zhu et al.

ICCV 2025arXiv:2507.11333

#5684

MonoMVSNet: Monocular Priors Guided Multi-View Stereo Network

Jianfei Jiang, Qiankun Liu, Haochen Yu et al.

ICCV 2025arXiv:2411.13949

#5685

SMoLoRA: Exploring and Defying Dual Catastrophic Forgetting in Continual Visual Instruction Tuning

Ziqi Wang, Chang Che, Qi Wang et al.

NEURIPS 2025arXiv:2506.15538

#5686

Capturing Polysemanticity with PRISM: A Multi-Concept Feature Description Framework

Laura Kopf, Nils Feldhus, Kirill Bykov et al.

ICCV 2025arXiv:2506.22246

#5687

EAMamba: Efficient All-Around Vision State Space Model for Image Restoration

Yu-Cheng Lin, Yu-Syuan Xu, Hao-Wei Chen et al.

ICCV 2025arXiv:2503.07946

#5688

7DGS: Unified Spatial-Temporal-Angular Gaussian Splatting

Zhongpai Gao, Benjamin Planche, Meng Zheng et al.

NEURIPS 2025arXiv:2502.06684

#5689

EquiTabPFN: A Target-Permutation Equivariant Prior Fitted Network

Michael Arbel, David Salinas, Frank Hutter

CVPR 2025highlightarXiv:2503.16944

#5690

HyperLoRA: Parameter-Efficient Adaptive Generation for Portrait Synthesis

Mengtian Li, Jinshu Chen, Wanquan Feng et al.

NEURIPS 2025arXiv:2506.05745

#5691

SPRINT: Enabling Interleaved Planning and Parallelized Execution in Reasoning Models

Emil Biju, Shayan Talaei, Zhemin Huang et al.

CVPR 2025arXiv:2503.06960

#5692

A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning

Xin Wen, Bingchen Zhao, Yilun Chen et al.

ICCV 2025arXiv:2407.03010

#5693

CAVIS: Context-Aware Video Instance Segmentation

Seunghun Lee, Jiwan Seo, Kiljoon Han et al.

NEURIPS 2025oralarXiv:2506.15980

#5694

Advanced Sign Language Video Generation with Compressed and Quantized Multi-Condition Tokenization

Cong Wang, Zexuan Deng, Zhiwei Jiang et al.

ICCV 2025arXiv:2508.03284

#5695

ToolVQA: A Dataset for Multi-step Reasoning VQA with External Tools

Shaofeng Yin, Ting Lei, Yang Liu

NEURIPS 2025arXiv:2410.21273

#5696

On Inductive Biases That Enable Generalization in Diffusion Transformers

Jie An, De Wang, Pengsheng Guo et al.

ICCV 2025arXiv:2503.24366

#5697

StochasticSplats: Stochastic Rasterization for Sorting-Free 3D Gaussian Splatting

Shakiba Kheradmand, Delio Vicini, George Kopanas et al.

ICCV 2025arXiv:2508.04682

#5698

TurboTrain: Towards Efficient and Balanced Multi-Task Learning for Multi-Agent Perception and Prediction

Zewei Zhou, Zhihao Zhao, Tianhui Cai et al.

NEURIPS 2025spotlightarXiv:2506.05282

#5699

Rectified Point Flow: Generic Point Cloud Pose Estimation

Tao Sun, Liyuan Zhu, Shengyu Huang et al.

CVPR 2025arXiv:2504.09097

#5700

BIGS: Bimanual Category-agnostic Interaction Reconstruction from Monocular Videos via 3D Gaussian Splatting

Jeongwan On, Kyeonghwan Gwak, Gunyoung Kang et al.

#5701

SP2T: Sparse Proxy Attention for Dual-stream Point Transformer

Jiaxu Wan, Hong Zhang, Ziqi He et al.

ICCV 2025

#5702

Simplification Is All You Need against Out-of-Distribution Overconfidence

Keke Tang, Chao Hou, Weilong Peng et al.

CVPR 2025arXiv:2505.18582

#5703

On Denoising Walking Videos for Gait Recognition

Dongyang Jin, Chao Fan, Jingzhe Ma et al.

NEURIPS 2025oralarXiv:2506.05340

#5704

Exploring Diffusion Transformer Designs via Grafting

Keshigeyan Chandrasegaran, Michael Poli, Dan Fu et al.

CVPR 2025arXiv:2503.03651

#5705

DoraCycle: Domain-Oriented Adaptation of Unified Generative Model in Multimodal Cycles

Rui Zhao, Weijia Mao, Mike Zheng Shou

CVPR 2025arXiv:2503.15110

#5706

GIVEPose: Gradual Intra-class Variation Elimination for RGB-based Category-Level Object Pose Estimation

Ziqin Huang, Gu Wang, Chenyangguang Zhang et al.

CVPR 2025arXiv:2504.06815

#5707

SVG-IR: Spatially-Varying Gaussian Splatting for Inverse Rendering

Hanxiao Sun, Yupeng Gao, Jin Xie et al.

CVPR 2025highlightarXiv:2504.19478

#5708

CASAGPT: Cuboid Arrangement and Scene Assembly for Interior Design

Weitao Feng, Hang Zhou, Jing Liao et al.

ICCV 2025arXiv:2503.04151

#5709

Robust Multi-View Learning via Representation Fusion of Sample-Level Attention and Alignment of Simulated Perturbation

Jie Xu, Na Zhao, Gang Niu et al.

ICCV 2025arXiv:2503.06339

#5710

Learning to Unlearn while Retaining: Combating Gradient Conflicts in Machine Unlearning

Gaurav Patel, Qiang Qiu

NEURIPS 2025arXiv:2505.19217

#5711

The Overthinker's DIET: Cutting Token Calories with DIfficulty-AwarE Training

Weize Chen, Jiarui yuan, Jin Tailin et al.

#5712

Multi-Label Prototype Visual Spatial Search for Weakly Supervised Semantic Segmentation

Songsong Duan, Xi Yang, Nannan Wang

CVPR 2025highlight

NEURIPS 2025arXiv:2507.00425

#5713

Flexible Language Modeling in Continuous Space with Transformer-based Autoregressive Flows

Ruixiang Zhang, Shuangfei Zhai, Jiatao Gu et al.

NEURIPS 2025arXiv:2506.06489

#5714

Alternating Gradient Flows: A Theory of Feature Learning in Two-layer Neural Networks

Daniel Kunin, Giovanni Luca Marchetti, Feng Chen et al.

NEURIPS 2025oralarXiv:2510.16548

#5715

NeurIPT: Foundation Model for Neural Interfaces

Zitao Fang, Chenxuan Li, Hongting Zhou et al.

NEURIPS 2025arXiv:2505.23696

#5716

Computational Algebra with Attention: Transformer Oracles for Border Basis Algorithms

Hiroshi Kera, Nico Pelleriti, Yuki Ishihara et al.

NEURIPS 2025arXiv:2505.18584

#5717

Unleashing Diffusion Transformers for Visual Correspondence by Modulating Massive Activations

Chaofan Gan, Yuanpeng Tu, Xi Chen et al.

ICCV 2025highlightarXiv:2502.20158

#5718

Learning to Generalize without Bias for Open-Vocabulary Action Recognition

Yating Yu, Congqi Cao, Yifan Zhang et al.

CVPR 2025highlightarXiv:2411.10504

#5719

USP-Gaussian: Unifying Spike-based Image Reconstruction, Pose Correction and Gaussian Splatting

Kang Chen, Jiyuan Zhang, Zecheng Hao et al.

#5720

DaCapo: Score Distillation as Stacked Bridge for Fast and High-quality 3D Editing

Yufei Huang, Bangyan Liao, Yuqi Hu et al.

CVPR 2025arXiv:2412.18177

#5721

Enhancing Online Continual Learning with Plug-and-Play State Space Model and Class-Conditional Mixture of Discretization

Sihao Liu, Yibo Yang, Xiaojie Li et al.

CVPR 2025highlightarXiv:2411.17763

#5722

Symmetry Strikes Back: From Single-Image Symmetry Detection to 3D Generation

Xiang Li, Zixuan Huang, Anh Thai et al.

NEURIPS 2025arXiv:2506.01413

#5723

Incentivizing Reasoning for Advanced Instruction-Following of Large Language Models

Yulei Qin, Gang Li, Zongyi Li et al.

NEURIPS 2025oralarXiv:2410.10101

#5724

Learning Linear Attention in Polynomial Time

Morris Yau, Ekin Akyürek, Jiayuan Mao et al.

CVPR 2025arXiv:2503.01175

#5725

HOP: Heterogeneous Topology-based Multimodal Entanglement for Co-Speech Gesture Generation

Hongye Cheng, Tianyu Wang, guangsi shi et al.

NEURIPS 2025arXiv:2505.20922

#5726

Revisiting Multi-Agent World Modeling from a Diffusion-Inspired Perspective

Yang Zhang, Xinran Li, Jianing Ye et al.

NEURIPS 2025arXiv:2502.19335

#5727

Gatekeeper: Improving Model Cascades Through Confidence Tuning

Stephan Rabanser, Nathalie Rauschmayr, Achin Kulshrestha et al.

NEURIPS 2025arXiv:2505.07782

#5728

MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering

Rushi Qiang, Yuchen Zhuang, Yinghao Li et al.

CVPR 2025arXiv:2307.16375

#5729

UniAP: Unifying Inter- and Intra-Layer Automatic Parallelism by Mixed Integer Quadratic Programming

Hao Lin, Ke Wu, Jie Li et al.

NEURIPS 2025arXiv:2505.18456

#5730

Anchored Diffusion Language Model

Litu Rout, Constantine Caramanis, Sanjay Shakkottai

NEURIPS 2025arXiv:2505.21717

#5731

Scaling Up Liquid-Resistance Liquid-Capacitance Networks for Efficient Sequence Modeling

Mónika Farsang, Radu Grosu

ICCV 2025arXiv:2406.09105

#5732

INS-MMBench: A Comprehensive Benchmark for Evaluating LVLMs' Performance in Insurance

Chenwei Lin, Hanjia Lyu, Xian Xu et al.

CVPR 2025arXiv:2503.21150

#5733

The Devil is in Low-Level Features for Cross-Domain Few-Shot Segmentation

Yuhan Liu, Yixiong Zou, Yuhua Li et al.

CVPR 2025arXiv:2505.06218

#5734

Let Humanoids Hike! Integrative Skill Development on Complex Trails

Kwan-Yee Lin, Stella X. Yu

ICCV 2025arXiv:2503.16375

#5735

NuiScene: Exploring Efficient Generation of Unbounded Outdoor Scenes

Han-Hung Lee, Qinghong Han, Angel Chang

CVPR 2025arXiv:2411.17249

#5736

Buffer Anytime: Zero-Shot Video Depth and Normal from Image Priors

Zhengfei Kuang, Tianyuan Zhang, Kai Zhang et al.

ICCV 2025arXiv:2505.05591

#5737

QuickSplat: Fast 3D Surface Reconstruction via Learned Gaussian Initialization

Yueh-Cheng Liu, Lukas Höllein, Matthias Nießner et al.

ICCV 2025arXiv:2506.07725

#5738

ETA: Efficiency through Thinking Ahead, A Dual Approach to Self-Driving with Large Models

Shadi Hamdan, Chonghao Sima, Zetong Yang et al.

NEURIPS 2025oralarXiv:2511.00977

#5739

Modeling Microenvironment Trajectories on Spatial Transcriptomics with NicheFlow

Kristiyan Sakalyan, Alessandro Palma, Filippo Guerranti et al.

ICCV 2025arXiv:2507.17402

#5740

Enhancing Partially Relevant Video Retrieval with Hyperbolic Learning

Jun Li, Jinpeng Wang, Chaolei Tan et al.

ICCV 2025arXiv:2409.01071

#5741

VideoLLaMB: Long Streaming Video Understanding with Recurrent Memory Bridges

Yuxuan Wang, Yiqi Song, Cihang Xie et al.

NEURIPS 2025arXiv:2506.17090

#5742

Better Language Model Inversion by Compactly Representing Next-Token Distributions

Murtaza Nazir, Matthew Finlayson, John Morris et al.

NEURIPS 2025arXiv:2506.09887

#5743

Learning single index models via harmonic decomposition

Nirmit Joshi, Hugo Koubbi, Theodor Misiakiewicz et al.

NEURIPS 2025arXiv:2505.19949

#5744

Which Data Attributes Stimulate Math and Code Reasoning? An Investigation via Influence Functions

Siqi Kou, Qingyuan Tian, Hanwen Xu et al.

NEURIPS 2025arXiv:2505.24061

#5745

Measure gradients, not activations! Enhancing neuronal activity in deep reinforcement learning

Jiashun Liu, Zihao Wu, Johan Obando Ceron et al.

NEURIPS 2025arXiv:2509.24791

#5746

Vision Function Layer in Multimodal LLMs

Cheng Shi, Yizhou Yu, Sibei Yang

NEURIPS 2025arXiv:2505.02829

#5747

LISAt: Language-Instructed Segmentation Assistant for Satellite Imagery

Jerome Quenum, Wen-Han Hsieh, Tsung-Han (Patrick) Wu et al.

CVPR 2025arXiv:2505.05505

#5748

Apply Hierarchical-Chain-of-Generation to Complex Attributes Text-to-3D Generation

Yiming Qin, Zhu Xu, Yang Liu

NEURIPS 2025arXiv:2405.07098

#5749

Interpretable Global Minima of Deep ReLU Neural Networks on Sequentially Separable Data

Thomas Chen, Patricia Muñoz Ewald

NEURIPS 2025spotlightarXiv:2505.18600

#5750

Chain-of-Zoom: Extreme Super-Resolution via Scale Autoregression and Preference Alignment

Bryan Sangwoo Kim, Jeongsol Kim, Jong Chul Ye

CVPR 2025arXiv:2506.02781

#5751

FreeScene: Mixed Graph Diffusion for 3D Scene Synthesis from Free Prompts

Tongyuan Bai, Wangyuanfan Bai, Dong Chen et al.

CVPR 2025arXiv:2503.17984

#5752

Taste More, Taste Better: Diverse Data and Strong Model Boost Semi-Supervised Crowd Counting

Maochen Yang, Zekun Li, Jian Zhang et al.

CVPR 2025arXiv:2503.12507

#5753

Segment Any-Quality Images with Generative Latent Space Enhancement

Guangqian Guo, Yong Guo, Xuehui Yu et al.

NEURIPS 2025arXiv:2505.12387

#5754

Neural Thermodynamics: Entropic Forces in Deep and Universal Representation Learning

Liu Ziyin, Yizhou Xu, Isaac Chuang

CVPR 2025arXiv:2503.21824

#5755

Protecting Your Video Content: Disrupting Automated Video-based LLM Annotations

Haitong Liu, Kuofeng Gao, Yang Bai et al.

CVPR 2025arXiv:2512.23463

#5756

Deterministic Image-to-Image Translation via Denoising Brownian Bridge Models with Dual Approximators

Bohan Xiao, PEIYONG WANG, Qisheng He et al.

CVPR 2025arXiv:2503.18987

#5757

Balanced Direction from Multifarious Choices: Arithmetic Meta-Learning for Domain Generalization

Xiran Wang, Jian Zhang, Lei Qi et al.

NEURIPS 2025arXiv:2503.16924

#5758

Optimized Minimal 3D Gaussian Splatting

Joo Chan Lee, Jong Hwan Ko, Eunbyung Park

CVPR 2025arXiv:2412.06968

#5759

SphereUFormer: A U-Shaped Transformer for Spherical 360 Perception

Yaniv Benny, Lior Wolf

NEURIPS 2025arXiv:2505.22860

#5760

Permissioned LLMs: Enforcing Access Control in Large Language Models

Bargav Jayaraman, Virendra Marathe, Hamid Mozaffari et al.

CVPR 2025arXiv:2505.16778

#5761

Single Domain Generalization for Few-Shot Counting via Universal Representation Matching

Xianing Chen, Si Huo, Borui Jiang et al.

NEURIPS 2025arXiv:2505.23625

#5762

ZeroSep: Separate Anything in Audio with Zero Training

Chao Huang, Yuesheng Ma, Junxuan Huang et al.

NEURIPS 2025arXiv:2501.10124

#5763

Gene Regulatory Network Inference in the Presence of Selection Bias and Latent Confounders

Gongxu Luo, Haoyue Dai, Longkang Li et al.

CVPR 2025arXiv:2503.18123

#5764

End-to-End Implicit Neural Representations for Classification

Alexander Gielisse, Jan van Gemert

CVPR 2025arXiv:2503.06186

#5765

PTDiffusion: Free Lunch for Generating Optical Illusion Hidden Pictures with Phase-Transferred Diffusion Model

Xiang Gao, Shuai Yang, Jiaying Liu

NEURIPS 2025arXiv:2505.09666

#5766

System Prompt Optimization with Meta-Learning

Yumin Choi, Jinheon Baek, Sung Ju Hwang

NEURIPS 2025spotlightarXiv:2510.01938

#5767

StelLA: Subspace Learning in Low-rank Adaptation using Stiefel Manifold

Zhizhong Li, Sina Sajadmanesh, Jingtao Li et al.

ICCV 2025arXiv:2412.08101

#5768

Generative Zoo

Tomasz Niewiadomski, Anastasios Yiannakidis, Hanz Cuevas Velasquez et al.

NEURIPS 2025arXiv:2512.04550

#5769

AdmTree: Compressing Lengthy Context with Adaptive Semantic Trees

Yangning Li, Shaoshen Chen, Yinghui Li et al.

NEURIPS 2025arXiv:2505.15093

#5770

Steering Generative Models with Experimental Data for Protein Fitness Optimization

Jason Yang, Wenda Chu, Daniel Khalil et al.

ICCV 2025arXiv:2507.07483

#5771

Temporal Unlearnable Examples: Preventing Personal Video Data from Unauthorized Exploitation by Object Tracking

Qiangqiang Wu, Yi Yu, Chenqi Kong et al.

#5772

Understanding Multi-Task Activities from Single-Task Videos

Yuhan Shen, Ehsan Elhamifar

CVPR 2025highlight

#5773

Brain-Informed Fine-Tuning for Improved Multilingual Understanding in Language Models

Anuja Negi, SUBBAREDDY OOTA, Anwar Nunez-Elizalde et al.

NEURIPS 2025oralarXiv:2505.23623

#5774

Characterizing the Expressivity of Fixed-Precision Transformer Language Models

Jiaoda Li, Ryan Cotterell

CVPR 2025arXiv:2503.06369

#5775

Spectral State Space Model for Rotation-Invariant Visual Representation Learning

Sahar Dastani, Ali Bahri, Moslem Yazdanpanah et al.

ICCV 2025arXiv:2508.06494

#5776

LightSwitch: Multi-view Relighting with Material-guided Diffusion

Yehonathan Litman, Fernando De la Torre, Shubham Tulsiani

CVPR 2025arXiv:2505.23068

#5777

URWKV: Unified RWKV Model with Multi-state Perspective for Low-light Image Restoration

Rui Xu, Yuzhen Niu, Yuezhou Li et al.

#5778

Mono3DVLT: Monocular-Video-Based 3D Visual Language Tracking

Hongkai Wei, YANG YANG, Shijie Sun et al.

#5779

$\texttt{G1}$: Teaching LLMs to Reason on Graphs with Reinforcement Learning

Xiaojun Guo, Ang Li, Yifei Wang et al.

NEURIPS 2025arXiv:2505.16862

#5780

Conditional Panoramic Image Generation via Masked Autoregressive Modeling

Chaoyang Wang, Xiangtai Li, Lu Qi et al.

ICCV 2025arXiv:2507.15454

#5781

ObjectGS: Object-aware Scene Reconstruction and Scene Understanding via Gaussian Splatting

Ruijie Zhu, Mulin Yu, Linning Xu et al.

NEURIPS 2025arXiv:2505.07865

#5782

CellVerse: Do Large Language Models Really Understand Cell Biology?

Fan Zhang, Tianyu Liu, Zhihong Zhu et al.

NEURIPS 2025arXiv:2503.05919

#5783

From Style to Facts: Mapping the Boundaries of Knowledge Injection with Finetuning

Eric Zhao, Pranjal Awasthi, Nika Haghtalab

ICCV 2025arXiv:2504.13206

#5784

DuoLoRA : Cycle-consistent and Rank-disentangled Content-Style Personalization

Aniket Roy, Shubhankar Borse, Shreya Kadambi et al.

CVPR 2025highlightarXiv:2403.11295

#5785

Order-One Rolling Shutter Cameras

Marvin Anas Hahn, Kathlén Kohn, Orlando Marigliano et al.

NEURIPS 2025arXiv:2509.02510

#5786

Top-H Decoding: Adapting the Creativity and Coherence with Bounded Entropy in Text Generation

Erfan Baghaei Potraghloo, Seyedarmin Azizi, Souvik Kundu et al.

CVPR 2025arXiv:2509.26025

#5787

PatchVSR: Breaking Video Diffusion Resolution Limits with Patch-wise Video Super-Resolution

Shian Du, Menghan Xia, Chang Liu et al.

NEURIPS 2025arXiv:2506.16349

#5788

Watermarking Autoregressive Image Generation

Nikola Jovanović, Ismail Labiad, Tomas Soucek et al.

CVPR 2025arXiv:2503.06984

#5789

Synchronized Video-to-Audio Generation via Mel Quantization-Continuum Decomposition

Juncheng Wang, Chao Xu, Cheng Yu et al.

CVPR 2025arXiv:2503.04718

#5790

Floxels: Fast Unsupervised Voxel Based Scene Flow Estimation

David T. Hoffmann, Syed Haseeb Raza, Hanqiu Jiang et al.

ICCV 2025arXiv:2412.07494

#5791

ResGS: Residual Densification of 3D Gaussian for Efficient Detail Recovery

Yanzhe Lyu, Kai Cheng, Kang Xin et al.

NEURIPS 2025arXiv:2505.21844

#5792

Test-Time Adaptation of Vision-Language Models for Open-Vocabulary Semantic Segmentation

Mehrdad Noori, David OSOWIECHI, Gustavo Vargas Hakim et al.

CVPR 2025arXiv:2503.02009

#5793

Morpheus: Text-Driven 3D Gaussian Splat Shape and Color Stylization

Jamie Wynn, Zawar Qureshi, Jakub Powierza et al.

ICCV 2025arXiv:2506.18527

#5794

Auto-Regressively Generating Multi-View Consistent Images

JiaKui Hu, Yuxiao Yang, Jialun Liu et al.

NEURIPS 2025oralarXiv:2510.23569

#5795

EgoThinker: Unveiling Egocentric Reasoning with Spatio-Temporal CoT

Baoqi Pei, Yifei Huang, Jilan Xu et al.

ICCV 2025arXiv:2507.03657

#5796

Dynamic Multimodal Prototype Learning in Vision-Language Models

Xingyu Zhu, Shuo Wang, Beier Zhu et al.

CVPR 2025highlightarXiv:2409.17993

#5797

SSHNet: Unsupervised Cross-modal Homography Estimation via Problem Reformulation and Split Optimization

Junchen Yu, Siyuan Cao, Runmin Zhang et al.

#5798

PriorMotion: Generative Class-Agnostic Motion Prediction with Raster-Vector Motion Field Priors

Kangan Qian, Jinyu Miao, Xinyu Jiao et al.

ICCV 2025

ICCV 2025arXiv:2506.07886

#5799

EgoM2P: Egocentric Multimodal Multitask Pretraining

Gen Li, Yutong Chen, Yiqian Wu et al.

NEURIPS 2025arXiv:2507.00469

#5800

Bisecle: Binding and Separation in Continual Learning for Video Language Understanding

Yue Tan, Xiaoqian Hu, Hao Xue et al.