Most Cited 2025 &quot;differentiable tree search&quot; Papers

#3802

Effective and Efficient Time-Varying Counterfactual Prediction with State-Space Models

Haotian Wang, Haoxuan Li, Hao Zou et al.

ICCV 2025arXiv:2508.02293

#3803

Towards Real Unsupervised Anomaly Detection Via Confident Meta-Learning

Muhammad Aqeel, Shakiba Sharifi, Marco Cristani et al.

CVPR 2025arXiv:2411.11909

#3804

SymDPO: Boosting In-Context Learning of Large Multimodal Models with Symbol Demonstration Direct Preference Optimization

Hongrui Jia, Chaoya Jiang, Haiyang Xu et al.

ICML 2025spotlightarXiv:2412.09729

#3805

Doubly Robust Conformalized Survival Analysis with Right-Censored Data

Matteo Sesia, vladimir svetnik

ICLR 2025oralarXiv:2509.18627

#3806

BRAID: Input-driven Nonlinear Dynamical Modeling of Neural-Behavioral Data

Parsa Vahidi, Omid G. Sani, Maryam Shanechi

NEURIPS 2025arXiv:2502.16671

#3807

MimeQA: Towards Socially-Intelligent Nonverbal Foundation Models

Hengzhi Li, Megan Tjandrasuwita, Yi R. (May) Fung et al.

ICLR 2025arXiv:2310.11211

#3808

Understanding Fairness Surrogate Functions in Algorithmic Fairness

Yong Liu, (Andrew) Zhanke Zhou, Zhicong Li et al.

NEURIPS 2025arXiv:2410.13903

#3809

CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment

Qinfeng Li, Tianyue Luo, Xuhong Zhang et al.

ICLR 2025arXiv:2405.17035

#3810

Glauber Generative Model: Discrete Diffusion Models via Binary Classification

Harshit Varma, Dheeraj Nagaraj, Karthikeyan Shanmugam

AAAI 2025paperarXiv:2412.14576

#3811

Alignment-Free RGB-T Salient Object Detection: A Large-Scale Dataset and Progressive Correlation Network

Kunpeng Wang, Keke Chen, Chenglong Li et al.

NEURIPS 2025arXiv:2506.01480

#3812

Janus-Pro-R1: Advancing Collaborative Visual Comprehension and Generation via Reinforcement Learning

Kaihang Pan, Yang Wu, Wendong Bu et al.

ICLR 2025arXiv:2501.04304

#3813

DGQ: Distribution-Aware Group Quantization for Text-to-Image Diffusion Models

Hyogon Ryu, NaHyeon Park, Hyunjung Shim

CVPR 2025arXiv:2503.01291

#3814

SemGeoMo: Dynamic Contextual Human Motion Generation with Semantic and Geometric Guidance

Peishan Cong, Ziyi Wang, Yuexin Ma et al.

CVPR 2025arXiv:2411.18552

#3815

FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable Diffusion

Haosen Yang, Adrian Bulat, Isma Hadji et al.

ICLR 2025arXiv:2410.18538

#3816

SMITE: Segment Me In TimE

Amirhossein Alimohammadi, Sauradip Nag, Saeid Asgari et al.

ICCV 2025arXiv:2503.12897

#3817

Federated Continual Instruction Tuning

Haiyang Guo, Fanhu Zeng, Fei Zhu et al.

ICML 2025spotlightarXiv:2505.24445

#3818

Learning Safety Constraints for Large Language Models

Xin Chen, Yarden As, Andreas Krause

AAAI 2025paperarXiv:2404.18598

#3819

Anywhere: A Multi-Agent Framework for User-Guided, Reliable, and Diverse Foreground-Conditioned Image Generation

Xie Tianyidan, Rui Ma, Qian Wang et al.

AAAI 2025paperarXiv:2412.15650

#3820

Beyond Human Data: Aligning Multimodal Large Language Models by Iterative Self-Evolution

Wentao Tan, Qiong Cao, Yibing Zhan et al.

NEURIPS 2025arXiv:2406.01899

#3821

Cross-Domain Graph Data Scaling: A Showcase with Diffusion Models

Wenzhuo Tang, Haitao Mao, Danial Dervovic et al.

ICLR 2025arXiv:2501.15878

#3822

Slot-Guided Adaptation of Pre-trained Diffusion Models for Object-Centric Learning and Compositional Generation

adil kaan akan, Yucel Yemez

NEURIPS 2025arXiv:2506.15691

#3823

What Do Latent Action Models Actually Learn?

Chuheng Zhang, Tim Pearce, Pushi Zhang et al.

NEURIPS 2025arXiv:2505.15152

#3824

Sculpting Features from Noise: Reward-Guided Hierarchical Diffusion for Task-Optimal Feature Transformation

Nanxu Gong, Zijun Li, Sixun Dong et al.

CVPR 2025arXiv:2408.17135

#3825

TIMotion: Temporal and Interactive Framework for Efficient Human-Human Motion Generation

Yabiao Wang, Shuo Wang, Jiangning Zhang et al.

ICML 2025oralarXiv:2503.14378

#3826

Impossible Videos

Zechen Bai, Hai Ci, Mike Zheng Shou

CVPR 2025arXiv:2509.09555

#3827

InterAct: Advancing Large-Scale Versatile 3D Human-Object Interaction Generation

Sirui Xu, Dongting Li, Yucheng Zhang et al.

NEURIPS 2025spotlightarXiv:2502.08202

#3828

Privacy amplification by random allocation

Moshe Shenfeld, Vitaly Feldman

ICCV 2025arXiv:2506.23563

#3829

MMReason: An Open-Ended Multi-Modal Multi-Step Reasoning Benchmark for MLLMs Toward AGI

Huanjin Yao, Jiaxing Huang, Yawen Qiu et al.

AAAI 2025paperarXiv:2502.02438

#3830

Medical Multimodal Model Stealing Attacks via Adversarial Domain Alignment

Yaling Shen, Zhixiong Zhuang, Kun Yuan et al.

CVPR 2025arXiv:2502.20678

#3831

STPro: Spatial and Temporal Progressive Learning for Weakly Supervised Spatio-Temporal Grounding

Aaryan Garg, Akash Kumar, Yogesh S. Rawat

ICML 2025arXiv:2410.05078

#3832

Compression via Pre-trained Transformers: A Study on Byte-Level Multimodal Data

David Heurtel-Depeiges, Anian Ruoss, Joel Veness et al.

AAAI 2025paperarXiv:2412.10159

#3833

Arbitrary Reading Order Scene Text Spotter with Local Semantics Guidance

Jiahao Lyu, Wei Wang, Dongbao Yang et al.

AAAI 2025paperarXiv:2412.10178

#3834

SwiftTry: Fast and Consistent Video Virtual Try-On with Diffusion Models

Hung Nguyen, Quang Qui-Vinh Nguyen, Khoi Nguyen et al.

AAAI 2025paperarXiv:2409.18401

#3835

GenesisTex2: Stable, Consistent and High-Quality Text-to-Texture Generation

Jiawei Lu, YingPeng Zhang, Zengjun Zhao et al.

NEURIPS 2025oralarXiv:2409.14500

#3836

GraphLand: Evaluating Graph Machine Learning Models on Diverse Industrial Data

Gleb Bazhenov, Oleg Platonov, Liudmila Prokhorenkova

ICLR 2025arXiv:2410.02749

#3837

Training Language Models on Synthetic Edit Sequences Improves Code Synthesis

Ulyana Piterbarg, Lerrel Pinto, Rob Fergus

AAAI 2025paperarXiv:2412.07160

#3838

Motion-aware Contrastive Learning for Temporal Panoptic Scene Graph Generation

Thong Thanh Nguyen, Xiaobao Wu, Yi Bin et al.

ICLR 2025arXiv:2309.16519

#3839

AtomSurf: Surface Representation for Learning on Protein Structures

Vincent Mallet, Yangyang Miao, Souhaib Attaiki et al.

ICML 2025oralarXiv:2411.05712

#3840

Scaling Laws for Task-Optimized Models of the Primate Visual Ventral Stream

Abdulkadir Gokce, Martin Schrimpf

CVPR 2025arXiv:2412.09680

#3841

PBR-NeRF: Inverse Rendering with Physics-Based Neural Fields

Sean Wu, Shamik Basu, Tim Broedermann et al.

#3842

Neighborhood Self-Dissimilarity Attention for Medical Image Segmentation

Junren Chen, Rui Chen, Wei Wang et al.

NEURIPS 2025

ICML 2025arXiv:2501.18537

#3843

Loss Functions and Operators Generated by f-Divergences

Vincent Roulet, Tianlin Liu, Nino Vieillard et al.

CVPR 2025arXiv:2504.02451

#3844

ConMo: Controllable Motion Disentanglement and Recomposition for Zero-Shot Motion Transfer

Jiayi Gao, Zijin Yin, Changcheng Hua et al.

ICLR 2025arXiv:2411.03753

#3845

Symbolic regression via MDLformer-guided search: from minimizing prediction error to minimizing description length

Zihan Yu, Jingtao Ding, Yong Li et al.

ICLR 2025arXiv:2410.05050

#3846

FreSh: Frequency Shifting for Accelerated Neural Representation Learning

Adam Kania, Marko Mihajlovic, Sergey Prokudin et al.

NEURIPS 2025arXiv:2503.05965

#3847

Validating LLM-as-a-Judge Systems under Rating Indeterminacy

Luke Guerdan, Solon Barocas, Kenneth Holstein et al.

NEURIPS 2025arXiv:2505.18962

#3848

System-1.5 Reasoning: Traversal in Language and Latent Spaces with Dynamic Shortcuts

Xiaoqiang Wang, Suyuchen Wang, Yun Zhu et al.

ICML 2025arXiv:2503.16322

#3849

Ultra-Resolution Adaptation with Ease

Ruonan Yu, Songhua Liu, Zhenxiong Tan et al.

ICLR 2025arXiv:2404.02157

#3850

Segment Any 3D Object with Language

Seungjun Lee, Yuyang Zhao, Gim H Lee

#3851

Robust Multimodal Survival Prediction with Conditional Latent Differentiation Variational AutoEncoder

Junjie Zhou, Jiao Tang, Yingli Zuo et al.

NEURIPS 2025spotlightarXiv:2506.03642

#3852

Spatial Understanding from Videos: Structured Prompts Meet Simulation Data

Haoyu Zhang, Meng Liu, Zaijing Li et al.

CVPR 2025arXiv:2505.04270

#3853

Object-Shot Enhanced Grounding Network for Egocentric Video

Yisen Feng, Haoyu Zhang, Meng Liu et al.

ICML 2025arXiv:2502.07587

#3854

SEMU: Singular Value Decomposition for Efficient Machine Unlearning

Marcin Sendera, Łukasz Struski, Kamil Książek et al.

ICLR 2025arXiv:2408.16115

#3855

Uncertainty Modeling in Graph Neural Networks via Stochastic Differential Equations

Richard Bergna, Sergio Calvo Ordoñez, Felix Opolka et al.

ICCV 2025arXiv:2507.21391

#3856

Multimodal LLMs as Customized Reward Models for Text-to-Image Generation

Shijie Zhou, Ruiyi Zhang, Huaisheng Zhu et al.

ICLR 2025arXiv:2412.05994

#3857

PIG: Physics-Informed Gaussians as Adaptive Parametric Mesh Representations

Namgyu Kang, Jaemin Oh, Youngjoon Hong et al.

CVPR 2025highlightarXiv:2412.01027

#3858

Unleashing In-context Learning of Autoregressive Models for Few-shot Image Manipulation

Bolin Lai, Felix Juefei-Xu, Miao Liu et al.

CVPR 2025arXiv:2412.01814

#3859

COSMOS: Cross-Modality Self-Distillation for Vision Language Pre-training

Sanghwan Kim, Rui Xiao, Iuliana Georgescu et al.

ICCV 2025arXiv:2502.03207

#3860

MotionAgent: Fine-grained Controllable Video Generation via Motion Field Agent

Xinyao Liao, Xianfang Zeng, Liao Wang et al.

CVPR 2025arXiv:2412.00719

#3861

Synergizing Motion and Appearance: Multi-Scale Compensatory Codebooks for Talking Head Video Generation

Shuling Zhao, Fa-Ting Hong, Xiaoshui Huang et al.

NEURIPS 2025arXiv:2502.19110

#3862

Conformal Linguistic Calibration: Trading-off between Factuality and Specificity

Zhengping Jiang, Anqi Liu, Ben Van Durme

ICCV 2025arXiv:2503.06235

#3863

StreamGS: Online Generalizable Gaussian Splatting Reconstruction for Unposed Image Streams

Yang LI, Jinglu Wang, Lei Chu et al.

CVPR 2025highlightarXiv:2412.16212

#3864

ManiVideo: Generating Hand-Object Manipulation Video with Dexterous and Generalizable Grasping

Youxin Pang, Ruizhi Shao, Jiajun Zhang et al.

AAAI 2025paperarXiv:2409.04053

#3865

COLUMBUS: Evaluating COgnitive Lateral Understanding Through Multiple-Choice reBUSes

Koen Kraaijveld, Yifan Jiang, Kaixin Ma et al.

ICML 2025arXiv:2411.07591

#3866

Overcoming the Curse of Dimensionality in Reinforcement Learning Through Approximate Factorization

Chenbei Lu, Laixi Shi, Zaiwei Chen et al.

ICLR 2025arXiv:2409.16197

#3867

Second Order Bounds for Contextual Bandits with Function Approximation

Aldo Pacchiano

ICLR 2025arXiv:2410.01912

#3868

A Spark of Vision-Language Intelligence: 2-Dimensional Autoregressive Transformer for Efficient Finegrained Image Generation

Liang Chen, Sinan Tan, Zefan Cai et al.

#3869

Doubly Contrastive Learning for Source-Free Domain Adaptive Person Search

Yizhen Jia, Rong Quan, Yue Feng et al.

#3870

ESE: Espresso Sentence Embeddings

Xianming Li, Zongxi Li, Jing Li et al.

ICML 2025arXiv:2410.18076

#3871

Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration

Max Wilcoxson, Qiyang Li, Kevin Frans et al.

ICML 2025arXiv:2411.17284

#3872

AutoElicit: Using Large Language Models for Expert Prior Elicitation in Predictive Modelling

Alexander Capstick, Rahul G. Krishnan, Payam Barnaghi

#3873

TruthPrInt: Mitigating Large Vision-Language Models Object Hallucination Via Latent Truthful-Guided Pre-Intervention

Jinhao Duan, Fei Kong, Hao Cheng et al.

ICCV 2025

CVPR 2025arXiv:2503.06457

#3874

Geometric Knowledge-Guided Localized Global Distribution Alignment for Federated Learning

Yanbiao Ma, Wei Dai, Wenke Huang et al.

ICCV 2025arXiv:2411.15472

#3875

KinMo: Kinematic-aware Human Motion Understanding and Generation

Pengfei Zhang, Pinxin Liu, Pablo Garrido et al.

#3876

M3amba: Memory Mamba is All You Need for Whole Slide Image Classification

Tingting Zheng, Kui Jiang, Yi Xiao et al.

NEURIPS 2025oralarXiv:2509.25040

#3877

A multiscale analysis of mean-field transformers in the moderate interaction regime

Giuseppe Bruno, Federico Pasqualotto, Andrea Agazzi

ICCV 2025arXiv:2502.01639

#3878

SliderSpace: Decomposing the Visual Capabilities of Diffusion Models

Rohit Gandikota, Zongze Wu, Richard Zhang et al.

CVPR 2025arXiv:2501.04336

#3879

Building a Mind Palace: Structuring Environment-Grounded Semantic Graphs for Effective Long Video Analysis with LLMs

Zeyi Huang, Yuyang Ji, Xiaofang Wang et al.

AAAI 2025paperarXiv:2501.01125

#3880

DuMo: Dual Encoder Modulation Network for Precise Concept Erasure

Feng Han, Kai Chen, Chao Gong et al.

NEURIPS 2025spotlightarXiv:2504.15473

#3881

Emergence and Evolution of Interpretable Concepts in Diffusion Models

Berk Tinaz, Zalan Fabian, Mahdi Soltanolkotabi

CVPR 2025arXiv:2503.01463

#3882

MI-DETR: An Object Detection Model with Multi-time Inquiries Mechanism

Zhixiong Nan, Xianghong Li, Tao Xiang et al.

ICLR 2025arXiv:2405.17816

#3883

Pursuing Feature Separation based on Neural Collapse for Out-of-Distribution Detection

Yingwen Wu, Ruiji Yu, Xinwen Cheng et al.

CVPR 2025arXiv:2503.13214

#3884

A General Adaptive Dual-level Weighting Mechanism for Remote Sensing Pansharpening

Jie Huang, Haorui Chen, Jiaxuan Ren et al.

ICML 2025spotlightarXiv:2507.07544

#3885

Position: We Need An Algorithmic Understanding of Generative AI

Oliver Eberle, Thomas McGee, Hamza Giaffar et al.

ICLR 2025arXiv:2410.05315

#3886

PALMBENCH: A COMPREHENSIVE BENCHMARK OF COMPRESSED LARGE LANGUAGE MODELS ON MOBILE PLATFORMS

Yilong Li, Jingyu Liu, Hao Zhang et al.

#3887

HQGS: High-Quality Novel View Synthesis with Gaussian Splatting in Degraded Scenes

Xin Lin, Shi Luo, Xiaojun Shan et al.

ICML 2025arXiv:2504.07165

#3888

Perception in Reflection

Yana Wei, Liang Zhao, Kangheng Lin et al.

ICLR 2025arXiv:2402.04355

#3889

PQMass: Probabilistic Assessment of the Quality of Generative Models using Probability Mass Estimation

Pablo Lemos, Sammy Sharief, Nikolay Malkin et al.

AAAI 2025paperarXiv:2407.12317

#3890

Out of Length Text Recognition with Sub-String Matching

Yongkun Du, Zhineng Chen, Caiyan Jia et al.

#3891

AVF-MAE++: Scaling Affective Video Facial Masked Autoencoders via Efficient Audio-Visual Self-Supervised Learning

Xuecheng Wu, Heli Sun, Yifan Wang et al.

ICML 2025oralarXiv:2504.19496

#3892

DISCO: learning to DISCover an evolution Operator for multi-physics-agnostic prediction

Rudy Morel, Jiequn Han, Edouard Oyallon

ICCV 2025arXiv:2410.17084

#3893

GS-LIVM: Real-Time Photo-Realistic LiDAR-Inertial-Visual Mapping with Gaussian Splatting

Yusen XIE, Zhenmin Huang, Jin Wu et al.

ICLR 2025arXiv:2412.01036

#3894

Generating Freeform Endoskeletal Robots

Muhan Li, Lingji Kong, Sam Kriegman

#3895

Triples as the Key: Structuring Makes Decomposition and Verification Easier in LLM-based TableQA

Zhen Yang, Ziwei Du, Minghan Zhang et al.

AAAI 2025paperarXiv:2412.10488

#3896

SVGBuilder: Component-Based Colored SVG Generation with Text-Guided Autoregressive Transformers

Zehao Chen, Rong Pan

NEURIPS 2025spotlightarXiv:2502.17159

#3897

RobustMerge: Parameter-Efficient Model Merging for MLLMs with Direction Robustness

Fanhu Zeng, Haiyang Guo, Fei Zhu et al.

NEURIPS 2025arXiv:2506.00359

#3898

Keeping an Eye on LLM Unlearning: The Hidden Risk and Remedy

Jie Ren, Zhenwei Dai, Xianfeng Tang et al.

NEURIPS 2025spotlightarXiv:2502.05625

#3899

Training-Free Constrained Generation With Stable Diffusion Models

Stefano Zampini, Jacob K Christopher, Luca Oneto et al.

ICML 2025arXiv:2506.05774

#3900

Evaluating Neuron Explanations: A Unified Framework with Sanity Checks

Tuomas Oikarinen, Ge Yan, Lily Weng

ICLR 2025oralarXiv:2503.17452

#3901

CausalRivers - Scaling up benchmarking of causal discovery for real-world time-series

Gideon Stein, Maha Shadaydeh, Jan Blunk et al.

ICML 2025spotlightarXiv:2407.11784

#3902

Data-Juicer Sandbox: A Feedback-Driven Suite for Multimodal Data-Model Co-development

Daoyuan Chen, Haibin Wang, Yilun Huang et al.

ICLR 2025arXiv:2407.11306

#3903

PADRe: A Unifying Polynomial Attention Drop-in Replacement for Efficient Vision Transformer

Pierre-David Letourneau, Manish Singh, Hsin-Pai Cheng et al.

CVPR 2025arXiv:2405.18840

#3904

Parameter-efficient Fine-tuning in Hyperspherical Space for Open-vocabulary Semantic Segmentation

Zelin Peng, Zhengqin Xu, Zhilin Zeng et al.

CVPR 2025arXiv:2412.04432

#3905

Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation

Yuying Ge, Yizhuo Li, Yixiao Ge et al.

CVPR 2025arXiv:2504.18032

#3906

Enhancing Privacy-Utility Trade-offs to Mitigate Memorization in Diffusion Models

Chen Chen, Daochang Liu, Mubarak Shah et al.

ICLR 2025arXiv:2502.18195

#3907

Multi-Perspective Data Augmentation for Few-shot Object Detection

Anh-Khoa Nguyen Vu, Quoc Truong Truong, Vinh-Tiep Nguyen et al.

ICCV 2025arXiv:2503.10742

#3908

Keyframe-oriented Vision Token Pruning: Enhancing Efficiency of Large Vision Language Models on Long-Form Video Processing

Yudong Liu, Jingwei Sun, Yueqian Lin et al.

CVPR 2025arXiv:2503.16707

#3909

Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding

Jinlong Li, Cristiano Saltori, Fabio Poiesi et al.

ICCV 2025arXiv:2507.00472

#3910

ARIG: Autoregressive Interactive Head Generation for Real-time Conversations

Ying Guo, Xi Liu, Cheng Zhen et al.

ICLR 2025arXiv:2410.07916

#3911

Robustness Auditing for Linear Regression: To Singularity and Beyond

Ittai Rubinstein, Samuel Hopkins

NEURIPS 2025arXiv:2510.05520

#3912

CAM: A Constructivist View of Agentic Memory for LLM-Based Reading Comprehension

Rui Li, Zeyu Zhang, Xiaohe Bo et al.

#3913

NOVA: A Benchmark for Rare Anomaly Localization and Clinical Reasoning in Brain MRI

Cosmin Bercea, Jun Li, Philipp Raffler et al.

NEURIPS 2025oral

#3914

Scene Map-based Prompt Tuning for Navigation Instruction Generation

Sheng Fan, Rui Liu, Wenguan Wang et al.

AAAI 2025paperarXiv:2412.13594

#3915

Generalizable Sensor-Based Activity Recognition via Categorical Concept Invariant Learning

Di Xiong, Shuoyuan Wang, Lei Zhang et al.

ICML 2025arXiv:2501.16168

#3916

Ringmaster ASGD: The First Asynchronous SGD with Optimal Time Complexity

Artavazd Maranjyan, Alexander Tyurin, Peter Richtarik

NEURIPS 2025arXiv:2505.17373

#3917

Value-Guided Search for Efficient Chain-of-Thought Reasoning

Kaiwen Wang, Jin Zhou, Jonathan Chang et al.

AAAI 2025paperarXiv:2501.15508

#3918

Learning Complex Heterogeneous Multimodal Fake News via Social Latent Network Inference

Mingxin Li, Yuchen Zhang, Haowei Xu et al.

#3919

Noisy Label Calibration for Multi-View Classification

Shilin Xu, Yuan Sun, Xingfeng Li et al.

ICLR 2025arXiv:2406.04046

#3920

ActionReasoningBench: Reasoning about Actions with and without Ramification Constraints

Divij Handa, Pavel Dolin, Shrinidhi Kumbhar et al.

NEURIPS 2025oralarXiv:2506.09518

#3921

HAIF-GS: Hierarchical and Induced Flow-Guided Gaussian Splatting for Dynamic Scene

Jianing Chen, Zehao Li, Yujun Cai et al.

NEURIPS 2025oralarXiv:2505.23150

#3922

Bigger, Regularized, Categorical: High-Capacity Value Functions are Efficient Multi-Task Learners

Michal Nauman, Marek Cygan, Carmelo Sferrazza et al.

ICLR 2025arXiv:2503.00870

#3923

NeSyC: A Neuro-symbolic Continual Learner For Complex Embodied Tasks in Open Domains

Wonje Choi, Jinwoo Park, Sanghyun Ahn et al.

#3924

Learning Fine-Grained Representations through Textual Token Disentanglement in Composed Video Retrieval

Yue Wu, Zhaobo Qi, Yiling Wu et al.

NEURIPS 2025spotlightarXiv:2508.05941

#3925

Latent Policy Barrier: Learning Robust Visuomotor Policies by Staying In-Distribution

Zhanyi Sun, Shuran Song

ICLR 2025arXiv:2406.04619

#3926

CTSyn: A Foundation Model for Cross Tabular Data Generation

Xiaofeng Lin, Chenheng Xu, Matthew Yang et al.

ICCV 2025arXiv:2504.07940

#3927

Beyond the Frame: Generating 360° Panoramic Videos from Perspective Videos

Rundong Luo, Matthew Wallingford, Ali Farhadi et al.

#3928

DAMO: Decoding by Accumulating Activations Momentum for Mitigating Hallucinations in Vision-Language Models

Kaishen Wang, Hengrui Gu, Meijun Gao et al.

AAAI 2025paperarXiv:2405.08674

#3929

Expensive Multi-Objective Bayesian Optimization Based on Diffusion Models

Bingdong Li, Zixiang Di, Yongfan Lu et al.

ISMAR 2025paperarXiv:2507.20356

#3930

Detecting Visual Information Manipulation Attacks in Augmented Reality: A Multimodal Semantic Reasoning Approach

Yanming Xiu, Maria Gorlatova

AAAI 2025paperarXiv:2311.14265

#3931

Adaptive Calibration: A Unified Conversion Framework of Spiking Neural Networks

Ziqing Wang, Yuetong Fang, Jiahang Cao et al.

NEURIPS 2025arXiv:2505.24878

#3932

Open CaptchaWorld: A Comprehensive Web-based Platform for Testing and Benchmarking Multimodal LLM Agents

Yaxin Luo, Zhaoyi Li, Jiacheng Liu et al.

ICLR 2025arXiv:2502.15895

#3933

Directional Gradient Projection for Robust Fine-Tuning of Foundation Models

Chengyue Huang, Junjiao Tian, Brisa Maneechotesuwan et al.

AAAI 2025paperarXiv:2412.10185

#3934

Solving Robust Markov Decision Processes: Generic, Reliable, Efficient

Tobias Meggendorfer, Maximilian Weininger, Patrick Wienhöft

ICML 2025oralarXiv:2502.02450

#3935

Robust and Conjugate Spatio-Temporal Gaussian Processes

William Laplante, Matias Altamirano, Andrew Duncan et al.

CVPR 2025arXiv:2505.24816

#3936

CL-LoRA: Continual Low-Rank Adaptation for Rehearsal-Free Class-Incremental Learning

Jiangpeng He, Zhihao Duan, Fengqing Zhu

CVPR 2025arXiv:2504.20026

#3937

LIRM: Large Inverse Rendering Model for Progressive Reconstruction of Shape, Materials and View-dependent Radiance Fields

Zhengqin Li, Dilin Wang, Ka chen et al.

ICCV 2025highlightarXiv:2507.20291

#3938

Fine-structure Preserved Real-world Image Super-resolution via Transfer VAE Training

Qiaosi Yi, Shuai Li, Rongyuan Wu et al.

NEURIPS 2025arXiv:2505.20259

#3939

Lifelong Safety Alignment for Language Models

Haoyu Wang, Yifei Zhao, Zeyu Qin et al.

CVPR 2025arXiv:2411.01492

#3940

EEE-Bench: A Comprehensive Multimodal Electrical And Electronics Engineering Benchmark

Ming Li, Jike Zhong, Tianle Chen et al.

NEURIPS 2025arXiv:2503.19618

#3941

Beyond Verifiable Rewards: Scaling Reinforcement Learning in Language Models to Unverifiable Data

Yunhao Tang, Sid Wang, Lovish Madaan et al.

ICLR 2025arXiv:2410.01556

#3942

Integrative Decoding: Improving Factuality via Implicit Self-consistency

Yi Cheng, Xiao Liang, Yeyun Gong et al.

ICLR 2025arXiv:2501.15356

#3943

Federated Class-Incremental Learning: A Hybrid Approach Using Latent Exemplars and Data-Free Techniques to Address Local and Global Forgetting

Milad Khademi Nori, IL-MIN KIM, Guanghui Wang

CVPR 2025arXiv:2412.09593

#3944

Neural LightRig: Unlocking Accurate Object Normal and Material Estimation with Multi-Light Diffusion

Zexin He, Tengfei Wang, Xin Huang et al.

CVPR 2025arXiv:2507.06928

#3945

Adaptive Part Learning for Fine-Grained Generalized Category Discovery: A Plug-and-Play Enhancement

Qiyuan Dai, Hanzhuo Huang, Yu Wu et al.

NEURIPS 2025arXiv:2503.02918

#3946

Straight-Line Diffusion Model for Efficient 3D Molecular Generation

Yuyan Ni, Shikun Feng, Haohan Chi et al.

CVPR 2025arXiv:2403.12922

#3947

Contextual AD Narration with Interleaved Multimodal Sequence

Hanlin Wang, Zhan Tong, Kecheng Zheng et al.

NEURIPS 2025arXiv:2505.18531

#3948

Generative RLHF-V: Learning Principles from Multi-modal Human Preference

Jiayi Zhou, Jiaming Ji, Boyuan Chen et al.

ICLR 2025arXiv:2403.13838

#3949

Circuit Transformer: A Transformer That Preserves Logical Equivalence

Xihan Li, Xing Li, Lei Chen et al.

NEURIPS 2025arXiv:2506.15692

#3950

MLE-STAR: Machine Learning Engineering Agent via Search and Targeted Refinement

Jaehyun Nam, Jinsung Yoon, Jiefeng Chen et al.

CVPR 2025arXiv:2411.05738

#3951

StdGEN: Semantic-Decomposed 3D Character Generation from Single Images

Yuze He, Yanning Zhou, Wang Zhao et al.

ICLR 2025oralarXiv:2410.05805

#3952

PostCast: Generalizable Postprocessing for Precipitation Nowcasting via Unsupervised Blurriness Modeling

Junchao Gong, Siwei Tu, Weidong Yang et al.

CVPR 2025highlightarXiv:2502.15011

#3953

CrossOver: 3D Scene Cross-Modal Alignment

Sayan Deb Sarkar, Ondrej Miksik, Marc Pollefeys et al.

NEURIPS 2025arXiv:2510.02912

#3954

Don't Just Chase “Highlighted Tokens” in MLLMs: Revisiting Visual Holistic Context Retention

Xin Zou, Di Lu, Yizhou Wang et al.

#3955

AnoLLM: Large Language Models for Tabular Anomaly Detection

Che-Ping Tsai, Ganyu Teng, Phillip Wallis et al.

CVPR 2025arXiv:2503.18434

#3956

A Simple yet Effective Layout Token in Large Language Models for Document Understanding

Zhaoqing Zhu, Chuwei Luo, Zirui Shao et al.

CVPR 2025arXiv:2503.06514

#3957

GFlowVLM: Enhancing Multi-step Reasoning in Vision-Language Models with Generative Flow Networks

Haoqiang Kang, Enna Sachdeva, Piyush Gupta et al.

ICCV 2025arXiv:2507.22872

#3958

TR-PTS: Task-Relevant Parameter and Token Selection for Efficient Tuning

Siqi Luo, Haoran Yang, Yi Xin et al.

ICCV 2025arXiv:2507.13812

#3959

SkySense V2: A Unified Foundation Model for Multi-modal Remote Sensing

Yingying Zhang, Lixiang Ru, Kang Wu et al.

CVPR 2025arXiv:2408.16266

#3960

Inversion Circle Interpolation: Diffusion-based Image Augmentation for Data-scarce Classification

Yanghao Wang, Long Chen

CVPR 2025arXiv:2412.04146

#3961

AnyDressing: Customizable Multi-Garment Virtual Dressing via Latent Diffusion Models

Xinghui Li, Qichao Sun, Pengze Zhang et al.

NEURIPS 2025oralarXiv:2507.09122

#3962

SnapMoGen: Human Motion Generation from Expressive Texts

chuan guo, Inwoo Hwang, Jian Wang et al.

NEURIPS 2025arXiv:2510.21204

#3963

Mitra: Mixed Synthetic Priors for Enhancing Tabular Foundation Models

Xiyuan Zhang, Danielle Maddix Robinson, Junming Yin et al.

ICLR 2025arXiv:2404.05662

#3964

BinaryDM: Accurate Weight Binarization for Efficient Diffusion Models

Xingyu Zheng, Xianglong Liu, Haotong Qin et al.

ICLR 2025arXiv:2405.02154

#3965

Neural Context Flows for Meta-Learning of Dynamical Systems

Roussel Desmond Nzoyem, David Barton, Tom Deakin

NEURIPS 2025spotlightarXiv:2506.10707

#3966

ConTextTab: A Semantics-Aware Tabular In-Context Learner

Marco Spinaci, Marek Polewczyk, Maximilian Schambach et al.

NEURIPS 2025arXiv:2505.16091

#3967

OSCAR: One-Step Diffusion Codec Across Multiple Bit-rates

Jinpei Guo, Yifei Ji, Zheng Chen et al.

CVPR 2025arXiv:2504.02764

#3968

Scene Splatter: Momentum 3D Scene Generation from Single Image with Video Diffusion Model

Shengjun Zhang, Jinzhao Li, Xin Fei et al.

CVPR 2025highlightarXiv:2503.20308

#3969

Perceptually Accurate 3D Talking Head Generation: New Definitions, Speech-Mesh Representation, and Evaluation Metrics

Lee Chae-Yeon, Oh Hyun-Bin, Han EunGi et al.

ICLR 2025arXiv:2405.14105

#3970

Distributed Speculative Inference (DSI): Speculation Parallelism for Provably Faster Lossless Language Model Inference

Nadav Timor, Jonathan Mamou, Daniel Korat et al.

#3971

Dynamic-Width Speculative Beam Decoding for LLM Inference

Zongyue Qin, Zifan He, Neha Prakriya et al.

AAAI 2025paperarXiv:2404.17513

#3972

A Comprehensive Evaluation on Event Reasoning of Large Language Models

Zhengwei Tao, Zhi Jin, Yifan Zhang et al.

AAAI 2025paperarXiv:2407.12021

#3973

Adaptive Draft-Verification for Efficient Large Language Model Decoding

Xukun Liu, Bowen Lei, Ruqi Zhang et al.

CVPR 2025arXiv:2405.04533

#3974

ChatHuman: Chatting about 3D Humans with Tools

Jing Lin, Yao Feng, Weiyang Liu et al.

CVPR 2025arXiv:2411.17176

#3975

ChatGen: Automatic Text-to-Image Generation From FreeStyle Chatting

Chengyou Jia, Changliang Xia, Zhuohang Dang et al.

ICLR 2025arXiv:2410.04844

#3976

PostEdit: Posterior Sampling for Efficient Zero-Shot Image Editing

Feng Tian, Yixuan Li, Yichao Yan et al.

ICLR 2025arXiv:2503.10616

#3977

OVTR: End-to-End Open-Vocabulary Multiple Object Tracking with Transformer

Jinyang Li, En Yu, Sijia Chen et al.

NEURIPS 2025arXiv:2504.13128

#3978

FreshStack: Building Realistic Benchmarks for Evaluating Retrieval on Technical Documents

Nandan Thakur, Jimmy Lin, Samuel Havens et al.

NEURIPS 2025spotlightarXiv:2505.16761

#3979

Mesh-RFT: Enhancing Mesh Generation via Fine-grained Reinforcement Fine-Tuning

Jian Liu, Jing Xu, Song Guo et al.

NEURIPS 2025spotlightarXiv:2506.01430

#3980

DNAEdit: Direct Noise Alignment for Text-Guided Rectified Flow Editing

Chenxi Xie, Minghan Li, Shuai Li et al.

CVPR 2025highlightarXiv:2410.23780

#3981

Driving by the Rules: A Benchmark for Integrating Traffic Sign Regulations into Vectorized HD Map

Xinyuan Chang, Maixuan Xue, Xinran Liu et al.

ICLR 2025arXiv:2310.05375

#3982

IPDreamer: Appearance-Controllable 3D Object Generation with Complex Image Prompts

Bohan Zeng, Shanglin Li, Yutang Feng et al.

AAAI 2025paperarXiv:2401.17809

#3983

SWEA: Updating Factual Knowledge in Large Language Models via Subject Word Embedding Altering

Xiaopeng Li, Shasha Li, Shezheng Song et al.

ICLR 2025arXiv:2410.11302

#3984

Have the VLMs Lost Confidence? A Study of Sycophancy in VLMs

Shuo Li, Tao Ji, Xiaoran Fan et al.

CVPR 2025arXiv:2506.01558

#3985

SAM2-LOVE: Segment Anything Model 2 in Language-aided Audio-Visual Scenes

Yuji Wang, Haoran Xu, Yong Liu et al.

ICCV 2025arXiv:2412.05256

#3986

Extrapolated Urban View Synthesis Benchmark

Xiangyu Han, Zhen Jia, Boyi Li et al.

NEURIPS 2025arXiv:2505.17895

#3987

DataRater: Meta-Learned Dataset Curation

Dan Andrei Calian, Greg Farquhar, Iurii Kemaev et al.

AAAI 2025paperarXiv:2501.14300

#3988

Fast Think-on-Graph: Wider, Deeper and Faster Reasoning of Large Language Model on Knowledge Graph

Xujian Liang, Zhaoquan Gu

ICLR 2025arXiv:2408.06793

#3989

Layerwise Recurrent Router for Mixture-of-Experts

Zihan Qiu, Zeyu Huang, Shuang Cheng et al.

ICCV 2025arXiv:2404.11614

#3990

Dynamic Typography: Bringing Text to Life via Video Diffusion Prior

Zichen Liu, Yihao Meng, Hao Ouyang et al.

CVPR 2025arXiv:2501.18804

#3991

Zero-Shot Novel View and Depth Synthesis with Multi-View Geometric Diffusion

Vitor Guizilini, Muhammad Zubair Irshad, Dian Chen et al.

CVPR 2025arXiv:2406.09390

#3992

LLAVIDAL: A Large LAnguage VIsion Model for Daily Activities of Living

Dominick Reilly, Rajatsubhra Chakraborty, Arkaprava Sinha et al.

NEURIPS 2025arXiv:2505.24623

#3993

Hyperbolic Dataset Distillation

Wenyuan Li, Guang Li, Keisuke Maeda et al.

ICLR 2025arXiv:2402.11981

#3994

Universal generalization guarantees for Wasserstein distributionally robust models

Tam Le, Jerome Malick

#3995

Distilling Structured Rationale from Large Language Models to Small Language Models for Abstractive Summarization

Linyong Wang, Lianwei Wu, Shaoqi Song et al.

ICCV 2025highlightarXiv:2504.01647

#3996

FlowR: Flowing from Sparse to Dense 3D Reconstructions

Tobias Fischer, Samuel Rota Bulò, Yung-Hsu Yang et al.

ICLR 2025arXiv:2411.01894

#3997

Efficient Active Imitation Learning with Random Network Distillation

Emilien Biré, Anthony Kobanda, Ludovic Denoyer et al.

ICCV 2025arXiv:2502.05040

#3998

GaussRender: Learning 3D Occupancy with Gaussian Rendering

Loick Chambon, Eloi Zablocki, Alexandre Boulch et al.

NEURIPS 2025spotlightarXiv:2506.09251

#3999

Extrapolation by Association: Length Generalization Transfer In Transformers

Ziyang Cai, Nayoung Lee, Avi Schwarzschild et al.

ICLR 2025arXiv:2501.00658

#4000

Understanding and Mitigating Bottlenecks of State Space Models through the Lens of Recency and Over-smoothing

Peihao Wang, Ruisi Cai, Yuehao Wang et al.