Most Cited 2025 &quot;linear speedup convergence&quot; Papers

AAAI 2025paperarXiv:2503.08084

#3802

Instruction-Augmented Long-Horizon Planning: Embedding Grounding Mechanisms in Embodied Mobile Manipulation

Fangyuan Wang, Shipeng Lyu, Peng Zhou et al.

AAAI 2025paperarXiv:2501.08001

#3803

GDiffRetro: Retrosynthesis Prediction with Dual Graph Enhanced Molecular Representation and Diffusion Generation

Shengyin Sun, Wenhao Yu, Yuxiang Ren et al.

ICML 2025posterarXiv:2502.00245

#3804

Contrastive Private Data Synthesis via Weighted Multi-PLM Fusion

Tianyuan Zou, Yang Liu, Peng Li et al.

ICLR 2025posterarXiv:2501.14038

#3805

Implicit Neural Surface Deformation with Explicit Velocity Fields

Lu Sang, Zehranaz Canfes, Dongliang Cao et al.

ICLR 2025posterarXiv:2410.03478

#3806

VEDIT: Latent Prediction Architecture For Procedural Video Representation Learning

Han Lin, Tushar Nagarajan, Nicolas Ballas et al.

#3807

SSL-STMFormer Self-Supervised Learning Spatio-Temporal Entanglement Transformer for Traffic Flow Prediction

Zetao Li, Zheng Hu, Peng Han et al.

CVPR 2025posterarXiv:2412.04470

#3808

Turbo3D: Ultra-fast Text-to-3D Generation

Hanzhe Hu, Tianwei Yin, Fujun Luan et al.

NEURIPS 2025posterarXiv:2507.19060

#3809

PurpCode: Reasoning for Safer Code Generation

Jiawei Liu, Nirav Diwan, Zhe Wang et al.

ICCV 2025highlightarXiv:2506.23639

#3810

Unified Multimodal Understanding via Byte-Pair Visual Encoding

Wanpeng Zhang, Yicheng Feng, Hao Luo et al.

CVPR 2025posterarXiv:2503.04639

#3811

Enhancing SAM with Efficient Prompting and Preference Optimization for Semi-supervised Medical Image Segmentation

Aishik Konwer, Zhijian Yang, Erhan Bas et al.

ICLR 2025posterarXiv:2406.03068

#3812

Distributional Associations vs In-Context Reasoning: A Study of Feed-forward and Attention Layers

Lei Chen, Joan Bruna, Alberto Bietti

ICML 2025posterarXiv:2410.22330

#3813

Vision-Language Models Create Cross-Modal Task Representations

Grace Luo, Trevor Darrell, Amir Bar

ICML 2025posterarXiv:2506.12822

#3814

Enhancing Rating-Based Reinforcement Learning to Effectively Leverage Feedback from Large Vision-Language Models

Minh-Tung Luu, Younghwan Lee, Donghoon Lee et al.

ICML 2025posterarXiv:2502.02789

#3815

Speculative Prefill: Turbocharging TTFT with Lightweight and Training-Free Token Importance Estimation

Jingyu Liu, Beidi Chen, Ce Zhang

ICLR 2025posterarXiv:2502.19009

#3816

Distilling Reinforcement Learning Algorithms for In-Context Model-Based Planning

Jaehyeon Son, Soochan Lee, Gunhee Kim

NEURIPS 2025posterarXiv:2506.14852

#3817

Agentic Plan Caching: Test-Time Memory for Fast and Cost-Efficient LLM Agents

Qizheng Zhang, Michael Wornow, Kunle Olukotun

NEURIPS 2025posterarXiv:2506.21356

#3818

ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models

Hongbo Liu, Jingwen He, Yi Jin et al.

ICLR 2025posterarXiv:2410.17174

#3819

From Attention to Activation: Unraveling the Enigmas of Large Language Models

Prannay Kaul, Chengcheng Ma, Ismail Elezi et al.

ICLR 2025posterarXiv:2503.00703

#3820

Towards hyperparameter-free optimization with differential privacy

Ruixuan Liu, Zhiqi Bu

NEURIPS 2025posterarXiv:2502.02421

#3821

Activation-Informed Merging of Large Language Models

Amin Heyrani Nobari, Kaveh Alimohammadi, Ali ArjomandBigdeli et al.

AAAI 2025paperarXiv:2408.08578

#3822

TAMER: Tree-Aware Transformer for Handwritten Mathematical Expression Recognition

Jianhua Zhu, Wenqi Zhao, Yu Li et al.

ICLR 2025posterarXiv:2411.04130

#3823

ShEPhERD: Diffusing shape, electrostatics, and pharmacophores for bioisosteric drug design

Keir Adams, Kento Abeywardane, Jenna Fromer et al.

#3824

DoF: A Diffusion Factorization Framework for Offline Multi-Agent Reinforcement Learning

Chao Li, Ziwei Deng, Chenxing Lin et al.

ICCV 2025posterarXiv:2508.05038

#3825

HAMoBE: Hierarchical and Adaptive Mixture of Biometric Experts for Video-based Person ReID

Yiyang Su, Yunping Shi, Feng Liu et al.

ICML 2025posterarXiv:2408.09121

#3826

Selective Prompt Anchoring for Code Generation

Yuan Tian, Tianyi Zhang

CVPR 2025highlightarXiv:2503.07635

#3827

Cross-modal Causal Relation Alignment for Video Question Grounding

weixing chen, Yang Liu, Binglin Chen et al.

CVPR 2025posterarXiv:2504.06120

#3828

Hyperbolic Category Discovery

Yuanpei Liu, Zhenqi He, Kai Han

NEURIPS 2025spotlightarXiv:2509.09672

#3829

Locality in Image Diffusion Models Emerges from Data Statistics

Artem Lukoianov, Chenyang Yuan, Justin Solomon et al.

ICCV 2025posterarXiv:2504.10414

#3830

HUMOTO: A 4D Dataset of Mocap Human Object Interactions

Jiaxin Lu, Chun-Hao Huang, Uttaran Bhattacharya et al.

NEURIPS 2025posterarXiv:2506.09050

#3831

ALE-Bench: A Benchmark for Long-Horizon Objective-Driven Algorithm Engineering

Yuki Imajuku, Kohki Horie, Yoichi Iwata et al.

CVPR 2025posterarXiv:2503.06621

#3832

Dynamic Updates for Language Adaptation in Visual-Language Tracking

Xiaohai Li, Bineng Zhong, Qihua Liang et al.

#3833

GPS: A Probabilistic Distributional Similarity with Gumbel Priors for Set-to-Set Matching

Ziming Zhang, Fangzhou Lin, Haotian Liu et al.

ICLR 2025oral

CVPR 2025posterarXiv:2503.18513

#3834

LookCloser: Frequency-aware Radiance Field for Tiny-Detail Scene

Xiaoyu Zhang, Weihong Pan, Chong Bao et al.

ICLR 2025posterarXiv:2412.03161

#3835

Physics-Informed Deep Inverse Operator Networks for Solving PDE Inverse Problems

Sung Woong Cho, Hwijae Son

CVPR 2025posterarXiv:2406.19827

#3836

Towards Stable and Storage-efficient Dataset Distillation: Matching Convexified Trajectory

Wenliang Zhong, Haoyu Tang, Qinghai Zheng et al.

CVPR 2025highlightarXiv:2503.18420

#3837

Panorama Generation From NFoV Image Done Right

Dian Zheng, Cheng Zhang, Xiao-Ming Wu et al.

AAAI 2025paperarXiv:2407.09774

#3838

ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context

Sixiao Zheng, Yanwei Fu

CVPR 2025posterarXiv:2502.20249

#3839

Enhancing 3D Gaze Estimation in the Wild using Weak Supervision with Gaze Following Labels

Pierre Vuillecard, Jean-marc Odobez

ICCV 2025posterarXiv:2410.09865

#3840

SynFER: Towards Boosting Facial Expression Recognition with Synthetic Data

Xilin He, Cheng Luo, Xiaole Xian et al.

#3841

MMSearch: Unveiling the Potential of Large Models as Multi-modal Search Engines

Dongzhi Jiang, Renrui Zhang, Ziyu Guo et al.

NEURIPS 2025spotlightarXiv:2501.04126

#3842

Stochastic Process Learning via Operator Flow Matching

Yaozhong Shi, Zachary Ross, Domniki Asimaki et al.

AAAI 2025paperarXiv:2501.11124

#3843

Rethinking Pseudo-Label Guided Learning for Weakly Supervised Temporal Action Localization from the Perspective of Noise Correction

Quan Zhang, Yuxin Qi, Xi Tang et al.

AAAI 2025paperarXiv:2412.20657

#3844

DiffGrasp: Whole-Body Grasping Synthesis Guided by Object Motion Using a Diffusion Model

Yonghao Zhang, Qiang He, Yanguang Wan et al.

ICML 2025posterarXiv:2502.02514

#3845

Privacy Attacks on Image AutoRegressive Models

Antoni Kowalczuk, Jan Dubiński, Franziska Boenisch et al.

NEURIPS 2025spotlightarXiv:2505.19350

#3846

FlashMD: long-stride, universal prediction of molecular dynamics

Filippo Bigi, Sanggyu Chong, Agustinus Kristiadi et al.

NEURIPS 2025posterarXiv:2510.20661

#3847

UltraHR-100K: Enhancing UHR Image Synthesis with A Large-Scale High-Quality Dataset

Chen Zhao, En Ci, Yunzhe Xu et al.

ICLR 2025posterarXiv:2412.14301

#3848

What Has Been Overlooked in Contrastive Source-Free Domain Adaptation: Leveraging Source-Informed Latent Augmentation within Neighborhood Context

JING WANG, Wonho Bae, Jiahong Chen et al.

AAAI 2025paperarXiv:2408.15461

#3849

Hand1000: Generating Realistic Hands from Text with Only 1,000 Images

Haozhuo Zhang, Bin Zhu, Yu Cao et al.

AAAI 2025paperarXiv:2412.11634

#3850

Predicting the Original Appearance of Damaged Historical Documents

Zhenhua Yang, Dezhi Peng, Yongxin Shi et al.

CVPR 2025posterarXiv:2412.17630

#3851

Detail-Preserving Latent Diffusion for Stable Shadow Removal

Jiamin Xu, Yuxin Zheng, Zelong Li et al.

AAAI 2025paperarXiv:2409.13407

#3852

Instruction-guided Multi-Granularity Segmentation and Captioning with Large Multimodal Model

Xu Yuan, Li Zhou, Zenghui Sun et al.

#3853

Towards Robustness and Explainability of Automatic Algorithm Selection

Xingyu Wu, Jibin Wu, Yu Zhou et al.

ICML 2025spotlight

NEURIPS 2025posterarXiv:2505.18781

#3854

Geometry Aware Operator Transformer as an efficient and accurate neural surrogate for PDEs on arbitrary domains

Shizheng Wen, Arsh Kumbhat, Levi Lingsch et al.

NEURIPS 2025posterarXiv:2506.11136

#3855

JAFAR: Jack up Any Feature at Any Resolution

Paul Couairon, Loïck Chambon, Louis Serrano et al.

NEURIPS 2025posterarXiv:2505.18809

#3856

VORTA: Efficient Video Diffusion via Routing Sparse Attention

Wenhao Sun, Rong-Cheng Tu, Yifu Ding et al.

NEURIPS 2025posterarXiv:2507.06920

#3857

Rethinking Verification for LLM Code Generation: From Generation to Testing

Zihan Ma, Taolin Zhang, Maosongcao et al.

CVPR 2025posterarXiv:2409.06214

#3858

Towards Generalizable Scene Change Detection

Jae-Woo KIM, Ue-Hwan Kim

ICLR 2025posterarXiv:2403.14715

#3859

Towards Understanding Why Label Smoothing Degrades Selective Classification and How to Fix It

Guoxuan Xia, Olivier Laurent, Gianni Franchi et al.

ICLR 2025posterarXiv:2405.19230

#3860

Valid Conformal Prediction for Dynamic GNNs

Ed Davis, Ian Gallagher, Daniel Lawson et al.

#3861

DanceFix: An Exploration in Group Dance Neatness Assessment Through Fixing Abnormal Challenges of Human Pose

Huangbiao Xu, Xiao Ke, Huanqi Wu et al.

CVPR 2025posterarXiv:2505.06166

#3862

DiffLocks: Generating 3D Hair from a Single Image using Diffusion Models

Radu Alexandru Rosu, Keyu Wu, Yao Feng et al.

ICML 2025spotlightarXiv:2412.09729

#3863

Doubly Robust Conformalized Survival Analysis with Right-Censored Data

Matteo Sesia, vladimir svetnik

CVPR 2025posterarXiv:2503.01725

#3864

HarmonySet: A Comprehensive Dataset for Understanding Video-Music Semantic Alignment and Temporal Synchronization

Zitang Zhou, Ke Mei, Yu Lu et al.

ICCV 2025posterarXiv:2507.20519

#3865

AgroBench: Vision-Language Model Benchmark in Agriculture

Risa Shinoda, Nakamasa Inoue, Hirokatsu Kataoka et al.

CVPR 2025posterarXiv:2412.02071

#3866

Progress-Aware Video Frame Captioning

Zihui Xue, Joungbin An, Xitong Yang et al.

ICCV 2025posterarXiv:2411.16072

#3867

Language Driven Occupancy Prediction

Zhu Yu, Bowen Pang, Lizhe Liu et al.

NEURIPS 2025posterarXiv:2502.16816

#3868

Finite-Sample Analysis of Policy Evaluation for Robust Average Reward Reinforcement Learning

Yang Xu, Washim Mondal, Vaneet Aggarwal

ICLR 2025posterarXiv:2407.07356

#3869

Video In-context Learning: Autoregressive Transformers are Zero-Shot Video Imitators

Wentao Zhang, Junliang Guo, Tianyu He et al.

AAAI 2025paperarXiv:2406.00346

#3870

Details Enhancement in Unsigned Distance Field Learning for High-fidelity 3D Surface Reconstruction

Cheng Xu, Fei Hou, Wencheng Wang et al.

ICCV 2025posterarXiv:2412.11258

#3871

GaussianProperty: Integrating Physical Properties to 3D Gaussians with LMMs

Xinli Xu, Wenhang Ge, Dicong Qiu et al.

NEURIPS 2025spotlightarXiv:2502.01826

#3872

GSRF: Complex-Valued 3D Gaussian Splatting for Efficient Radio-Frequency Data Synthesis

Kang Yang, Gaofeng Dong, Sijie Ji et al.

CVPR 2025posterarXiv:2503.24210

#3873

DiET-GS: Diffusion Prior and Event Stream-Assisted Motion Deblurring 3D Gaussian Splatting

Seungjun Lee, Gim Hee Lee

AAAI 2025paperarXiv:2407.01081

#3874

CVLUE: A New Benchmark Dataset for Chinese Vision-Language Understanding Evaluation

Yuxuan Wang, Yijun Liu, Fei Yu et al.

CVPR 2025highlightarXiv:2505.24315

#3875

InteractAnything: Zero-shot Human Object Interaction Synthesis via LLM Feedback and Object Affordance Parsing

Jinlu Zhang, Yixin Chen, Zan Wang et al.

#3876

SMT: Fine-Tuning Large Language Models with Sparse Matrices

Haoze He, Juncheng Li, Xuan Jiang et al.

CVPR 2025highlightarXiv:2502.20162

#3877

Gradient-Guided Annealing for Domain Generalization

Aristotelis Ballas, Christos Diou

CVPR 2025highlightarXiv:2503.04919

#3878

FirePlace: Geometric Refinements of LLM Common Sense Reasoning for 3D Object Placement

Ian Huang, Yanan Bao, Karen Truong et al.

ICLR 2025posterarXiv:2405.12519

#3879

MAGE: Model-Level Graph Neural Networks Explanations via Motif-based Graph Generation

Zhaoning Yu, Hongyang Gao

ICCV 2025highlightarXiv:2507.07424

#3880

Corvid: Improving Multimodal Large Language Models Towards Chain-of-Thought Reasoning

Jingjing Jiang, Chao Ma, Xurui Song et al.

NEURIPS 2025posterarXiv:2506.15838

#3881

EchoShot: Multi-Shot Portrait Video Generation

Jiahao Wang, Hualian Sheng, Sijia Cai et al.

ICML 2025spotlightarXiv:2505.24445

#3882

Learning Safety Constraints for Large Language Models

Xin Chen, Yarden As, Andreas Krause

#3883

Effective and Efficient Time-Varying Counterfactual Prediction with State-Space Models

Haotian Wang, Haoxuan Li, Hao Zou et al.

ICCV 2025posterarXiv:2508.02293

#3884

Towards Real Unsupervised Anomaly Detection Via Confident Meta-Learning

Muhammad Aqeel, Shakiba Sharifi, Marco Cristani et al.

CVPR 2025posterarXiv:2411.11909

#3885

SymDPO: Boosting In-Context Learning of Large Multimodal Models with Symbol Demonstration Direct Preference Optimization

Hongrui Jia, Chaoya Jiang, Haiyang Xu et al.

#3886

UniCoTT: A Unified Framework for Structural Chain-of-Thought Distillation

Xianwei Zhuang, Zhihong Zhu, Zhichang Wang et al.

ICLR 2025oralarXiv:2509.18627

#3887

BRAID: Input-driven Nonlinear Dynamical Modeling of Neural-Behavioral Data

Parsa Vahidi, Omid G. Sani, Maryam Shanechi

ICLR 2025posterarXiv:2405.17035

#3888

Glauber Generative Model: Discrete Diffusion Models via Binary Classification

Harshit Varma, Dheeraj Nagaraj, Karthikeyan Shanmugam

ICLR 2025posterarXiv:2310.11211

#3889

Understanding Fairness Surrogate Functions in Algorithmic Fairness

Yong Liu, (Andrew) Zhanke Zhou, Zhicong Li et al.

NEURIPS 2025posterarXiv:2502.16671

#3890

MimeQA: Towards Socially-Intelligent Nonverbal Foundation Models

Hengzhi Li, Megan Tjandrasuwita, Yi R. (May) Fung et al.

NEURIPS 2025posterarXiv:2410.13903

#3891

CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment

Qinfeng Li, Tianyue Luo, Xuhong Zhang et al.

NEURIPS 2025posterarXiv:2506.01480

#3892

Janus-Pro-R1: Advancing Collaborative Visual Comprehension and Generation via Reinforcement Learning

Kaihang Pan, Yang Wu, Wendong Bu et al.

ICLR 2025posterarXiv:2501.04304

#3893

DGQ: Distribution-Aware Group Quantization for Text-to-Image Diffusion Models

Hyogon Ryu, NaHyeon Park, Hyunjung Shim

ICLR 2025posterarXiv:2410.18538

#3894

SMITE: Segment Me In TimE

Amirhossein Alimohammadi, Sauradip Nag, Saeid Asgari et al.

CVPR 2025posterarXiv:2503.01291

#3895

SemGeoMo: Dynamic Contextual Human Motion Generation with Semantic and Geometric Guidance

Peishan Cong, Ziyi Wang, Yuexin Ma et al.

AAAI 2025paperarXiv:2404.18598

#3896

Anywhere: A Multi-Agent Framework for User-Guided, Reliable, and Diverse Foreground-Conditioned Image Generation

Xie Tianyidan, Rui Ma, Qian Wang et al.

CVPR 2025posterarXiv:2411.18552

#3897

FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable Diffusion

Haosen Yang, Adrian Bulat, Isma Hadji et al.

ICML 2025oralarXiv:2503.14378

#3898

Impossible Videos

Zechen Bai, Hai Ci, Mike Zheng Shou

AAAI 2025paperarXiv:2412.15650

#3899

Beyond Human Data: Aligning Multimodal Large Language Models by Iterative Self-Evolution

Wentao Tan, Qiong Cao, Yibing Zhan et al.

ICCV 2025posterarXiv:2503.12897

#3900

Federated Continual Instruction Tuning

Haiyang Guo, Fanhu Zeng, Fei Zhu et al.

ICML 2025posterarXiv:2410.05078

#3901

Compression via Pre-trained Transformers: A Study on Byte-Level Multimodal Data

David Heurtel-Depeiges, Anian Ruoss, Joel Veness et al.

AAAI 2025paperarXiv:2502.02438

#3902

Medical Multimodal Model Stealing Attacks via Adversarial Domain Alignment

Yaling Shen, Zhixiong Zhuang, Kun Yuan et al.

AAAI 2025paperarXiv:2412.14576

#3903

Alignment-Free RGB-T Salient Object Detection: A Large-Scale Dataset and Progressive Correlation Network

Kunpeng Wang, Keke Chen, Chenglong Li et al.

NEURIPS 2025posterarXiv:2406.01899

#3904

Cross-Domain Graph Data Scaling: A Showcase with Diffusion Models

Wenzhuo Tang, Haitao Mao, Danial Dervovic et al.

ICLR 2025posterarXiv:2501.15878

#3905

Slot-Guided Adaptation of Pre-trained Diffusion Models for Object-Centric Learning and Compositional Generation

adil kaan akan, Yucel Yemez

NEURIPS 2025posterarXiv:2506.15691

#3906

What Do Latent Action Models Actually Learn?

Chuheng Zhang, Tim Pearce, Pushi Zhang et al.

CVPR 2025posterarXiv:2408.17135

#3907

TIMotion: Temporal and Interactive Framework for Efficient Human-Human Motion Generation

Yabiao Wang, Shuo Wang, Jiangning Zhang et al.

CVPR 2025posterarXiv:2509.09555

#3908

InterAct: Advancing Large-Scale Versatile 3D Human-Object Interaction Generation

Sirui Xu, Dongting Li, Yucheng Zhang et al.

NEURIPS 2025posterarXiv:2505.15152

#3909

Sculpting Features from Noise: Reward-Guided Hierarchical Diffusion for Task-Optimal Feature Transformation

Nanxu Gong, Zijun Li, Sixun Dong et al.

ICML 2025posterarXiv:2501.18537

#3910

Loss Functions and Operators Generated by f-Divergences

Vincent Roulet, Tianlin Liu, Nino Vieillard et al.

NEURIPS 2025spotlightarXiv:2502.08202

#3911

Privacy amplification by random allocation

Moshe Shenfeld, Vitaly Feldman

ICCV 2025posterarXiv:2506.23563

#3912

MMReason: An Open-Ended Multi-Modal Multi-Step Reasoning Benchmark for MLLMs Toward AGI

Huanjin Yao, Jiaxing Huang, Yawen Qiu et al.

AAAI 2025paperarXiv:2412.07160

#3913

Motion-aware Contrastive Learning for Temporal Panoptic Scene Graph Generation

Thong Thanh Nguyen, Xiaobao Wu, Yi Bin et al.

CVPR 2025posterarXiv:2502.20678

#3914

STPro: Spatial and Temporal Progressive Learning for Weakly Supervised Spatio-Temporal Grounding

Aaryan Garg, Akash Kumar, Yogesh S. Rawat

AAAI 2025paperarXiv:2412.10178

#3915

SwiftTry: Fast and Consistent Video Virtual Try-On with Diffusion Models

Hung Nguyen, Quang Qui-Vinh Nguyen, Khoi Nguyen et al.

ICML 2025oralarXiv:2411.05712

#3916

Scaling Laws for Task-Optimized Models of the Primate Visual Ventral Stream

Abdulkadir Gokce, Martin Schrimpf

AAAI 2025paperarXiv:2412.10159

#3917

Arbitrary Reading Order Scene Text Spotter with Local Semantics Guidance

Jiahao Lyu, Wei Wang, Dongbao Yang et al.

ICLR 2025posterarXiv:2410.02749

#3918

Training Language Models on Synthetic Edit Sequences Improves Code Synthesis

Ulyana Piterbarg, Lerrel Pinto, Rob Fergus

ICML 2025posterarXiv:2411.07591

#3919

Overcoming the Curse of Dimensionality in Reinforcement Learning Through Approximate Factorization

Chenbei Lu, Laixi Shi, Zaiwei Chen et al.

AAAI 2025paperarXiv:2409.18401

#3920

GenesisTex2: Stable, Consistent and High-Quality Text-to-Texture Generation

Jiawei Lu, YingPeng Zhang, Zengjun Zhao et al.

NEURIPS 2025oralarXiv:2409.14500

#3921

GraphLand: Evaluating Graph Machine Learning Models on Diverse Industrial Data

Gleb Bazhenov, Oleg Platonov, Liudmila Prokhorenkova

ICML 2025posterarXiv:2504.07165

#3922

Perception in Reflection

Yana Wei, Liang Zhao, Kangheng Lin et al.

ICML 2025posterarXiv:2503.16322

#3923

Ultra-Resolution Adaptation with Ease

Ruonan Yu, Songhua Liu, Zhenxiong Tan et al.

CVPR 2025posterarXiv:2412.09680

#3924

PBR-NeRF: Inverse Rendering with Physics-Based Neural Fields

Sean Wu, Shamik Basu, Tim Broedermann et al.

#3925

Neighborhood Self-Dissimilarity Attention for Medical Image Segmentation

Junren Chen, Rui Chen, Wei Wang et al.

NEURIPS 2025poster

ICML 2025oralarXiv:2502.02450

#3926

Robust and Conjugate Spatio-Temporal Gaussian Processes

William Laplante, Matias Altamirano, Andrew Duncan et al.

CVPR 2025posterarXiv:2504.02451

#3927

ConMo: Controllable Motion Disentanglement and Recomposition for Zero-Shot Motion Transfer

Jiayi Gao, Zijin Yin, Changcheng Hua et al.

ICLR 2025posterarXiv:2410.05050

#3928

FreSh: Frequency Shifting for Accelerated Neural Representation Learning

Adam Kania, Marko Mihajlovic, Sergey Prokudin et al.

NEURIPS 2025posterarXiv:2503.05965

#3929

Validating LLM-as-a-Judge Systems under Rating Indeterminacy

Luke Guerdan, Solon Barocas, Kenneth Holstein et al.

ICML 2025posterarXiv:2502.07587

#3930

SEMU: Singular Value Decomposition for Efficient Machine Unlearning

Marcin Sendera, Łukasz Struski, Kamil Książek et al.

ICLR 2025posterarXiv:2404.02157

#3931

Segment Any 3D Object with Language

Seungjun Lee, Yuyang Zhao, Gim H Lee

#3932

Robust Multimodal Survival Prediction with Conditional Latent Differentiation Variational AutoEncoder

Junjie Zhou, Jiao Tang, Yingli Zuo et al.

ICLR 2025posterarXiv:2411.03753

#3933

Symbolic regression via MDLformer-guided search: from minimizing prediction error to minimizing description length

Zihan Yu, Jingtao Ding, Yong Li et al.

CVPR 2025posterarXiv:2505.04270

#3934

Object-Shot Enhanced Grounding Network for Egocentric Video

Yisen Feng, Haoyu Zhang, Meng Liu et al.

NEURIPS 2025spotlightarXiv:2506.03642

#3935

Spatial Understanding from Videos: Structured Prompts Meet Simulation Data

Haoyu Zhang, Meng Liu, Zaijing Li et al.

NEURIPS 2025posterarXiv:2505.18962

#3936

System-1.5 Reasoning: Traversal in Language and Latent Spaces with Dynamic Shortcuts

Xiaoqiang Wang, Suyuchen Wang, Yun Zhu et al.

ICLR 2025posterarXiv:2408.16115

#3937

Uncertainty Modeling in Graph Neural Networks via Stochastic Differential Equations

Richard Bergna, Sergio Calvo Ordoñez, Felix Opolka et al.

ICCV 2025posterarXiv:2507.21391

#3938

Multimodal LLMs as Customized Reward Models for Text-to-Image Generation

Shijie Zhou, Ruiyi Zhang, Huaisheng Zhu et al.

ICML 2025posterarXiv:2410.18076

#3939

Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration

Max Wilcoxson, Qiyang Li, Kevin Frans et al.

CVPR 2025highlightarXiv:2412.01027

#3940

Unleashing In-context Learning of Autoregressive Models for Few-shot Image Manipulation

Bolin Lai, Felix Juefei-Xu, Miao Liu et al.

AAAI 2025paperarXiv:2409.04053

#3941

COLUMBUS: Evaluating COgnitive Lateral Understanding Through Multiple-Choice reBUSes

Koen Kraaijveld, Yifan Jiang, Kaixin Ma et al.

CVPR 2025posterarXiv:2412.01814

#3942

COSMOS: Cross-Modality Self-Distillation for Vision Language Pre-training

Sanghwan Kim, Rui Xiao, Iuliana Georgescu et al.

ICLR 2025posterarXiv:2412.05994

#3943

PIG: Physics-Informed Gaussians as Adaptive Parametric Mesh Representations

Namgyu Kang, Jaemin Oh, Youngjoon Hong et al.

ICCV 2025posterarXiv:2502.03207

#3944

MotionAgent: Fine-grained Controllable Video Generation via Motion Field Agent

Xinyao Liao, Xianfang Zeng, Liao Wang et al.

CVPR 2025posterarXiv:2412.00719

#3945

Synergizing Motion and Appearance: Multi-Scale Compensatory Codebooks for Talking Head Video Generation

Shuling Zhao, Fa-Ting Hong, Xiaoshui Huang et al.

ICML 2025posterarXiv:2411.17284

#3946

AutoElicit: Using Large Language Models for Expert Prior Elicitation in Predictive Modelling

Alexander Capstick, Rahul G. Krishnan, Payam Barnaghi

ICCV 2025posterarXiv:2503.06235

#3947

StreamGS: Online Generalizable Gaussian Splatting Reconstruction for Unposed Image Streams

Yang LI, Jinglu Wang, Lei Chu et al.

CVPR 2025highlightarXiv:2412.16212

#3948

ManiVideo: Generating Hand-Object Manipulation Video with Dexterous and Generalizable Grasping

Youxin Pang, Ruizhi Shao, Jiajun Zhang et al.

ICML 2025spotlightarXiv:2507.07544

#3949

Position: We Need An Algorithmic Understanding of Generative AI

Oliver Eberle, Thomas McGee, Hamza Giaffar et al.

#3950

ESE: Espresso Sentence Embeddings

Xianming Li, Zongxi Li, Jing Li et al.

ICLR 2025posterarXiv:2409.16197

#3951

Second Order Bounds for Contextual Bandits with Function Approximation

Aldo Pacchiano

#3952

Doubly Contrastive Learning for Source-Free Domain Adaptive Person Search

Yizhen Jia, Rong Quan, Yue Feng et al.

ICLR 2025posterarXiv:2410.01912

#3953

A Spark of Vision-Language Intelligence: 2-Dimensional Autoregressive Transformer for Efficient Finegrained Image Generation

Liang Chen, Sinan Tan, Zefan Cai et al.

#3954

TruthPrInt: Mitigating Large Vision-Language Models Object Hallucination Via Latent Truthful-Guided Pre-Intervention

Jinhao Duan, Fei Kong, Hao Cheng et al.

ICCV 2025poster

CVPR 2025posterarXiv:2503.06457

#3955

Geometric Knowledge-Guided Localized Global Distribution Alignment for Federated Learning

Yanbiao Ma, Wei Dai, Wenke Huang et al.

ICML 2025spotlightarXiv:2407.11784

#3956

Data-Juicer Sandbox: A Feedback-Driven Suite for Multimodal Data-Model Co-development

Daoyuan Chen, Haibin Wang, Yilun Huang et al.

#3957

HQGS: High-Quality Novel View Synthesis with Gaussian Splatting in Degraded Scenes

Xin Lin, Shi Luo, Xiaojun Shan et al.

#3958

M3amba: Memory Mamba is All You Need for Whole Slide Image Classification

Tingting Zheng, Kui Jiang, Yi Xiao et al.

NEURIPS 2025oralarXiv:2509.25040

#3959

A multiscale analysis of mean-field transformers in the moderate interaction regime

Giuseppe Bruno, Federico Pasqualotto, Andrea Agazzi

ICCV 2025posterarXiv:2411.15472

#3960

KinMo: Kinematic-aware Human Motion Understanding and Generation

Pengfei Zhang, Pinxin Liu, Pablo Garrido et al.

ICCV 2025posterarXiv:2502.01639

#3961

SliderSpace: Decomposing the Visual Capabilities of Diffusion Models

Rohit Gandikota, Zongze Wu, Richard Zhang et al.

CVPR 2025posterarXiv:2501.04336

#3962

Building a Mind Palace: Structuring Environment-Grounded Semantic Graphs for Effective Long Video Analysis with LLMs

Zeyi Huang, Yuyang Ji, Xiaofang Wang et al.

AAAI 2025paperarXiv:2501.01125

#3963

DuMo: Dual Encoder Modulation Network for Precise Concept Erasure

Feng Han, Kai Chen, Chao Gong et al.

ICML 2025oralarXiv:2504.19496

#3964

DISCO: learning to DISCover an evolution Operator for multi-physics-agnostic prediction

Rudy Morel, Jiequn Han, Edouard Oyallon

ICLR 2025posterarXiv:2405.17816

#3965

Pursuing Feature Separation based on Neural Collapse for Out-of-Distribution Detection

Yingwen Wu, Ruiji Yu, Xinwen Cheng et al.

CVPR 2025posterarXiv:2503.01463

#3966

MI-DETR: An Object Detection Model with Multi-time Inquiries Mechanism

Zhixiong Nan, Xianghong Li, Tao Xiang et al.

CVPR 2025posterarXiv:2503.13214

#3967

A General Adaptive Dual-level Weighting Mechanism for Remote Sensing Pansharpening

Jie Huang, Haorui Chen, Jiaxuan Ren et al.

NEURIPS 2025spotlightarXiv:2504.15473

#3968

Emergence and Evolution of Interpretable Concepts in Diffusion Models

Berk Tinaz, Zalan Fabian, Mahdi Soltanolkotabi

ICML 2025posterarXiv:2506.05774

#3969

Evaluating Neuron Explanations: A Unified Framework with Sanity Checks

Tuomas Oikarinen, Ge Yan, Lily Weng

NEURIPS 2025posterarXiv:2502.19110

#3970

Conformal Linguistic Calibration: Trading-off between Factuality and Specificity

Zhengping Jiang, Anqi Liu, Ben Van Durme

ICLR 2025posterarXiv:2402.04355

#3971

PQMass: Probabilistic Assessment of the Quality of Generative Models using Probability Mass Estimation

Pablo Lemos, Sammy Sharief, Nikolay Malkin et al.

ICLR 2025posterarXiv:2412.01036

#3972

Generating Freeform Endoskeletal Robots

Muhan Li, Lingji Kong, Sam Kriegman

#3973

Triples as the Key: Structuring Makes Decomposition and Verification Easier in LLM-based TableQA

Zhen Yang, Ziwei Du, Minghan Zhang et al.

#3974

AVF-MAE++: Scaling Affective Video Facial Masked Autoencoders via Efficient Audio-Visual Self-Supervised Learning

Xuecheng Wu, Heli Sun, Yifan Wang et al.

AAAI 2025paperarXiv:2412.10488

#3975

SVGBuilder: Component-Based Colored SVG Generation with Text-Guided Autoregressive Transformers

Zehao Chen, Rong Pan

ICCV 2025posterarXiv:2410.17084

#3976

GS-LIVM: Real-Time Photo-Realistic LiDAR-Inertial-Visual Mapping with Gaussian Splatting

Yusen XIE, Zhenmin Huang, Jin Wu et al.

NEURIPS 2025spotlightarXiv:2502.17159

#3977

RobustMerge: Parameter-Efficient Model Merging for MLLMs with Direction Robustness

Fanhu Zeng, Haiyang Guo, Fei Zhu et al.

ICLR 2025oralarXiv:2503.17452

#3978

CausalRivers - Scaling up benchmarking of causal discovery for real-world time-series

Gideon Stein, Maha Shadaydeh, Jan Blunk et al.

NEURIPS 2025spotlightarXiv:2502.05625

#3979

Training-Free Constrained Generation With Stable Diffusion Models

Stefano Zampini, Jacob K Christopher, Luca Oneto et al.

NEURIPS 2025posterarXiv:2506.00359

#3980

Keeping an Eye on LLM Unlearning: The Hidden Risk and Remedy

Jie Ren, Zhenwei Dai, Xianfeng Tang et al.

AAAI 2025paperarXiv:2407.12317

#3981

Out of Length Text Recognition with Sub-String Matching

Yongkun Du, Zhineng Chen, Caiyan Jia et al.

ICLR 2025posterarXiv:2410.07916

#3982

Robustness Auditing for Linear Regression: To Singularity and Beyond

Ittai Rubinstein, Samuel Hopkins

ICLR 2025posterarXiv:2407.11306

#3983

PADRe: A Unifying Polynomial Attention Drop-in Replacement for Efficient Vision Transformer

Pierre-David Letourneau, Manish Singh, Hsin-Pai Cheng et al.

ICLR 2025posterarXiv:2502.18195

#3984

Multi-Perspective Data Augmentation for Few-shot Object Detection

Anh-Khoa Nguyen Vu, Quoc Truong Truong, Vinh-Tiep Nguyen et al.

CVPR 2025posterarXiv:2405.18840

#3985

Parameter-efficient Fine-tuning in Hyperspherical Space for Open-vocabulary Semantic Segmentation

Zelin Peng, Zhengqin Xu, Zhilin Zeng et al.

CVPR 2025posterarXiv:2412.04432

#3986

Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation

Yuying Ge, Yizhuo Li, Yixiao Ge et al.

CVPR 2025posterarXiv:2504.18032

#3987

Enhancing Privacy-Utility Trade-offs to Mitigate Memorization in Diffusion Models

Chen Chen, Daochang Liu, Mubarak Shah et al.

ICCV 2025posterarXiv:2503.10742

#3988

Keyframe-oriented Vision Token Pruning: Enhancing Efficiency of Large Vision Language Models on Long-Form Video Processing

Yudong Liu, Jingwei Sun, Yueqian Lin et al.

CVPR 2025posterarXiv:2503.16707

#3989

Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding

Jinlong Li, Cristiano Saltori, Fabio Poiesi et al.

AAAI 2025paperarXiv:2311.14265

#3990

Adaptive Calibration: A Unified Conversion Framework of Spiking Neural Networks

Ziqing Wang, Yuetong Fang, Jiahang Cao et al.

ICCV 2025posterarXiv:2507.00472

#3991

ARIG: Autoregressive Interactive Head Generation for Real-time Conversations

Ying Guo, Xi Liu, Cheng Zhen et al.

#3992

Noisy Label Calibration for Multi-View Classification

Shilin Xu, Yuan Sun, Xingfeng Li et al.

ICML 2025posterarXiv:2501.16168

#3993

Ringmaster ASGD: The First Asynchronous SGD with Optimal Time Complexity

Artavazd Maranjyan, Alexander Tyurin, Peter Richtarik

NEURIPS 2025posterarXiv:2510.05520

#3994

CAM: A Constructivist View of Agentic Memory for LLM-Based Reading Comprehension

Rui Li, Zeyu Zhang, Xiaohe Bo et al.

AAAI 2025paperarXiv:2412.13594

#3995

Generalizable Sensor-Based Activity Recognition via Categorical Concept Invariant Learning

Di Xiong, Shuoyuan Wang, Lei Zhang et al.

#3996

NOVA: A Benchmark for Rare Anomaly Localization and Clinical Reasoning in Brain MRI

Cosmin Bercea, Jun Li, Philipp Raffler et al.

NEURIPS 2025oral

ICLR 2025posterarXiv:2406.04046

#3997

ActionReasoningBench: Reasoning about Actions with and without Ramification Constraints

Divij Handa, Pavel Dolin, Shrinidhi Kumbhar et al.

#3998

Scene Map-based Prompt Tuning for Navigation Instruction Generation

Sheng Fan, Rui Liu, Wenguan Wang et al.

ICLR 2025posterarXiv:2503.00870

#3999

NeSyC: A Neuro-symbolic Continual Learner For Complex Embodied Tasks in Open Domains

Wonje Choi, Jinwoo Park, Sanghyun Ahn et al.

NEURIPS 2025posterarXiv:2505.17373

#4000

Value-Guided Search for Efficient Chain-of-Thought Reasoning

Kaiwen Wang, Jin Zhou, Jonathan Chang et al.