Most Cited 2025 &quot;high-speed tracking&quot; Papers

NEURIPS 2025posterarXiv:2509.20414

#3202

SceneWeaver: All-in-One 3D Scene Synthesis with an Extensible and Self-Reflective Agent

Yandan Yang, Baoxiong Jia, Shujie Zhang et al.

CVPR 2025posterarXiv:2504.20378

#3203

Sparse2DGS: Geometry-Prioritized Gaussian Splatting for Surface Reconstruction from Sparse Views

Jiang Wu, Rui Li, Yu Zhu et al.

CVPR 2025posterarXiv:2506.16201

#3204

FlowRAM: Grounding Flow Matching Policy with Region-Aware Mamba Framework for Robotic Manipulation

Sen Wang, Le Wang, Sanping Zhou et al.

ICCV 2025posterarXiv:2411.16778

#3205

GEMeX: A Large-Scale, Groundable, and Explainable Medical VQA Benchmark for Chest X-ray Diagnosis

Bo Liu, Ke Zou, Li-Ming Zhan et al.

CVPR 2025posterarXiv:2504.02555

#3206

Noise Calibration and Spatial-Frequency Interactive Network for STEM Image Enhancement

Hesong Li, Ziqi Wu, Ruiwen Shao et al.

#3207

Generative Zero-Shot Composed Image Retrieval

Lan Wang, Wei Ao, Vishnu Naresh Boddeti et al.

AAAI 2025paperarXiv:2410.21131

#3208

Towards Unifying Evaluation of Counterfactual Explanations: Leveraging Large Language Models for Human-Centric Assessments

Marharyta Domnich, Julius Välja, Rasmus Moorits Veski et al.

ICLR 2025posterarXiv:2411.04679

#3209

CaPo: Cooperative Plan Optimization for Efficient Embodied Multi-Agent Cooperation

Jie Liu, Pan Zhou, Yingjun Du et al.

#3210

Chain-of-region: Visual Language Models Need Details for Diagram Analysis

Xue Li, Yiyou Sun, Wei Cheng et al.

NEURIPS 2025posterarXiv:2505.05758

#3211

APOLLO: Automated LLM and Lean Collaboration for Advanced Formal Reasoning

Azim Ospanov, Farzan Farnia, Roozbeh Yousefzadeh

NEURIPS 2025posterarXiv:2502.01637

#3212

Scaling Embedding Layers in Language Models

Da Yu, Edith Cohen, Badih Ghazi et al.

AAAI 2025paperarXiv:2403.14203

#3213

Unsupervised Audio-Visual Segmentation with Modality Alignment

Swapnil Bhosale, Haosen Yang, Diptesh Kanojia et al.

CVPR 2025highlightarXiv:2405.20216

#3214

Boost Your Human Image Generation Model via Direct Preference Optimization

Sanghyeon Na, Yonggyu Kim, Hyunjoon Lee

#3215

Distilling Structural Representations into Protein Sequence Models

Jeffrey Ouyang-Zhang, Chengyue Gong, Yue Zhao et al.

ICML 2025posterarXiv:2310.06261

#3216

Self-Discriminative Modeling for Anomalous Graph Detection

Jinyu Cai, Yunhe Zhang, Jicong Fan

ICLR 2025posterarXiv:2411.05877

#3217

Generative Adapter: Contextualizing Language Models in Parameters with A Single Forward Pass

Tong Chen, Hao Fang, Patrick Xia et al.

ICLR 2025posterarXiv:2502.19363

#3218

DataMan: Data Manager for Pre-training Large Language Models

Ru Peng, Kexin Yang, Yawen Zeng et al.

NEURIPS 2025posterarXiv:2408.13036

#3219

H3D-DGS: Exploring Heterogeneous 3D Motion Representation for Deformable 3D Gaussian Splatting

Bing He, Yunuo Chen, Guo Lu et al.

ICLR 2025posterarXiv:2410.09101

#3220

Data Taggants: Dataset Ownership Verification Via Harmless Targeted Data Poisoning

Wassim Bouaziz, Nicolas Usunier, El-Mahdi El-Mhamdi

AAAI 2025paperarXiv:2411.16506

#3221

Online Guidance Graph Optimization for Lifelong Multi-Agent Path Finding

Hongzhi Zang, Yulun Zhang, He Jiang et al.

ICLR 2025posterarXiv:2505.04965

#3222

DenseGrounding: Improving Dense Language-Vision Semantics for Ego-centric 3D Visual Grounding

Henry Zheng, Hao Shi, Qihang Peng et al.

CVPR 2025posterarXiv:2408.14468

#3223

K-Sort Arena: Efficient and Reliable Benchmarking for Generative Models via K-wise Human Preferences

Zhikai Li, Xuewen Liu, Dongrong Joe Fu et al.

ICLR 2025posterarXiv:2502.19980

#3224

Can Textual Gradient Work in Federated Learning?

Minghui Chen, Ruinan Jin, Wenlong Deng et al.

ICLR 2025posterarXiv:2501.18532

#3225

Differentially Private Steering for Large Language Model Alignment

Anmol Goel, Yaxi Hu, Iryna Gurevych et al.

ICML 2025posterarXiv:2504.05304

#3226

Gaussian Mixture Flow Matching Models

Hansheng Chen, Kai Zhang, Hao Tan et al.

AAAI 2025paperarXiv:2301.10632

#3227

(Almost Full) EFX for Three (and More) Types of Agents

Pratik Ghosal, Vishwa Prakash HV, Prajakta Nimbhorkar et al.

ICLR 2025posterarXiv:2502.00896

#3228

LoR-VP: Low-Rank Visual Prompting for Efficient Vision Model Adaptation

Can Jin, Ying Li, Mingyu Zhao et al.

ICLR 2025posterarXiv:2410.01532

#3229

Seeing Eye to AI: Human Alignment via Gaze-Based Response Rewards for Large Language Models

Ángela López-Cardona, Carlos Segura, Alexandros Karatzoglou et al.

CVPR 2025posterarXiv:2504.00387

#3230

Scene4U: Hierarchical Layered 3D Scene Reconstruction from Single Panoramic Image for Your Immerse Exploration

Zilong Huang, Jun He, Junyan Ye et al.

ICLR 2025posterarXiv:2411.05193

#3231

Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning

Joey Hong, Anca Dragan, Sergey Levine

ICLR 2025posterarXiv:2504.05314

#3232

Multimodal Quantitative Language for Generative Recommendation

Jianyang Zhai, Zi-Feng Mai, Chang-Dong Wang et al.

ICLR 2025posterarXiv:2502.19261

#3233

Drop-Upcycling: Training Sparse Mixture of Experts with Partial Re-initialization

Taishi Nakamura, Takuya Akiba, Kazuki Fujii et al.

CVPR 2025highlightarXiv:2502.20625

#3234

T2ICount: Enhancing Cross-modal Understanding for Zero-Shot Counting

Yifei Qian, Zhongliang Guo, Bowen Deng et al.

NEURIPS 2025posterarXiv:2506.18951

#3235

SWE-SQL: Illuminating LLM Pathways to Solve User SQL Issues in Real-World Applications

Jinyang Li, Xiaolong Li, Ge Qu et al.

NEURIPS 2025oralarXiv:2507.02001

#3236

Temporal Chain of Thought: Long-Video Understanding by Thinking in Frames

Anurag Arnab, Ahmet Iscen, Mathilde Caron et al.

AAAI 2025paperarXiv:2503.18541

#3237

UniPCGC: Towards Practical Point Cloud Geometry Compression via an Efficient Unified Approach

Kangli Wang, Wei Gao

NEURIPS 2025spotlightarXiv:2502.07760

#3238

Scalable Fingerprinting of Large Language Models

Anshul Nasery, Jonathan Hayase, Creston Brooks et al.

ICCV 2025posterarXiv:2507.04822

#3239

SeqGrowGraph: Learning Lane Topology as a Chain of Graph Expansions

Mengwei Xie, Shuang Zeng, Xinyuan Chang et al.

ICLR 2025posterarXiv:2411.01123

#3240

X-Drive: Cross-modality Consistent Multi-Sensor Data Synthesis for Driving Scenarios

Yichen Xie, Chenfeng Xu, Chensheng Peng et al.

ICCV 2025highlightarXiv:2507.19239

#3241

CoopTrack: Exploring End-to-End Learning for Efficient Cooperative Sequential Perception

Jiaru Zhong, Jiahao Wang, Jiahui Xu et al.

NEURIPS 2025spotlightarXiv:2506.00034

#3242

GaussianFusion: Gaussian-Based Multi-Sensor Fusion for End-to-End Autonomous Driving

Shuai Liu, Quanmin Liang, Zefeng Li et al.

CVPR 2025posterarXiv:2503.01087

#3243

Rashomon Sets for Prototypical-Part Networks: Editing Interpretable Models in Real-Time

Jon Donnelly, Zhicheng Guo, Alina Jade Barnett et al.

#3244

SynQ: Accurate Zero-shot Quantization by Synthesis-aware Fine-tuning

Minjun Kim, Jongjin Kim, U Kang

CVPR 2025posterarXiv:2412.09191

#3245

RAD: Region-Aware Diffusion Models for Image Inpainting

Sora Kim, Sungho Suh, Minsik Lee

CVPR 2025posterarXiv:2503.19359

#3246

Show and Segment: Universal Medical Image Segmentation via In-Context Learning

Yunhe Gao, Di Liu, Zhuowei Li et al.

ICLR 2025oralarXiv:2410.02130

#3247

MDSGen: Fast and Efficient Masked Diffusion Temporal-Aware Transformers for Open-Domain Sound Generation

Trung X. Pham, Tri Ton, Chang Yoo

CVPR 2025posterarXiv:2407.08027

#3248

Fish-Vista: A Multi-Purpose Dataset for Understanding & Identification of Traits from Images

Kazi Sajeed Mehrab, M. Maruf, Arka Daw et al.

NEURIPS 2025posterarXiv:2510.16907

#3249

VAGEN: Reinforcing World Model Reasoning for Multi-Turn VLM Agents

Kangrui Wang, Pingyue Zhang, Zihan Wang et al.

ICLR 2025posterarXiv:2410.09344

#3250

DARE the Extreme: Revisiting Delta-Parameter Pruning For Fine-Tuned Models

Wenlong Deng, Yize Zhao, Vala Vakilian et al.

ICLR 2025posterarXiv:2410.21107

#3251

Tree-Wasserstein Distance for High Dimensional Data with a Latent Feature Hierarchy

Ya-Wei Eileen Lin, Ronald Coifman, Gal Mishne et al.

ICCV 2025posterarXiv:2501.13087

#3252

Orchid: Image Latent Diffusion for Joint Appearance and Geometry Generation

Akshay Krishnan, Xinchen Yan, Vincent Casser et al.

CVPR 2025posterarXiv:2412.04533

#3253

Mask-Adapter: The Devil is in the Masks for Open-Vocabulary Segmentation

Yongkang Li, Tianheng Cheng, Bin Feng et al.

ICLR 2025posterarXiv:2403.04348

#3254

LoCoDL: Communication-Efficient Distributed Learning with Local Training and Compression

Laurent Condat, Artavazd Maranjyan, Peter Richtarik

ICML 2025posterarXiv:2505.03804

#3255

MoEQuant: Enhancing Quantization for Mixture-of-Experts Large Language Models via Expert-Balanced Sampling and Affinity Guidance

Zhixuan Chen, Xing Hu, Dawei Yang et al.

ICLR 2025posterarXiv:2503.14535

#3256

Interpretable Unsupervised Joint Denoising and Enhancement for Real-World low-light Scenarios

Li Huaqiu, HuXiaowan, Haoqian Wang

CVPR 2025posterarXiv:2503.21457

#3257

FaceBench: A Multi-View Multi-Level Facial Attribute VQA Dataset for Benchmarking Face Perception MLLMs

Xiaoqin Wang, Xusen Ma, Xianxu Hou et al.

ICML 2025posterarXiv:2410.13808

#3258

De-mark: Watermark Removal in Large Language Models

Ruibo Chen, Yihan Wu, Junfeng Guo et al.

NEURIPS 2025oralarXiv:2506.07497

#3259

Genesis: Multimodal Driving Scene Generation with Spatio-Temporal and Cross-Modal Consistency

Xiangyu Guo, Zhanqian Wu, Kaixin Xiong et al.

#3260

Mask^2DiT: Dual Mask-based Diffusion Transformer for Multi-Scene Long Video Generation

Tianhao Qi, Jianlong Yuan, Wanquan Feng et al.

ICCV 2025posterarXiv:2502.14140

#3261

ModSkill: Physical Character Skill Modularization

Yiming Huang, Zhiyang Dou, Lingjie Liu

#3262

Motion-adaptive Transformer for Event-based Image Deblurring

Senyan Xu, Zhijing Sun, Mingchen Zhong et al.

AAAI 2025paper

ICLR 2025posterarXiv:2407.07577

#3263

IDA-VLM: Towards Movie Understanding via ID-Aware Large Vision-Language Model

Yatai Ji, Shilong Zhang, Jie Wu et al.

NEURIPS 2025posterarXiv:2502.00706

#3264

Model Provenance Testing for Large Language Models

Ivica Nikolic, Teodora Baluta, Prateek Saxena

ICML 2025spotlightarXiv:2409.15844

#3265

Adaptive Learn-then-Test: Statistically Valid and Efficient Hyperparameter Selection

Matteo Zecchin, Sangwoo Park, Osvaldo Simeone

CVPR 2025posterarXiv:2501.07256

#3266

EdgeTAM: On-Device Track Anything Model

Chong Zhou, Chenchen Zhu, Yunyang Xiong et al.

#3267

ROD-MLLM: Towards More Reliable Object Detection in Multimodal Large Language Models

Heng Yin, Yuqiang Ren, Ke Yan et al.

ICML 2025posterarXiv:2501.18858

#3268

BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning

Han Zhong, Yutong Yin, Shenao Zhang et al.

CVPR 2025posterarXiv:2505.02648

#3269

MCCD: Multi-Agent Collaboration-based Compositional Diffusion for Complex Text-to-Image Generation

Mingcheng Li, Xiaolu Hou, Ziyang Liu et al.

CVPR 2025posterarXiv:2411.18936

#3270

Self-Cross Diffusion Guidance for Text-to-Image Synthesis of Similar Subjects

Weimin Qiu, Jieke Wang, Meng Tang

NEURIPS 2025posterarXiv:2505.12366

#3271

DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization

Gang Li, Ming Lin, Tomer Galanti et al.

AAAI 2025paperarXiv:2409.03644

#3272

RealisHuman: A Two-Stage Approach for Refining Malformed Human Parts in Generated Images

Benzhi Wang, Jingkai Zhou, Jingqi Bai et al.

ICLR 2025posterarXiv:2504.09522

#3273

How new data permeates LLM knowledge and how to dilute it

Chen Sun, Renat Aksitov, Andrey Zhmoginov et al.

#3274

Causally Motivated Sycophancy Mitigation for Large Language Models

Haoxi Li, Xueyang Tang, Jie ZHANG et al.

ICML 2025posterarXiv:2501.13941

#3275

GaussMark: A Practical Approach for Structural Watermarking of Language Models

Adam Block, Alexander Rakhlin, Ayush Sekhari

NEURIPS 2025posterarXiv:2502.16320

#3276

Direct Alignment with Heterogeneous Preferences

Ali Shirali, Arash Nasr-Esfahany, Abdullah Alomar et al.

CVPR 2025posterarXiv:2503.15835

#3277

BARD-GS: Blur-Aware Reconstruction of Dynamic Scenes via Gaussian Splatting

Yiren Lu, Yunlai Zhou, Disheng Liu et al.

CVPR 2025posterarXiv:2503.16942

#3278

Re-HOLD: Video Hand Object Interaction Reenactment via adaptive Layout-instructed Diffusion Model

Yingying Fan, Quanwei Yang, Kaisiyuan Wang et al.

ICLR 2025posterarXiv:2410.06549

#3279

DiffGAD: A Diffusion-based Unsupervised Graph Anomaly Detector

Jinghan Li, Yuan Gao, Jinda Lu et al.

ICLR 2025posterarXiv:2412.16577

#3280

A Meta-Learning Approach to Bayesian Causal Discovery

Anish Dhir, Matthew Ashman, James Requeima et al.

NEURIPS 2025posterarXiv:2507.11878

#3281

LLMs Encode Harmfulness and Refusal Separately

Jiachen Zhao, Jing Huang, Zhengxuan Wu et al.

ICLR 2025posterarXiv:2410.19314

#3282

Revealing and Reducing Gender Biases in Vision and Language Assistants (VLAs)

Leander Girrbach, Stephan Alaniz, Yiran Huang et al.

CVPR 2025posterarXiv:2412.06978

#3283

Edge-SD-SR: Low Latency and Parameter Efficient On-device Super-Resolution with Stable Diffusion via Bidirectional Conditioning

Isma Hadji, Mehdi Noroozi, Victor Escorcia et al.

CVPR 2025posterarXiv:2412.15341

#3284

Efficient Fine-Tuning and Concept Suppression for Pruned Diffusion Models

Reza Shirkavand, Peiran Yu, Shangqian Gao et al.

ICML 2025posterarXiv:2406.08477

#3285

Improving LLMs for Recommendation with Out-Of-Vocabulary Tokens

Ting-Ji Huang, Jia-Qi Yang, Chunxu Shen et al.

AAAI 2025paperarXiv:2501.14231

#3286

Micro-macro Wavelet-based Gaussian Splatting for 3D Reconstruction from Unconstrained Images

Yihui Li, Chengxin Lv, Hongyu Yang et al.

AAAI 2025paperarXiv:2401.11949

#3287

Feature Denoising Diffusion Model for Blind Image Quality Assessment

Xudong Li, Yan Zhang, Yunhang Shen et al.

ICLR 2025posterarXiv:2411.07180

#3288

Gumbel Counterfactual Generation From Language Models

Shauli Ravfogel, Anej Svete, Vésteinn Snæbjarnarson et al.

CVPR 2025posterarXiv:2504.11199

#3289

Video Summarization with Large Language Models

Min Jung Lee, Dayoung Gong, Minsu Cho

CVPR 2025posterarXiv:2504.17695

#3290

PICO: Reconstructing 3D People In Contact with Objects

Alpár Cseke, Shashank Tripathi, Sai Kumar Dwivedi et al.

ICLR 2025posterarXiv:2410.18141

#3291

SmartRAG: Jointly Learn RAG-Related Tasks From the Environment Feedback

Jingsheng Gao, Linxu Li, Ke Ji et al.

CVPR 2025highlightarXiv:2501.11515

#3292

UltraFusion: Ultra High Dynamic Imaging using Exposure Fusion

Zixuan Chen, Yujin Wang, Xin Cai et al.

ICML 2025oralarXiv:2502.01235

#3293

LoRA-One: One-Step Full Gradient Could Suffice for Fine-Tuning Large Language Models, Provably and Efficiently

Yuanhe Zhang, Fanghui Liu, Yudong Chen

CVPR 2025posterarXiv:2412.01095

#3294

VERA: Explainable Video Anomaly Detection via Verbalized Learning of Vision-Language Models

Muchao Ye, Weiyang Liu, Pan He

ICML 2025oralarXiv:2503.01811

#3295

AutoAdvExBench: Benchmarking Autonomous Exploitation of Adversarial Example Defenses

Nicholas Carlini, Edoardo Debenedetti, Javier Rando et al.

CVPR 2025highlightarXiv:2503.12886

#3296

RGBAvatar: Reduced Gaussian Blendshapes for Online Modeling of Head Avatars

Linzhou Li, Yumeng Li, Yanlin Weng et al.

ICLR 2025posterarXiv:2411.03228

#3297

Topograph: An Efficient Graph-Based Framework for Strictly Topology Preserving Image Segmentation

Laurin Lux, Alexander H Berger, Alexander Weers et al.

CVPR 2025posterarXiv:2412.11752

#3298

Deformable Radial Kernel Splatting

Yihua Huang, Mingxian Lin, Yangtian Sun et al.

CVPR 2025posterarXiv:2504.08851

#3299

Mimic In-Context Learning for Multimodal Tasks

Yuchu Jiang, Jiale Fu, chenduo hao et al.

ICLR 2025posterarXiv:2502.06283

#3300

On the Expressiveness of Rational ReLU Neural Networks With Bounded Depth

Gennadiy Averkov, Christopher Hojny, Maximilian Merkert

AAAI 2025paperarXiv:2501.04975

#3301

V2C-CBM: Building Concept Bottlenecks with Vision-to-Concept Tokenizer

Hangzhou He, Lei Zhu, Xinliang Zhang et al.

ICCV 2025posterarXiv:2504.20996

#3302

X-Fusion: Introducing New Modality to Frozen Large Language Models

Sicheng Mo, Thao Nguyen, Xun Huang et al.

AAAI 2025paperarXiv:2410.10573

#3303

Queryable Prototype Multiple Instance Learning with Vision-Language Models for Incremental Whole Slide Image Classification

Jiaxiang Gou, Luping Ji, Pei Liu et al.

NEURIPS 2025spotlightarXiv:2507.12465

#3304

PhysX-3D: Physical-Grounded 3D Asset Generation

Ziang Cao, Zhaoxi Chen, Liang Pan et al.

ICLR 2025posterarXiv:2410.09644

#3305

Adapters for Altering LLM Vocabularies: What Languages Benefit the Most?

HyoJung Han, Akiko Eriguchi, Haoran Xu et al.

NEURIPS 2025posterarXiv:2510.00515

#3306

Efficient Multi-modal Large Language Models via Progressive Consistency Distillation

Zichen Wen, Shaobo Wang, Yufa Zhou et al.

AAAI 2025paperarXiv:2412.11395

#3307

Depth-Centric Dehazing and Depth-Estimation from Real-World Hazy Driving Video

Junkai Fan, Kun Wang, Zhiqiang Yan et al.

#3308

Not all solutions are created equal: An analytical dissociation of functional and representational similarity in deep linear neural networks

Lukas Braun, Erin Grant, Andrew Saxe

ICML 2025spotlight

CVPR 2025posterarXiv:2411.19415

#3309

AMO Sampler: Enhancing Text Rendering with Overshooting

Xixi Hu, Keyang Xu, Bo Liu et al.

AAAI 2025paperarXiv:2412.08388

#3310

LOMA: Language-assisted Semantic Occupancy Network via Triplane Mamba

Yubo Cui, Zhiheng Li, Jiaqiang Wang et al.

AAAI 2025paperarXiv:2412.10115

#3311

Filter or Compensate: Towards Invariant Representation from Distribution Shift for Anomaly Detection

Zining Chen, Xingshuang Luo, Weiqiu Wang et al.

#3312

Alleviate and Mining: Rethinking Unsupervised Domain Adaptation for Mitochondria Segmentation from Pseudo-Label Perspective

Yujia Chen, Rui Sun, Wangkai Li et al.

AAAI 2025paper

ICML 2025spotlightarXiv:2505.22483

#3313

A Closer Look at Multimodal Representation Collapse

Abhra Chaudhuri, Anjan Dutta, Tu Bui et al.

ICLR 2025posterarXiv:2503.02209

#3314

Rethinking the role of frames for SE(3)-invariant crystal structure modeling

Yusei Ito, Tatsunori Taniai, Ryo Igarashi et al.

AAAI 2025paperarXiv:2408.09469

#3315

Enhancing Adversarial Transferability with Adversarial Weight Tuning

Jiahao Chen, Zhou Feng, Rui Zeng et al.

ICLR 2025posterarXiv:2410.10456

#3316

Ada-K Routing: Boosting the Efficiency of MoE-based LLMs

Zijia Zhao, Longteng Guo, Jie Cheng et al.

CVPR 2025posterarXiv:2411.16064

#3317

Multi-Granularity Class Prototype Topology Distillation for Class-Incremental Source-Free Unsupervised Domain Adaptation

Peihua Deng, Jiehua Zhang, Xichun Sheng et al.

NEURIPS 2025posterarXiv:2505.22596

#3318

SAM-R1: Leveraging SAM for Reward Feedback in Multimodal Segmentation via Reinforcement Learning

Jiaqi Huang, Zunnan Xu, Jun Zhou et al.

ICLR 2025posterarXiv:2412.10138

#3319

ROUTE: Robust Multitask Tuning and Collaboration for Text-to-SQL

Yang Qin, Chao Chen, Zhihang Fu et al.

ICLR 2025posterarXiv:2410.06215

#3320

DataEnvGym: Data Generation Agents in Teacher Environments with Student Feedback

Zaid Khan, Elias Stengel-Eskin, Jaemin Cho et al.

ICLR 2025posterarXiv:2405.14660

#3321

Implicit In-context Learning

Zhuowei Li, Zihao Xu, Ligong Han et al.

ICLR 2025posterarXiv:2406.00384

#3322

CapeX: Category-Agnostic Pose Estimation from Textual Point Explanation

Matan Rusanovsky, Or Hirschorn, Shai Avidan

CVPR 2025posterarXiv:2411.17687

#3323

GenDeg: Diffusion-based Degradation Synthesis for Generalizable All-In-One Image Restoration

Sudarshan Rajagopalan, Nithin Gopalakrishnan Nair, Jay Paranjape et al.

CVPR 2025posterarXiv:2501.11309

#3324

Finer-CAM: Spotting the Difference Reveals Finer Details for Visual Explanation

Ziheng Zhang, Jianyang Gu, Arpita Chowdhury et al.

ICLR 2025posterarXiv:2410.16646

#3325

TopoDiffusionNet: A Topology-aware Diffusion Model

Saumya Gupta, Dimitris Samaras, Chao Chen

AAAI 2025paperarXiv:2501.01110

#3326

MalCL: Leveraging GAN-Based Generative Replay to Combat Catastrophic Forgetting in Malware Classification

Jimin Park, AHyun Ji, Minji Park et al.

ICLR 2025posterarXiv:2411.02728

#3327

Compositional simulation-based inference for time series

Manuel Gloeckler, Shoji Toyota, Kenji Fukumizu et al.

AAAI 2025paperarXiv:2410.18336

#3328

Assessing the Creativity of LLMs in Proposing Novel Solutions to Mathematical Problems

Junyi Ye, Jingyi Gu, Xinyun Zhao et al.

ICCV 2025posterarXiv:2506.10857

#3329

VRBench: A Benchmark for Multi-Step Reasoning in Long Narrative Videos

Jiashuo Yu, Yue Wu, Meng Chu et al.

NEURIPS 2025oralarXiv:2505.22246

#3330

StateSpaceDiffuser: Bringing Long Context to Diffusion World Models

Nedko Savov, Naser Kazemi, Deheng Zhang et al.

CVPR 2025highlightarXiv:2409.16434

#3331

Lessons and Insights from a Unifying Study of Parameter-Efficient Fine-Tuning (PEFT) in Visual Recognition

Zheda Mai, Ping Zhang, Cheng-Hao Tu et al.

ICLR 2025posterarXiv:2406.09827

#3332

A Training-Free Sub-quadratic Cost Transformer Model Serving Framework with Hierarchically Pruned Attention

Heejun Lee, Geon Park, Youngwan Lee et al.

CVPR 2025posterarXiv:2503.18314

#3333

LoTUS: Large-Scale Machine Unlearning with a Taste of Uncertainty

Christoforos N. Spartalis, Theodoros Semertzidis, Efstratios Gavves et al.

ICML 2025posterarXiv:2504.19139

#3334

Fast and Robust: Task Sampling with Posterior and Diversity Synergies for Adaptive Decision-Makers in Randomized Environments

Yun Qu, Cheems Wang, Yixiu Mao et al.

CVPR 2025posterarXiv:2504.04956

#3335

REWIND: Real-Time Egocentric Whole-Body Motion Diffusion with Exemplar-Based Identity Conditioning

Jihyun Lee, Weipeng Xu, Alexander Richard et al.

CVPR 2025highlightarXiv:2411.17662

#3336

RoboPEPP: Vision-Based Robot Pose and Joint Angle Estimation through Embedding Predictive Pre-Training

Raktim Gautam Goswami, Prashanth Krishnamurthy, Yann LeCun et al.

ICLR 2025oralarXiv:2502.00818

#3337

Error-quantified Conformal Inference for Time Series

Junxi Wu, Dongjian Hu, Yajie Bao et al.

ICML 2025posterarXiv:2503.07197

#3338

Effective and Efficient Masked Image Generation Models

Zebin You, Jingyang Ou, Xiaolu Zhang et al.

ICLR 2025posterarXiv:2410.04779

#3339

Fast Training of Sinusoidal Neural Fields via Scaling Initialization

Taesun Yeom, Sangyoon Lee, Jaeho Lee

AAAI 2025paperarXiv:2409.08255

#3340

LoRID: Low-Rank Iterative Diffusion for Adversarial Purification

Geigh Zollicoffer, Minh N. Vu, Ben Nebgen et al.

ICML 2025spotlightarXiv:2505.24688

#3341

Soft Reasoning: Navigating Solution Spaces in Large Language Models through Controlled Embedding Exploration

Qinglin Zhu, Runcong Zhao, Hanqi Yan et al.

ICLR 2025posterarXiv:2405.15540

#3342

Bundle Neural Network for message diffusion on graphs

Jacob Bamberger, Federico Barbero, Xiaowen Dong et al.

AAAI 2025paperarXiv:2412.20341

#3343

Asynchronous Federated Clustering with Unknown Number of Clusters

Yunfan Zhang, Yiqun Zhang, Yang Lu et al.

ICLR 2025posterarXiv:2410.12176

#3344

Expected Sliced Transport Plans

Xinran Liu, Rocio Diaz Martin, Yikun Bai et al.

ICLR 2025posterarXiv:2410.03450

#3345

MLLM as Retriever: Interactively Learning Multimodal Retrieval for Embodied Agents

Junpeng Yue, Xinrun Xu, Börje F. Karlsson et al.

CVPR 2025highlightarXiv:2412.02317

#3346

HumanRig: Learning Automatic Rigging for Humanoid Character in a Large Scale Dataset

Zedong Chu, Feng Xiong, Meiduo Liu et al.

ICLR 2025posterarXiv:2412.08021

#3347

Can a MISL Fly? Analysis and Ingredients for Mutual Information Skill Learning

Chongyi Zheng, Jens Tuyls, Joanne Peng et al.

CVPR 2025highlightarXiv:2503.18223

#3348

MammAlps: A Multi-view Video Behavior Monitoring Dataset of Wild Mammals in the Swiss Alps

Valentin Gabeff, Haozhe Qi, Brendan Flaherty et al.

CVPR 2025posterarXiv:2405.16240

#3349

AFL: A Single-Round Analytic Approach for Federated Learning with Pre-trained Models

Run He, Kai Tong, Di Fang et al.

ICLR 2025posterarXiv:2408.11054

#3350

Near, far: Patch-ordering enhances vision foundation models' scene understanding

Valentinos Pariza, Mohammadreza Salehi, Gertjan J Burghouts et al.

NEURIPS 2025posterarXiv:2506.17561

#3351

VLA-OS: Structuring and Dissecting Planning Representations and Paradigms in Vision-Language-Action Models

Chongkai Gao, Zixuan Liu, Zhenghao Chi et al.

ICLR 2025posterarXiv:2410.12219

#3352

OmnixR: Evaluating Omni-modality Language Models on Reasoning across Modalities

Lichang Chen, Hexiang Hu, Mingda Zhang et al.

#3353

Knowledge Graph Finetuning Enhances Knowledge Manipulation in Large Language Models

Hanzhu Chen, Xu Shen, Jie Wang et al.

CVPR 2025highlightarXiv:2412.12087

#3354

Instruction-based Image Manipulation by Watching How Things Move

Mingdeng Cao, Xuaner Zhang, Yinqiang Zheng et al.

ICLR 2025posterarXiv:2410.03435

#3355

A General Framework for Producing Interpretable Semantic Text Embeddings

Yiqun Sun, Qiang Huang, Yixuan Tang et al.

CVPR 2025highlightarXiv:2412.04077

#3356

SoMA: Singular Value Decomposed Minor Components Adaptation for Domain Generalizable Representation Learning

Seokju Yun, Seunghye Chae, Dongheon Lee et al.

#3357

Context-aware Dynamic Pruning for Speech Foundation Models

Masao Someki, Yifan Peng, Siddhant Arora et al.

ICLR 2025oralarXiv:2502.14340

#3358

Earlier Tokens Contribute More: Learning Direct Preference Optimization From Temporal Decay Perspective

Ruichen Shao, Bei Li, Gangao Liu et al.

#3359

Scene Map-based Prompt Tuning for Navigation Instruction Generation

Sheng Fan, Rui Liu, Wenguan Wang et al.

NEURIPS 2025posterarXiv:2505.18531

#3360

Generative RLHF-V: Learning Principles from Multi-modal Human Preference

Jiayi Zhou, Jiaming Ji, Boyuan Chen et al.

NEURIPS 2025posterarXiv:2508.18175

#3361

Amortized Sampling with Transferable Normalizing Flows

Charlie Tan, Majdi Hassan, Leon Klein et al.

AAAI 2025paperarXiv:2502.16170

#3362

Destroy and Repair Using Hyper-Graphs for Routing

Ke Li, Fei Liu, Zhenkun Wang et al.

CVPR 2025posterarXiv:2405.18840

#3363

Parameter-efficient Fine-tuning in Hyperspherical Space for Open-vocabulary Semantic Segmentation

Zelin Peng, Zhengqin Xu, Zhilin Zeng et al.

NEURIPS 2025posterarXiv:2510.02912

#3364

Don't Just Chase “Highlighted Tokens” in MLLMs: Revisiting Visual Holistic Context Retention

Xin Zou, Di Lu, Yizhou Wang et al.

ICLR 2025oralarXiv:2410.00564

#3365

Scaling Offline Model-Based RL via Jointly-Optimized World-Action Model Pretraining

Jie Cheng, Ruixi Qiao, ma yingwei et al.

ICLR 2025posterarXiv:2406.04619

#3366

CTSyn: A Foundation Model for Cross Tabular Data Generation

Xiaofeng Lin, Chenheng Xu, Matthew Yang et al.

#3367

Better autoregressive regression with LLMs via regression-aware fine-tuning

Michal Lukasik, Zhao Meng, Harikrishna Narasimhan et al.

#3368

Neighborhood Self-Dissimilarity Attention for Medical Image Segmentation

Junren Chen, Rui Chen, Wei Wang et al.

NEURIPS 2025poster

AAAI 2025paperarXiv:2407.20021

#3369

MimiQ: Low-Bit Data-Free Quantization of Vision Transformers with Encouraging Inter-Head Attention Similarity

Kanghyun Choi, Hyeyoon Lee, Dain Kwon et al.

#3370

ESE: Espresso Sentence Embeddings

Xianming Li, Zongxi Li, Jing Li et al.

ICLR 2025posterarXiv:2411.04130

#3371

ShEPhERD: Diffusing shape, electrostatics, and pharmacophores for bioisosteric drug design

Keir Adams, Kento Abeywardane, Jenna Fromer et al.

ICLR 2025posterarXiv:2405.14105

#3372

Distributed Speculative Inference (DSI): Speculation Parallelism for Provably Faster Lossless Language Model Inference

Nadav Timor, Jonathan Mamou, Daniel Korat et al.

#3373

Improving Language Model Distillation through Hidden State Matching

Sayantan Dasgupta, Trevor Cohn

ICLR 2025oralarXiv:2503.00900

#3374

S4M: S4 for multivariate time series forecasting with Missing values

Jing Peng, Meiqi Yang, Qiong Zhang et al.

ICLR 2025posterarXiv:2410.08190

#3375

Poison-splat: Computation Cost Attack on 3D Gaussian Splatting

Jiahao Lu, Yifan Zhang, Qiuhong Shen et al.

AAAI 2025paperarXiv:2409.05622

#3376

Forward KL Regularized Preference Optimization for Aligning Diffusion Policies

Zhao Shan, Chenyou Fan, Shuang Qiu et al.

AAAI 2025paperarXiv:2412.15598

#3377

Long-Term EEG Partitioning for Seizure Onset Detection

Zheng Chen, Yasuko Matsubara, Yasushi Sakurai et al.

#3378

HQGS: High-Quality Novel View Synthesis with Gaussian Splatting in Degraded Scenes

Xin Lin, Shi Luo, Xiaojun Shan et al.

NEURIPS 2025posterarXiv:2410.13903

#3379

CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment

Qinfeng Li, Tianyue Luo, Xuhong Zhang et al.

AAAI 2025paperarXiv:2501.12799

#3380

Int2Planner: An Intention-based Multi-modal Motion Planner for Integrated Prediction and Planning

Xiaolei Chen, Junchi Yan, Wenlong Liao et al.

NEURIPS 2025posterarXiv:2507.07136

#3381

LangSplatV2: High-dimensional 3D Language Gaussian Splatting with 450+ FPS

Wanhua Li, Yujie Zhao, Minghan Qin et al.

NEURIPS 2025oralarXiv:2502.09324

#3382

Depth-Bounds for Neural Networks via the Braid Arrangement

Moritz Grillo, Christoph Hertrich, Georg Loho

CVPR 2025posterarXiv:2503.02689

#3383

STAA-SNN: Spatial-Temporal Attention Aggregator for Spiking Neural Networks

Tianqing Zhang, Kairong Yu, Xian Zhong et al.

NEURIPS 2025posterarXiv:2503.19618

#3384

Beyond Verifiable Rewards: Scaling Reinforcement Learning in Language Models to Unverifiable Data

Yunhao Tang, Sid Wang, Lovish Madaan et al.

AAAI 2025paperarXiv:2409.16684

#3385

Erase Then Rectify: A Training-Free Parameter Editing Approach for Cost-Effective Graph Unlearning

Zhe-Rui Yang, Jindong Han, Chang-Dong Wang et al.

ICLR 2025posterarXiv:2405.17035

#3386

Glauber Generative Model: Discrete Diffusion Models via Binary Classification

Harshit Varma, Dheeraj Nagaraj, Karthikeyan Shanmugam

ICLR 2025posterarXiv:2501.15878

#3387

Slot-Guided Adaptation of Pre-trained Diffusion Models for Object-Centric Learning and Compositional Generation

adil kaan akan, Yucel Yemez

AAAI 2025paperarXiv:2411.06920

#3388

Safe Planner: Empowering Safety Awareness in Large Pre-Trained Models for Robot Task Planning

Siyuan Li, Feifan Liu, Lingfei Cui et al.

#3389

TruthPrInt: Mitigating Large Vision-Language Models Object Hallucination Via Latent Truthful-Guided Pre-Intervention

Jinhao Duan, Fei Kong, Hao Cheng et al.

ICCV 2025poster

NEURIPS 2025oralarXiv:2504.06264

#3390

Enhancing 3D Reconstruction for Dynamic Scenes

Jisang Han, Honggyu An, Jaewoo Jung et al.

CVPR 2025posterarXiv:2411.05738

#3391

StdGEN: Semantic-Decomposed 3D Character Generation from Single Images

Yuze He, Yanning Zhou, Wang Zhao et al.

NEURIPS 2025oralarXiv:2506.00993

#3392

FlexSelect: Flexible Token Selection for Efficient Long Video Understanding

yunzhu zhang, Yu Lu, Tianyi Wang et al.

NEURIPS 2025oralarXiv:2505.11842

#3393

Video-SafetyBench: A Benchmark for Safety Evaluation of Video LVLMs

Xuannan Liu, Zekun Li, Zheqi He et al.

ICLR 2025posterarXiv:2502.09617

#3394

LIFe-GoM: Generalizable Human Rendering with Learned Iterative Feedback Over Multi-Resolution Gaussians-on-Mesh

Jing Wen, Alex Schwing, Shenlong Wang

NEURIPS 2025posterarXiv:2506.14852

#3395

Agentic Plan Caching: Test-Time Memory for Fast and Cost-Efficient LLM Agents

Qizheng Zhang, Michael Wornow, Kunle Olukotun

ICLR 2025posterarXiv:2502.19009

#3396

Distilling Reinforcement Learning Algorithms for In-Context Model-Based Planning

Jaehyeon Son, Soochan Lee, Gunhee Kim

NEURIPS 2025posterarXiv:2505.15152

#3397

Sculpting Features from Noise: Reward-Guided Hierarchical Diffusion for Task-Optimal Feature Transformation

Nanxu Gong, Zijun Li, Sixun Dong et al.

ICLR 2025posterarXiv:2407.11306

#3398

PADRe: A Unifying Polynomial Attention Drop-in Replacement for Efficient Vision Transformer

Pierre-David Letourneau, Manish Singh, Hsin-Pai Cheng et al.

ICLR 2025posterarXiv:2407.07356

#3399

Video In-context Learning: Autoregressive Transformers are Zero-Shot Video Imitators

Wentao Zhang, Junliang Guo, Tianyu He et al.

ICLR 2025posterarXiv:2403.06925

#3400

Transformers Learn Low Sensitivity Functions: Investigations and Implications

Bhavya Vasudeva, Deqing Fu, Tianyi Zhou et al.