Most Cited 2025 &quot;image editing manipulation&quot; Papers

NEURIPS 2025arXiv:2506.09047

#4202

Same Task, Different Circuits: Disentangling Modality-Specific Mechanisms in VLMs

Yaniv Nikankin, Dana Arad, Yossi Gandelsman et al.

CVPR 2025arXiv:2503.19358

#4203

From Sparse to Dense: Camera Relocalization with Scene-Specific Detector from Feature Gaussian Splatting

Zhiwei Huang, Hailin Yu, Yichun Shentu et al.

ICML 2025arXiv:2405.06575

#4204

No-Regret is not enough! Bandits with General Constraints through Adaptive Regret Minimization

Martino Bernasconi, Matteo Castiglioni, Andrea Celli

NEURIPS 2025arXiv:2505.19678

#4205

Grounding Language with Vision: A Conditional Mutual Information Calibrated Decoding Strategy for Reducing Hallucinations in LVLMs

Hao Fang, Changle Zhou, Jiawei Kong et al.

NEURIPS 2025arXiv:2506.02098

#4206

LibriBrain: Over 50 Hours of Within-Subject MEG to Improve Speech Decoding Methods at Scale

Miran Özdogan, Gilad Landau, Gereon Elvers et al.

AAAI 2025paperarXiv:2503.16801

#4207

Auto-Regressive Diffusion for Generating 3D Human-Object Interactions

Zichen Geng, Zeeshan Hayder, Wei Liu et al.

NEURIPS 2025arXiv:2505.19552

#4208

On scalable and efficient training of diffusion samplers

Minkyu Kim, Kiyoung Seong, Dongyeop Woo et al.

NEURIPS 2025arXiv:2505.06679

#4209

T2V-OptJail: Discrete Prompt Optimization for Text-to-Video Jailbreak Attacks

Jiayang Liu, Siyuan Liang, Shiqian Zhao et al.

#4210

BrainACTIV: Identifying visuo-semantic properties driving cortical selectivity using diffusion-based image manipulation

Diego García Cerdas, Christina Sartzetaki, Magnus Petersen et al.

NEURIPS 2025spotlightarXiv:2505.23971

#4211

Critical Batch Size Revisited: A Simple Empirical Approach to Large-Batch Language Model Training

Will Merrill, Shane Arora, Dirk Groeneveld et al.

CVPR 2025arXiv:2503.12035

#4212

MOS: Modeling Object-Scene Associations in Generalized Category Discovery

Zhengyuan Peng, Jinpeng Ma, Zhimin Sun et al.

ICML 2025arXiv:2411.00171

#4213

EARL-BO: Reinforcement Learning for Multi-Step Lookahead, High-Dimensional Bayesian Optimization

Mujin Cheon, Jay Lee, Dong-Yeun Koh et al.

NEURIPS 2025spotlightarXiv:2506.19004

#4214

Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations

Brian Zheng, Alisa Liu, Orevaoghene Ahia et al.

ICML 2025arXiv:2502.16658

#4215

Volume Optimality in Conformal Prediction with Structured Prediction Sets

Chao Gao, Liren Shan, Vaidehi Srinivas et al.

ICLR 2025arXiv:2404.14309

#4216

Towards Understanding the Robustness of Diffusion-Based Purification: A Stochastic Perspective

Yiming Liu, Kezhao Liu, Yao Xiao et al.

NEURIPS 2025spotlightarXiv:2505.23758

#4217

LoRAShop: Training-Free Multi-Concept Image Generation and Editing with Rectified Flow Transformers

Yusuf Dalva, Hidir Yesiltepe, Pinar Yanardag

#4218

Probabilistic Learning to Defer: Handling Missing Expert Annotations and Controlling Workload Distribution

Cuong Nguyen, Thanh-Toan Do, Gustavo Carneiro

ICLR 2025arXiv:2504.10902

#4219

Leveraging Submodule Linearity Enhances Task Arithmetic Performance in LLMs

Rui Dai, Sile Hu, Xu Shen et al.

AAAI 2025paperarXiv:2407.03757

#4220

DiffRetouch: Using Diffusion to Retouch on the Shoulder of Experts

Zheng-Peng Duan, Jiawei Zhang, Zheng Lin et al.

ICLR 2025oralarXiv:2503.00951

#4221

Dynamical Diffusion: Learning Temporal Dynamics with Diffusion Models

Xingzhuo Guo, Yu Zhang, Baixu Chen et al.

NEURIPS 2025arXiv:2503.01161

#4222

Split Gibbs Discrete Diffusion Posterior Sampling

Wenda Chu, Zihui Wu, Yifan Chen et al.

ICML 2025arXiv:2410.11165

#4223

Toward Efficient Kernel-Based Solvers for Nonlinear PDEs

Zhitong Xu, Da Long, Yiming Xu et al.

NEURIPS 2025arXiv:2502.04204

#4224

Short-length Adversarial Training Helps LLMs Defend Long-length Jailbreak Attacks: Theoretical and Empirical Evidence

Shaopeng Fu, Liang Ding, Jingfeng ZHANG et al.

#4225

Uncertain Multimodal Intention and Emotion Understanding in the Wild

Qu Yang, QingHongYa Shi, Tongxin Wang et al.

ICCV 2025arXiv:2503.08407

#4226

WildSeg3D: Segment Any 3D Objects in the Wild from 2D Images

Yansong Guo, Jie Hu, Yansong Qu et al.

ICLR 2025arXiv:2410.09343

#4227

ELICIT: LLM Augmentation Via External In-context Capability

Futing Wang, Jianhao (Elliott) Yan, Yue Zhang et al.

ICLR 2025arXiv:2502.14044

#4228

Enhancing Cognition and Explainability of Multimodal Foundation Models with Self-Synthesized Data

Yucheng Shi, Quanzheng Li, Jin Sun et al.

ICML 2025arXiv:2405.17527

#4229

Unisolver: PDE-Conditional Transformers Towards Universal Neural PDE Solvers

Hang Zhou, Yuezhou Ma, Haixu Wu et al.

ICML 2025arXiv:2410.06020

#4230

QT-DoG: Quantization-Aware Training for Domain Generalization

Saqib Javed, Hieu Le, Mathieu Salzmann

AAAI 2025paperarXiv:2501.04302

#4231

H-MBA: Hierarchical MamBa Adaptation for Multi-Modal Video Understanding in Autonomous Driving

Siran Chen, Yuxiao Luo, Yue Ma et al.

ICML 2025arXiv:2412.11044

#4232

Understanding and Mitigating Memorization in Diffusion Models for Tabular Data

Zhengyu Fang, Zhimeng Jiang, Huiyuan Chen et al.

CVPR 2025arXiv:2406.10889

#4233

VELOCITI: Benchmarking Video-Language Compositional Reasoning with Strict Entailment

Darshana Saravanan, Varun Gupta, Darshan Singh S et al.

ICLR 2025arXiv:2502.04485

#4234

Active Task Disambiguation with LLMs

Katarzyna Kobalczyk, Nicolás Astorga, Tennison Liu et al.

NEURIPS 2025arXiv:2506.20601

#4235

Video Perception Models for 3D Scene Synthesis

Rui Huang, Guangyao Zhai, Zuria Bauer et al.

ICLR 2025arXiv:2408.09966

#4236

Mask in the Mirror: Implicit Sparsification

Tom Jacobs, Rebekka Burkholz

NEURIPS 2025spotlightarXiv:2505.17761

#4237

Structured Linear CDEs: Maximally Expressive and Parallel-in-Time Sequence Models

Benjamin Walker, Lingyi Yang, Nicola Muca Cirone et al.

ICML 2025oralarXiv:2410.05026

#4238

Active Fine-Tuning of Multi-Task Policies

Marco Bagatella, Jonas Hübotter, Georg Martius et al.

NEURIPS 2025arXiv:2401.08348

#4239

Estimating Model Performance Under Covariate Shift Without Labels

Jakub Białek, Juhani Kivimäki, Wojciech Kuberski et al.

ICML 2025arXiv:2502.08991

#4240

Task Generalization with Autoregressive Compositional Structure: Can Learning from $D$ Tasks Generalize to $D^T$ Tasks?

Amirhesam Abedsoltan, Huaqing Zhang, Kaiyue Wen et al.

#4241

WaterDiffusion: Learning a Prior-involved Unrolling Diffusion for Joint Underwater Saliency Detection and Visual Restoration

Laibin Chang, Yunke Wang, Longxiang Deng et al.

AAAI 2025paper

NEURIPS 2025arXiv:2504.11409

#4242

Efficient Hybrid Language Model Compression through Group-Aware SSM Pruning

Ali Taghibakhshi, Sharath Turuvekere Sreenivas, Saurav Muralidharan et al.

AAAI 2025paperarXiv:2311.15438

#4243

ProtoArgNet: Interpretable Image Classification with Super-Prototypes and Argumentation

Hamed Ayoobi, Nico Potyka, Francesca Toni

NEURIPS 2025arXiv:2506.19212

#4244

Scaffolding Dexterous Manipulation with Vision-Language Models

Vincent de Bakker, Joey Hejna, Tyler Lum et al.

ICLR 2025arXiv:2410.11826

#4245

Bayesian Experimental Design Via Contrastive Diffusions

Jacopo Iollo, Christophe Heinkelé, Pierre Alliez et al.

CVPR 2025highlightarXiv:2406.04251

#4246

Improving Gaussian Splatting with Localized Points Management

Haosen Yang, Chenhao Zhang, Wenqing Wang et al.

ICLR 2025arXiv:2502.09925

#4247

TaskGalaxy: Scaling Multi-modal Instruction Fine-tuning with Tens of Thousands Vision Task Types

Jiankang Chen, Tianke Zhang, Changyi Liu et al.

ICCV 2025highlightarXiv:2508.10731

#4248

Dissecting Generalized Category Discovery: Multiplex Consensus under Self-Deconstruction

Luyao Tang, Kunze Huang, Yuxuan Yuan et al.

ICML 2025arXiv:2502.00258

#4249

PROXSPARSE: REGULARIZED LEARNING OF SEMI-STRUCTURED SPARSITY MASKS FOR PRETRAINED LLMS

Hongyi Liu, Rajarshi Saha, Zhen Jia et al.

CVPR 2025arXiv:2503.14945

#4250

Generating Multimodal Driving Scenes via Next-Scene Prediction

Yanhao Wu, Haoyang Zhang, Tianwei Lin et al.

#4251

Exploit Your Latents: Coarse-Grained Protein Backmapping with Latent Diffusion Models

Rongchao Zhang, Yu Huang, Yiwei Lou et al.

AAAI 2025paper

ICLR 2025arXiv:2410.06820

#4252

Learning a Neural Solver for Parametric PDEs to Enhance Physics-Informed Methods

Lise Le Boudec, Emmanuel de Bézenac, Louis Serrano et al.

NEURIPS 2025arXiv:2504.19901

#4253

Attention Mechanism, Max-Affine Partition, and Universal Approximation

Hude Liu, Jerry Yao-Chieh Hu, Zhao Song et al.

NEURIPS 2025arXiv:2509.17609

#4254

Audio Super-Resolution with Latent Bridge Models

Chang Li, Zehua Chen, Liyuan Wang et al.

ICLR 2025oralarXiv:2308.01170

#4255

Revisiting a Design Choice in Gradient Temporal Difference Learning

Xiaochi Qian, Shangtong Zhang

ICML 2025arXiv:2502.04079

#4256

DEALing with Image Reconstruction: Deep Attentive Least Squares

Mehrsa Pourya, Erich Kobler, Michael Unser et al.

ICLR 2025arXiv:2406.09870

#4257

IGL-Bench: Establishing the Comprehensive Benchmark for Imbalanced Graph Learning

Jiawen Qin, Haonan Yuan, Qingyun Sun et al.

CVPR 2025arXiv:2509.22412

#4258

FreqDebias: Towards Generalizable Deepfake Detection via Consistency-Driven Frequency Debiasing

Hossein Kashiani, Niloufar Alipour Talemi, Fatemeh Afghah

CVPR 2025arXiv:2504.00999

#4259

MergeVQ: A Unified Framework for Visual Generation and Representation with Disentangled Token Merging and Quantization

Siyuan Li, Luyuan Zhang, Zedong Wang et al.

ICML 2025oralarXiv:2502.20260

#4260

Understanding the Limits of Deep Tabular Methods with Temporal Shift

Haorun Cai, Han-Jia Ye

ICLR 2025oralarXiv:2411.19455

#4261

Autocorrelation Matters: Understanding the Role of Initialization Schemes for State Space Models

Fusheng Liu, Qianxiao Li

ICLR 2025arXiv:2503.02351

#4262

MindSimulator: Exploring Brain Concept Localization via Synthetic fMRI

Qi Zhang, Qi Zhang, Zixuan Gong et al.

AAAI 2025paperarXiv:2412.11807

#4263

PhysAug: A Physical-guided and Frequency-based Data Augmentation for Single-Domain Generalized Object Detection

Xiaoran Xu, Jiangang Yang, Wenhui Shi et al.

NEURIPS 2025arXiv:2505.12668

#4264

Decompile-Bench: Million-Scale Binary-Source Function Pairs for Real-World Binary Decompilation

hanzhuo tan, Xiaolong Tian, Hanrui Qi et al.

ICLR 2025arXiv:2502.02454

#4265

IMDPrompter: Adapting SAM to Image Manipulation Detection by Cross-View Automated Prompt Learning

Quan Zhang, Yuxin Qi, Xi Tang et al.

ICCV 2025arXiv:2510.20229

#4266

Why LVLMs Are More Prone to Hallucinations in Longer Responses: The Role of Context

Ge Zheng, Jiaye Qian, Jiajin Tang et al.

NEURIPS 2025spotlightarXiv:2506.15544

#4267

Stable Gradients for Stable Learning at Scale in Deep Reinforcement Learning

Roger Creus Castanyer, Johan Obando Ceron, Lu Li et al.

NEURIPS 2025arXiv:2410.19964

#4268

Understanding Adam Requires Better Rotation Dependent Assumptions

Tianyue Zhang, Lucas Maes, Alan Milligan et al.

ICCV 2025arXiv:2505.04601

#4269

OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning

Xianhang Li, Yanqing Liu, Haoqin Tu et al.

AAAI 2025paperarXiv:2412.09981

#4270

SUMI-IFL: An Information-Theoretic Framework for Image Forgery Localization with Sufficiency and Minimality Constraints

Ziqi Sheng, Wei Lu, Xiangyang Luo et al.

ICLR 2025arXiv:2410.02242

#4271

Robust Weight Initialization for Tanh Neural Networks with Fixed Point Analysis

Hyunwoo Lee, Hayoung Choi, Hyunju Kim

AAAI 2025paperarXiv:2503.18042

#4272

DualCP: Rehearsal-Free Domain-Incremental Learning via Dual-Level Concept Prototype

Qiang Wang, Yuhang He, Songlin Dong et al.

NEURIPS 2025spotlightarXiv:2409.18893

#4273

HM3: Hierarchical Multi-Objective Model Merging for Pretrained Models

Yu Zhou, Xingyu Wu, Jibin Wu et al.

AAAI 2025paperarXiv:2312.06220

#4274

CSformer: Combining Channel Independence and Mixing for Robust Multivariate Time Series Forecasting

Haoxin Wang, Yipeng Mo, Kunlan Xiang et al.

NEURIPS 2025arXiv:2412.05095

#4275

SoPo: Text-to-Motion Generation Using Semi-Online Preference Optimization

Xiaofeng Tan, Hongsong Wang, Xin Geng et al.

ICCV 2025arXiv:2503.08741

#4276

Oasis: One Image is All You Need for Multimodal Instruction Data Synthesis

Letian Zhang, Quan Cui, Bingchen Zhao et al.

ICML 2025oralarXiv:2506.07534

#4277

Flowing Datasets with Wasserstein over Wasserstein Gradient Flows

Clément Bonet, Christophe Vauthier, Anna Korba

AAAI 2025paperarXiv:2306.01631

#4278

Bi-level Contrastive Learning for Knowledge-Enhanced Molecule Representations

Pengcheng Jiang, Cao Xiao, Tianfan Fu et al.

AAAI 2025paperarXiv:2412.16483

#4279

MOL-Mamba: Enhancing Molecular Representation with Structural & Electronic Insights

Jingjing Hu, Dan Guo, Zhan Si et al.

NEURIPS 2025arXiv:2502.06343

#4280

Prediction-Powered Causal Inferences

Riccardo Cadei, Ilker Demirel, Piersilvio De Bartolomeis et al.

CVPR 2025arXiv:2412.00148

#4281

Motion Modes: What Could Happen Next?

Karran Pandey, Yannick Hold-Geoffroy, Matheus Gadelha et al.

CVPR 2025arXiv:2504.12104

#4282

Logits DeConfusion with CLIP for Few-Shot Learning

Shuo Li, Fang Liu, Zehua Hao et al.

AAAI 2025paperarXiv:2412.11684

#4283

Runtime Analysis for Multi-Objective Evolutionary Algorithms in Unbounded Integer Spaces

Benjamin Doerr, Martin S. Krejca, Günter Rudolph

NEURIPS 2025oralarXiv:2506.05287

#4284

EOC-Bench: Can MLLMs Identify, Recall, and Forecast Objects in an Egocentric World?

Yuqian Yuan, Ronghao Dang, long li et al.

CVPR 2025arXiv:2505.05853

#4285

PICD: Versatile Perceptual Image Compression with Diffusion Rendering

Tongda Xu, Jiahao Li, Bin Li et al.

AAAI 2025paperarXiv:2412.18365

#4286

Hypergraph Attacks via Injecting Homogeneous Nodes into Elite Hyperedges

Meixia He, Peican Zhu, Keke Tang et al.

AAAI 2025paperarXiv:2403.01875

#4287

Locally Convex Global Loss Network for Decision-Focused Learning

Haeun Jeon, Hyunglip Bae, Minsu Park et al.

NEURIPS 2025arXiv:2411.19477

#4288

Provable Scaling Laws for the Test-Time Compute of Large Language Models

Yanxi Chen, Xuchen Pan, Yaliang Li et al.

CVPR 2025highlightarXiv:2506.11543

#4289

FIMA-Q: Post-Training Quantization for Vision Transformers by Fisher Information Matrix Approximation

Zhuguanyu Wu, Shihe Wang, Jiayi Zhang et al.

NEURIPS 2025arXiv:2506.19583

#4290

ConStellaration: A dataset of QI-like stellarator plasma boundaries and optimization benchmarks

Santiago Cadena, Andrea Merlo, Emanuel Laude et al.

CVPR 2025arXiv:2503.03325

#4291

Golden Cudgel Network for Real-Time Semantic Segmentation

Guoyu Yang, Yuan Wang, Daming Shi et al.

NEURIPS 2025arXiv:2501.18009

#4292

Large Language Models Think Too Fast To Explore Effectively

Lan Pan, Hanbo Xie, Robert Wilson

ICCV 2025arXiv:2503.19263

#4293

DWIM: Towards Tool-aware Visual Reasoning via Discrepancy-aware Workflow Generation & Instruct-Masking Tuning

Fucai Ke, Vijay Kumar b g, Xingjian Leng et al.

NEURIPS 2025arXiv:2505.24749

#4294

SUMO: Subspace-Aware Moment-Orthogonalization for Accelerating Memory-Efficient LLM Training

Yehonathan Refael, Guy Smorodinsky, Tom Tirer et al.

ICLR 2025oralarXiv:2503.10307

#4295

6D Object Pose Tracking in Internet Videos for Robotic Manipulation

Georgy Ponimatkin, Martin Cífka, Tomas Soucek et al.

NEURIPS 2025oralarXiv:2506.10168

#4296

Momentum Multi-Marginal Schrödinger Bridge Matching

Panagiotis Theodoropoulos, Augustinos Saravanos, Evangelos Theodorou et al.

NEURIPS 2025arXiv:2502.05743

#4297

Understanding Representation Dynamics of Diffusion Models via Low-Dimensional Modeling

Xiao Li, Zekai Zhang, Xiang Li et al.

ICLR 2025arXiv:2503.00524

#4298

End-to-end Learning of Gaussian Mixture Priors for Diffusion Sampler

Denis Blessing, Xiaogang Jia, Gerhard Neumann

ICLR 2025arXiv:2502.04891

#4299

GNNs Getting ComFy: Community and Feature Similarity Guided Rewiring

Celia Rubio-Madrigal, Adarsh Jamadandi, Rebekka Burkholz

AAAI 2025paperarXiv:2409.13948

#4300

Aligning Language Models Using Follow-up Likelihood as Reward Signal

Chen Zhang, Dading Chong, Feng Jiang et al.

NEURIPS 2025arXiv:2506.04088

#4301

Multimodal Tabular Reasoning with Privileged Structured Information

Jun-Peng Jiang, Yu Xia, Hai-Long Sun et al.

CVPR 2025arXiv:2412.10153

#4302

EVOS: Efficient Implicit Neural Training via EVOlutionary Selector

Weixiang Zhang, Shuzhao Xie, Chengwei Ren et al.

NEURIPS 2025arXiv:2502.04380

#4303

Diversity as a Reward: Fine-Tuning LLMs on a Mixture of Domain-Undetermined Data

Zhenqing Ling, Daoyuan Chen, Liuyi Yao et al.

ICCV 2025highlightarXiv:2506.23088

#4304

Where, What, Why: Towards Explainable Driver Attention Prediction

Yuchen Zhou, Jiayu Tang, Xiaoyan Xiao et al.

AAAI 2025paperarXiv:2410.06913

#4305

Utilize the Flow Before Stepping into the Same River Twice: Certainty Represented Knowledge Flow for Refusal-Aware Instruction Tuning

Runchuan Zhu, Zhipeng Ma, Jiang Wu et al.

CVPR 2025arXiv:2412.03844

#4306

HybridGS: Decoupling Transients and Statics with 2D and 3D Gaussian Splatting

Jingyu Lin, Jiaqi Gu, Lubin Fan et al.

ICLR 2025arXiv:2502.04923

#4307

Cached Multi-Lora Composition for Multi-Concept Image Generation

Xiandong Zou, Mingzhu Shen, Christos-Savvas Bouganis et al.

ICLR 2025arXiv:2502.01688

#4308

BrainOOD: Out-of-distribution Generalizable Brain Network Analysis

Jiaxing Xu, Yongqiang Chen, Xia Dong et al.

ICLR 2025arXiv:2410.03097

#4309

CLIPDrag: Combining Text-based and Drag-based Instructions for Image Editing

Ziqi Jiang, Zhen Wang, Long Chen

CVPR 2025highlightarXiv:2502.20134

#4310

Show and Tell: Visually Explainable Deep Neural Nets via Spatially-Aware Concept Bottleneck Models

Itay Benou, Tammy Riklin Raviv

ICCV 2025arXiv:2503.21408

#4311

VALLR: Visual ASR Language Model for Lip Reading

Marshall Thomas, Edward Fish, Richard Bowden

ICLR 2025arXiv:2502.13533

#4312

Train Small, Infer Large: Memory-Efficient LoRA Training for Large Language Models

Jun Zhang, Jue Wang, Huan Li et al.

CVPR 2025arXiv:2503.23220

#4313

Large Self-Supervised Models Bridge the Gap in Domain Adaptive Object Detection

Marc-Antoine Lavoie, Anas Mahmoud, Steven L. Waslander

NEURIPS 2025oralarXiv:2505.08022

#4314

Dynamical Low-Rank Compression of Neural Networks with Robustness under Adversarial Attacks

Steffen Schotthöfer, Lexie Yang, Stefan Schnake

CVPR 2025arXiv:2504.02264

#4315

MMTL-UniAD: A Unified Framework for Multimodal and Multi-Task Learning in Assistive Driving Perception

Wenzhuo Liu, Wenshuo Wang, Yicheng Qiao et al.

NEURIPS 2025oralarXiv:2505.17863

#4316

The emergence of sparse attention: impact of data distribution and benefits of repetition

Nicolas Zucchet, Francesco D'Angelo, Andrew Lampinen et al.

CVPR 2025arXiv:2501.09333

#4317

Prompt-CAM: Making Vision Transformers Interpretable for Fine-Grained Analysis

Arpita Chowdhury, Dipanjyoti Paul, Zheda Mai et al.

NEURIPS 2025arXiv:2505.12149

#4318

Improving Energy Natural Gradient Descent through Woodbury, Momentum, and Randomization

Andrés Guzmán-Cordero, Felix Dangel, Gil Goldshlager et al.

ICLR 2025arXiv:2410.08942

#4319

Maximizing the Potential of Synthetic Data: Insights from Random Matrix Theory

Aymane El Firdoussi, Mohamed El Amine Seddik, Soufiane Hayou et al.

ICLR 2025arXiv:2405.16397

#4320

AdaFisher: Adaptive Second Order Optimization via Fisher Information

Damien GOMES, Yanlei Zhang, Eugene Belilovsky et al.

CVPR 2025arXiv:2503.12242

#4321

RePerformer: Immersive Human-centric Volumetric Videos from Playback to Photoreal Reperformance

Yuheng Jiang, Zhehao Shen, Chengcheng Guo et al.

ICLR 2025arXiv:2407.00957

#4322

Expressivity of Neural Networks with Random Weights and Learned Biases

Ezekiel Williams, Alexandre Payeur, Avery Ryoo et al.

CVPR 2025arXiv:2504.18509

#4323

Eval3D: Interpretable and Fine-grained Evaluation for 3D Generation

Shivam Duggal, Yushi Hu, Oscar Michel et al.

NEURIPS 2025oralarXiv:2510.14032

#4324

Vgent: Graph-based Retrieval-Reasoning-Augmented Generation For Long Video Understanding

Xiaoqian Shen, Wenxuan Zhang, Jun Chen et al.

CVPR 2025arXiv:2503.04501

#4325

IMFine: 3D Inpainting via Geometry-guided Multi-view Refinement

Zhihao Shi, Dong Huo, Yuhongze Zhou et al.

AAAI 2025paperarXiv:2408.10613

#4326

Task-level Distributionally Robust Optimization for Large Language Model-based Dense Retrieval

Guangyuan Ma, Yongliang Ma, Xing Wu et al.

ICLR 2025arXiv:2410.05016

#4327

T-JEPA: Augmentation-Free Self-Supervised Learning for Tabular Data

Hugo Thimonier, José Lucas De Melo Costa, Fabrice Popineau et al.

CVPR 2025highlightarXiv:2504.01955

#4328

Scene-Centric Unsupervised Panoptic Segmentation

Oliver Hahn, Christoph Reich, Nikita Araslanov et al.

AAAI 2025paperarXiv:2501.09214

#4329

Boosting Short Text Classification with Multi-Source Information Exploration and Dual-Level Contrastive Learning

Yonghao Liu, Mengyu Li, Wei Pang et al.

NEURIPS 2025arXiv:2506.02350

#4330

Truth over Tricks: Measuring and Mitigating Shortcut Learning in Misinformation Detection

Herun Wan, Jiaying Wu, Minnan Luo et al.

ICLR 2025arXiv:2501.05783

#4331

UV-Attack: Physical-World Adversarial Attacks on Person Detection via Dynamic-NeRF-based UV Mapping

Yanjie Li, Kaisheng Liang, Bin Xiao

ICLR 2025arXiv:2410.22598

#4332

Feature Responsiveness Scores: Model-Agnostic Explanations for Recourse

Seung Hyun Cheon, Anneke Wernerfelt, Sorelle Friedler et al.

ICLR 2025arXiv:2410.10132

#4333

Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning

Hung Le, Dung Nguyen, Kien Do et al.

#4334

Chat-based Person Retrieval via Dialogue-Refined Cross-Modal Alignment

Yang Bai, Yucheng Ji, Min Cao et al.

CVPR 2025highlightarXiv:2503.15934

#4335

SaMam: Style-aware State Space Model for Arbitrary Image Style Transfer

Hongda Liu, Longguang Wang, Ye Zhang et al.

NEURIPS 2025arXiv:2504.05288

#4336

Seeking and Updating with Live Visual Knowledge

Mingyang Fu, Yuyang Peng, Dongping Chen et al.

CVPR 2025arXiv:2503.15842

#4337

FedAWA: Adaptive Optimization of Aggregation Weights in Federated Learning Using Client Vectors

Changlong Shi, He Zhao, Bingjie Zhang et al.

CVPR 2025arXiv:2410.11619

#4338

MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval

Reno Kriz, Kate Sanders, David Etter et al.

NEURIPS 2025arXiv:2507.06607

#4339

Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation

Liliang Ren, Congcong Chen, Haoran Xu et al.

AAAI 2025paperarXiv:2409.11283

#4340

Zero-resource Hallucination Detection for Text Generation via Graph-based Contextual Knowledge Triples Modeling

Xinyue Fang, Zhen Huang, Zhiliang Tian et al.

ICLR 2025arXiv:2410.15744

#4341

Unleashing the Potential of Vision-Language Pre-Training for 3D Zero-Shot Lesion Segmentation via Mask-Attribute Alignment

Yankai Jiang, Wenhui Lei, Xiaofan Zhang et al.

ICLR 2025arXiv:2406.14662

#4342

Advantage Alignment Algorithms

Juan Duque, Milad Aghajohari, Timotheus Cooijmans et al.

CVPR 2025arXiv:2411.16718

#4343

Neuro-Symbolic Evaluation of Text-to-Video Models using Formal Verification

S P Sharan, Minkyu Choi, Sahil Shah et al.

#4344

MIRE: Matched Implicit Neural Representations

Dhananjaya Jayasundara, Heng Zhao, Demetrio Labate et al.

CVPR 2025arXiv:2503.15406

#4345

Visual Persona: Foundation Model for Full-Body Human Customization

Jisu Nam, Soowon Son, Zhan Xu et al.

CVPR 2025arXiv:2503.10143

#4346

GaussHDR: High Dynamic Range Gaussian Splatting via Learning Unified 3D and 2D Local Tone Mapping

Jinfeng Liu, Lingtong Kong, Bo Li et al.

CVPR 2025highlightarXiv:2503.21076

#4347

KAC: Kolmogorov-Arnold Classifier for Continual Learning

Yusong Hu, Zichen Liang, Fei Yang et al.

#4348

3D-MVP: 3D Multiview Pretraining for Manipulation

Shengyi Qian, Kaichun Mo, Valts Blukis et al.

#4349

POT: Prototypical Optimal Transport for Weakly Supervised Semantic Segmentation

Jian Wang, Tianhong Dai, Bingfeng Zhang et al.

ICLR 2025arXiv:2410.23841

#4350

Beyond Content Relevance: Evaluating Instruction Following in Retrieval Models

Jianqun Zhou, Yuanlei Zheng, Wei Chen et al.

ICLR 2025arXiv:2410.21526

#4351

Not All LLM-Generated Data Are Equal: Rethinking Data Weighting in Text Classification

Hsun-Yu Kuo, Yin-Hsiang Liao, Yu-Chieh Chao et al.

ICLR 2025oralarXiv:2408.17355

#4352

Bidirectional Decoding: Improving Action Chunking via Guided Test-Time Sampling

Yuejiang Liu, Jubayer Hamid, Annie Xie et al.

AAAI 2025paperarXiv:2501.02020

#4353

Enhancing Uncertainty Modeling with Semantic Graph for Hallucination Detection

Kedi Chen, Qin Chen, Jie Zhou et al.

#4354

Keyframe-Guided Creative Video Inpainting

Yuwei Guo, Ceyuan Yang, Anyi Rao et al.

AAAI 2025paperarXiv:2408.07397

#4355

Bridging Training and Execution via Dynamic Directed Graph-Based Communication in Cooperative Multi-Agent Systems

Zhuohui Zhang, Bin He, Bin Cheng et al.

CVPR 2025arXiv:2503.12982

#4356

SparseAlign: a Fully Sparse Framework for Cooperative Object Detection

Yunshuang Yuan, Yan Xia, Daniel Cremers et al.

NEURIPS 2025arXiv:2506.18631

#4357

ReDit: Reward Dithering for Improved LLM Policy Optimization

Chenxing Wei, Jiarui Yu, Ying He et al.

NEURIPS 2025arXiv:2404.17442

#4358

Uniform Generalization Bounds on Data-Dependent Hypothesis Sets via PAC-Bayesian Theory on Random Sets

Benjamin Dupuis, Paul Viallard, George Deligiannidis et al.

AAAI 2025paperarXiv:2412.13359

#4359

Multi-Agent Motion Planning for Differential Drive Robots Through Stationary State Search

Jingtian Yan, Jiaoyang Li

CVPR 2025arXiv:2502.04293

#4360

GCE-Pose: Global Context Enhancement for Category-level Object Pose Estimation

Weihang Li, Hongli XU, Junwen Huang et al.

CVPR 2025highlightarXiv:2506.02493

#4361

Towards In-the-wild 3D Plane Reconstruction from a Single Image

Jiachen Liu, Rui Yu, Sili Chen et al.

CVPR 2025arXiv:2503.21780

#4362

Semantic Library Adaptation: LoRA Retrieval and Fusion for Open-Vocabulary Semantic Segmentation

Reza Qorbani, Gianluca Villani, Theodoros Panagiotakopoulos et al.

ICLR 2025arXiv:2406.14022

#4363

Investigating the Pre-Training Dynamics of In-Context Learning: Task Recognition vs. Task Learning

Xiaolei Wang, Xinyu Tang, Junyi Li et al.

AAAI 2025paperarXiv:2405.16751

#4364

REVECA: Adaptive Planning and Trajectory-Based Validation in Cooperative Language Agents Using Information Relevance and Relative Proximity

SeungWon Seo, SeongRae Noh, Junhyeok Lee et al.

#4365

BadRobot: Jailbreaking Embodied LLM Agents in the Physical World

Hangtao Zhang, Chenyu Zhu, Xianlong Wang et al.

NEURIPS 2025arXiv:2505.19536

#4366

FlowCut: Rethinking Redundancy via Information Flow for Efficient Vision-Language Models

Jintao Tong, Wenwei Jin, Pengda Qin et al.

#4367

Stealthy Shield Defense: A Conditional Mutual Information-Based Approach against Black-Box Model Inversion Attacks

Tianqu Zhuang, Hongyao Yu, Yixiang Qiu et al.

NEURIPS 2025arXiv:2505.19261

#4368

Enhancing Text-to-Image Diffusion Transformer via Split-Text Conditioning

Yu Zhang, Jialei Zhou, Xinchen Li et al.

NEURIPS 2025arXiv:2506.10036

#4369

Token Perturbation Guidance for Diffusion Models

Javad Rajabi, Soroush Mehraban, Seyedmorteza Sadat et al.

AAAI 2025paperarXiv:2412.09812

#4370

ScaleOT: Privacy-utility-scalable Offsite-tuning with Dynamic LayerReplace and Selective Rank Compression

Kai Yao, Zhaorui Tan, Tiandi Ye et al.

ICLR 2025arXiv:2502.12732

#4371

Circuit Representation Learning with Masked Gate Modeling and Verilog-AIG Alignment

Haoyuan Wu, Haisheng Zheng, Yuan Pu et al.

CVPR 2025arXiv:2412.07293

#4372

EventSplat: 3D Gaussian Splatting from Moving Event Cameras for Real-time Rendering

Toshiya Yura, Ashkan Mirzaei, Igor Gilitschenski

CVPR 2025arXiv:2503.14867

#4373

DVHGNN: Multi-Scale Dilated Vision HGNN for Efficient Vision Recognition

Caoshuo Li, Tanzhe Li, Xiaobin Hu et al.

#4374

Real-IAD D³: A Real-World 2D/Pseudo-3D/3D Dataset for Industrial Anomaly Detection

wenbing zhu, Lidong Wang, Ziqing Zhou et al.

CVPR 2025arXiv:2503.18137

#4375

TCFG: Tangential Damping Classifier-free Guidance

Mingi Kwon, Shin seong Kim, Jaeseok Jeong et al.

#4376

MLC-NC: Long-Tailed Multi-Label Image Classification Through the Lens of Neural Collapse

Zijian Tao, Shao-Yuan Li, Wenhai Wan et al.

AAAI 2025paper

CVPR 2025arXiv:2408.15708

#4377

Towards Realistic Example-based Modeling via 3D Gaussian Stitching

Xinyu Gao, Ziyi Yang, Bingchen Gong et al.

NEURIPS 2025arXiv:2502.01755

#4378

Robust Federated Finetuning of LLMs via Alternating Optimization of LoRA

Shuangyi Chen, Yuanxin Guo, Yue Ju et al.

CVPR 2025arXiv:2503.12758

#4379

VasTSD: Learning 3D Vascular Tree-state Space Diffusion Model for Angiography Synthesis

Zhifeng Wang, Renjiao Yi, Xin Wen et al.

ICLR 2025arXiv:2502.18821

#4380

CAMEx: Curvature-aware Merging of Experts

Dung Viet Nguyen, Minh Nguyen, Luc Nguyen et al.

ICLR 2025arXiv:2502.15315

#4381

Tight Clusters Make Specialized Experts

Stefan Nielsen, Rachel Teo, Laziz Abdullaev et al.

NEURIPS 2025arXiv:2401.06122

#4382

Manipulating Feature Visualizations with Gradient Slingshots

Dilyara Bareeva, Marina Höhne, Alexander Warnecke et al.

CVPR 2025arXiv:2411.08466

#4383

Weakly Supervised Temporal Action Localization via Dual-Prior Collaborative Learning Guided by Multimodal Large Language Models

Quan Zhang, Jinwei Fang, Rui Yuan et al.

#4384

Walking the Tightrope: Autonomous Disentangling Beneficial and Detrimental Drifts in Non-Stationary Custom-Tuning

Xiaoyu Yang, Jie Lu, En Yu

NEURIPS 2025oral

NEURIPS 2025oralarXiv:2506.00635

#4385

Learning with Calibration: Exploring Test-Time Computing of Spatio-Temporal Forecasting

Wei Chen, Yuxuan Liang

ICLR 2025arXiv:2503.04626

#4386

IDInit: A Universal and Stable Initialization Method for Neural Network Training

Yu Pan, Chaozheng Wang, Zekai Wu et al.

NEURIPS 2025arXiv:2505.23387

#4387

Afterburner: Reinforcement Learning Facilitates Self-Improving Code Efficiency Optimization

Mingzhe Du, Anh Tuan Luu, Yue Liu et al.

CVPR 2025arXiv:2504.04566

#4388

DyCON: Dynamic Uncertainty-aware Consistency and Contrastive Learning for Semi-supervised Medical Image Segmentation

Maregu Assefa, Muzammal Naseer, IYYAKUTTI IYAPPAN GANAPATHI et al.

#4389

SimXRD-4M: Big Simulated X-ray Diffraction Data and Crystal Symmetry Classification Benchmark

Bin Cao, Yang Liu, Zinan Zheng et al.

#4390

Rethinking Spiking Self-Attention Mechanism: Implementing α-XNOR Similarity Calculation in Spiking Transformers

Yichen Xiao, Shuai Wang, Dehao Zhang et al.

#4391

Bridging the Gap between Database Search and \emph{De Novo} Peptide Sequencing with SearchNovo

Jun Xia, Sizhe Liu, Jingbo Zhou et al.

#4392

Point Cluster: A Compact Message Unit for Communication-Efficient Collaborative Perception

Zihan Ding, Jiahui Fu, Si Liu et al.

NEURIPS 2025arXiv:2506.00885

#4393

CoVoMix2: Advancing Zero-Shot Dialogue Generation with Fully Non-Autoregressive Flow Matching

Leying Zhang, Yao Qian, Xiaofei Wang et al.

#4394

TSAM: Temporal SAM Augmented with Multimodal Prompts for Referring Audio-Visual Segmentation

Abduljalil Radman, Jorma Laaksonen

CVPR 2025arXiv:2403.14539

#4395

Robust 3D Shape Reconstruction in Zero-Shot from a Single Image in the Wild

Junhyeong Cho, Kim Youwang, Hunmin Yang et al.

CVPR 2025arXiv:2503.10247

#4396

Interpretable Image Classification via Non-parametric Part Prototype Learning

Zhijie Zhu, Lei Fan, Maurice Pagnucco et al.

AAAI 2025paperarXiv:2502.20371

#4397

Constrained Generative Modeling with Manually Bridged Diffusion Models

Saeid Naderiparizi, Xiaoxuan Liang, Berend Zwartsenberg et al.

CVPR 2025arXiv:2503.24129

#4398

It’s a (Blind) Match! Towards Vision-Language Correspondence without Parallel Data

Dominik Schnaus, Nikita Araslanov, Daniel Cremers

NEURIPS 2025oralarXiv:2503.16422

#4399

1000+ FPS 4D Gaussian Splatting for Dynamic Scene Rendering

Yuheng Yuan, Qiuhong Shen, Xingyi Yang et al.

ICCV 2025arXiv:2504.07836

#4400

AerialVG: A Challenging Benchmark for Aerial Visual Grounding by Exploring Positional Relations

Junli Liu, Qizhi Chen, Zhigang Wang et al.