Most Cited 2025 &quot;semantic proximity&quot; Papers

NEURIPS 2025arXiv:2505.18098

#8202

Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL

Joey Hong, Anca Dragan, Sergey Levine

ICCV 2025arXiv:2412.21079

#8203

Edicho: Consistent Image Editing in the Wild

Qingyan Bai, Hao Ouyang, Yinghao Xu et al.

ICCV 2025highlightarXiv:2504.12811

#8204

AAA-Gaussians: Anti-Aliased and Artifact-Free 3D Gaussian Rendering

Michael Steiner, Thomas Köhler, Lukas Radl et al.

NEURIPS 2025arXiv:2505.13138

#8205

Neurosymbolic Diffusion Models

Emile van Krieken, Pasquale Minervini, Edoardo Maria Ponti et al.

NEURIPS 2025arXiv:2506.06087

#8206

Multilevel neural simulation-based inference

Yuga Hikida, Ayush Bharti, Niall Jeffrey et al.

CVPR 2025arXiv:2504.02515

#8207

Exploration-Driven Generative Interactive Environments

Nedko Savov, Naser Kazemi, Mohammad Mahdi et al.

ICCV 2025highlightarXiv:2411.19083

#8208

ObjectRelator: Enabling Cross-View Object Relation Understanding Across Ego-Centric and Exo-Centric Perspectives

Yuqian Fu, Runze Wang, Bin Ren et al.

CVPR 2025arXiv:2411.07096

#8209

Extreme Rotation Estimation in the Wild

Hana Bezalel, Dotan Ankri, Ruojin Cai et al.

NEURIPS 2025arXiv:2504.02433

#8210

OmniTalker: One-shot Real-time Text-Driven Talking Audio-Video Generation With Multimodal Style Mimicking

Zhongjian Wang, Peng Zhang, Jinwei Qi et al.

NEURIPS 2025arXiv:2505.17958

#8211

The Nuclear Route: Sharp Asymptotics of ERM in Overparameterized Quadratic Networks

Vittorio Erba, Emanuele Troiani, Lenka Zdeborová et al.

NEURIPS 2025arXiv:2507.08980

#8212

Learning Diffusion Models with Flexible Representation Guidance

Chenyu Wang, Cai Zhou, Sharut Gupta et al.

ICCV 2025arXiv:2501.10110

#8213

DiffVSR: Revealing an Effective Recipe for Taming Robust Video Super-Resolution Against Complex Degradations

Xiaohui Li, Yihao Liu, Shuo Cao et al.

#8214

Revisiting Source-Free Domain Adaptation: Insights into Representativeness, Generalization, and Variety

Ronghang Zhu, Mengxuan Hu, Weiming Zhuang et al.

NEURIPS 2025oralarXiv:2506.05414

#8215

SAVVY: Spatial Awareness via Audio-Visual LLMs through Seeing and Hearing

Mingfei Chen, Zijun Cui, Xiulong Liu et al.

CVPR 2025arXiv:2503.20418

#8216

ITA-MDT: Image-Timestep-Adaptive Masked Diffusion Transformer Framework for Image-Based Virtual Try-On

Ji Woo Hong, Tri Ton, Trung X. Pham et al.

NEURIPS 2025arXiv:2506.00781

#8217

CoP: Agentic Red-teaming for Large Language Models using Composition of Principles

Chen Xiong, Pin-Yu Chen, Tsung-Yi Ho

ICCV 2025arXiv:2503.08751

#8218

Disentangled World Models: Learning to Transfer Semantic Knowledge from Distracting Videos for Reinforcement Learning

Qi Wang, Zhipeng Zhang, Baao Xie et al.

CVPR 2025highlightarXiv:2412.03937

#8219

AIpparel: A Multimodal Foundation Model for Digital Garments

Kiyohiro Nakayama, Jan Ackermann, Timur Levent Kesdogan et al.

ICCV 2025arXiv:2503.16726

#8220

EDiT: Efficient Diffusion Transformers with Linear Compressed Attention

Philipp Becker, Abhinav Mehrotra, Ruchika Chavhan et al.

ICCV 2025arXiv:2506.21401

#8221

Curve-Aware Gaussian Splatting for 3D Parametric Curve Reconstruction

Zhirui Gao, Renjiao Yi, YaQiao Dai et al.

NEURIPS 2025arXiv:2505.02064

#8222

RTV-Bench: Benchmarking MLLM Continuous Perception, Understanding and Reasoning through Real-Time Video

ShuHang Xun, Sicheng Tao, Jungang Li et al.

NEURIPS 2025arXiv:2507.07781

#8223

Surprise3D: A Dataset for Spatial Understanding and Reasoning in Complex 3D Scenes

Jiaxin Huang, Ziwen Li, Hanlue Zhang et al.

ICCV 2025arXiv:2504.04126

#8224

Multi-identity Human Image Animation with Structural Video Diffusion

Zhenzhi Wang, Yixuan Li, yanhong zeng et al.

ICCV 2025arXiv:2503.04171

#8225

DuCos: Duality Constrained Depth Super-Resolution via Foundation Model

Zhiqiang Yan, Zhengxue Wang, Haoye Dong et al.

CVPR 2025arXiv:2411.15236

#8226

Text Embedding is Not All You Need: Attention Control for Text-to-Image Semantic Alignment with Text Self-Attention Maps

Jeeyung Kim, Erfan Esmaeili Fakhabi, Qiang Qiu

ICCV 2025arXiv:2507.15542

#8227

HOLa: Zero-Shot HOI Detection with Low-Rank Decomposed VLM Feature Adaptation

Qinqian Lei, Bo Wang, Robby Tan

CVPR 2025arXiv:2503.02231

#8228

CGMatch: A Different Perspective of Semi-supervised Learning

Bo Cheng, Jueqing Lu, Yuan Tian et al.

CVPR 2025arXiv:2412.13185

#8229

Move-in-2D: 2D-Conditioned Human Motion Generation

Hsin-Ping Huang, Yang Zhou, Jui-Hsien Wang et al.

CVPR 2025arXiv:2412.01792

#8230

CTRL-D: Controllable Dynamic 3D Scene Editing with Personalized 2D Diffusion

Kai He, Chin-Hsuan Wu, Igor Gilitschenski

CVPR 2025arXiv:2502.19739

#8231

LUCAS: Layered Universal Codec Avatars

Di Liu, Teng Deng, Giljoo Nam et al.

ICCV 2025arXiv:2510.14960

#8232

C4D: 4D Made from 3D through Dual Correspondences

Shizun Wang, Zhenxiang Jiang, Xingyi Yang et al.

ICCV 2025arXiv:2412.11284

#8233

Learning Normal Flow Directly From Events

Dehao Yuan, Levi Burner, Jiayi Wu et al.

CVPR 2025highlightarXiv:2505.21943

#8234

Point-to-Region Loss for Semi-Supervised Point-Based Crowd Counting

Wei Lin, Chenyang ZHAO, Antoni B. Chan

ICCV 2025arXiv:2508.16433

#8235

HAMSt3R: Human-Aware Multi-view Stereo 3D Reconstruction

Sara Rojas Martinez, Matthieu Armando, Bernard Ghanem et al.

CVPR 2025arXiv:2412.01826

#8236

RELOCATE: A Simple Training-Free Baseline for Visual Query Localization Using Region-Based Representations

Savya Khosla, Sethuraman T V, Alexander G. Schwing et al.

CVPR 2025arXiv:2504.03011

#8237

Comprehensive Relighting: Generalizable and Consistent Monocular Human Relighting and Harmonization

Junying Wang, Jingyuan Liu, Xin Sun et al.

CVPR 2025arXiv:2505.23068

#8238

URWKV: Unified RWKV Model with Multi-state Perspective for Low-light Image Restoration

Rui Xu, Yuzhen Niu, Yuezhou Li et al.

ICCV 2025highlightarXiv:2503.11509

#8239

TikZero: Zero-Shot Text-Guided Graphics Program Synthesis

Jonas Belouadi, Eddy Ilg, Margret Keuper et al.

CVPR 2025arXiv:2503.04565

#8240

Omnidirectional Multi-Object Tracking

Kai Luo, Hao Shi, Sheng Wu et al.

CVPR 2025arXiv:2505.16980

#8241

Pursuing Temporal-Consistent Video Virtual Try-On via Dynamic Pose Interaction

Dong Li, Wenqi Zhong, Wei Yu et al.

NEURIPS 2025arXiv:2408.10858

#8242

Centralized Reward Agent for Knowledge Sharing and Transfer in Multi-Task Reinforcement Learning

Haozhe Ma, Zhengding Luo, Thanh Vinh Vo et al.

CVPR 2025arXiv:2503.00591

#8243

AesthetiQ: Enhancing Graphic Layout Design via Aesthetic-Aware Preference Alignment of Multi-modal Large Language Models

Sohan Patnaik, Rishabh Jain, Balaji Krishnamurthy et al.

CVPR 2025arXiv:2503.14198

#8244

RoGSplat: Learning Robust Generalizable Human Gaussian Splatting from Sparse Multi-View Images

Junjin Xiao, Qing Zhang, Yongwei Nie et al.

ICCV 2025arXiv:2507.09984

#8245

Latent Diffusion Models with Masked AutoEncoders

Junho Lee, Jeongwoo Shin, Hyungwook Choi et al.

CVPR 2025arXiv:2408.14506

#8246

Distilling Long-tailed Datasets

Zhenghao Zhao, Haoxuan Wang, Yuzhang Shang et al.

CVPR 2025highlightarXiv:2505.01172

#8247

FreePCA: Integrating Consistency Information across Long-short Frames in Training-free Long Video Generation via Principal Component Analysis

Jiangtong Tan, Hu Yu, Jie Huang et al.

NEURIPS 2025arXiv:2505.13072

#8248

Orthogonal Survival Learners for Estimating Heterogeneous Treatment Effects from Time-to-Event Data

Dennis Frauen, Maresa Schröder, Konstantin Hess et al.

ICCV 2025arXiv:2311.17608

#8249

Adversarial Robust Memory-Based Continual Learner

Xiaoyue Mi, Fan Tang, Zonghan Yang et al.

ICCV 2025arXiv:2506.20936

#8250

PhysRig: Differentiable Physics-Based Skinning and Rigging Framework for Realistic Articulated Object Modeling

Hao Zhang, Haolan Xu, Chun Feng et al.

ICCV 2025arXiv:2412.11170

#8251

Benchmarking and Learning Multi-Dimensional Quality Evaluator for Text-to-3D Generation

Yujie Zhang, Bingyang Cui, Qi Yang et al.

NEURIPS 2025arXiv:2505.16854

#8252

Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models

Jiaqi Wang, Kevin Qinghong Lin, James Cheng et al.

#8253

TFCustom: Customized Image Generation with Time-Aware Frequency Feature Guidance

Mushui Liu, Dong She, Qihan Huang et al.

CVPR 2025highlight

ICCV 2025arXiv:2507.15028

#8254

Towards Video Thinking Test: A Holistic Benchmark for Advanced Video Reasoning and Understanding

Yuanhan Zhang, Yunice Chew, Yuhao Dong et al.

CVPR 2025arXiv:2411.16183

#8255

Any3DIS: Class-Agnostic 3D Instance Segmentation by 2D Mask Tracking

Phuc Nguyen, Minh Luu, Anh Tran et al.

ICCV 2025arXiv:2507.11333

#8256

MonoMVSNet: Monocular Priors Guided Multi-View Stereo Network

Jianfei Jiang, Qiankun Liu, Haochen Yu et al.

NEURIPS 2025oralarXiv:2510.16548

#8257

NeurIPT: Foundation Model for Neural Interfaces

Zitao Fang, Chenxuan Li, Hongting Zhou et al.

NEURIPS 2025arXiv:2502.19049

#8258

In-Context Learning of Stochastic Differential Equations with Foundation Inference Models

Patrick Seifner, Kostadin Cvejoski, David Berghaus et al.

NEURIPS 2025arXiv:2410.09678

#8259

Learning Orthogonal Multi-Index Models: A Fine-Grained Information Exponent Analysis

Yunwei Ren, Jason Lee

CVPR 2025highlightarXiv:2412.06767

#8260

MAtCha Gaussians: Atlas of Charts for High-Quality Geometry and Photorealism From Sparse Views

Antoine Guédon, Tomoki Ichikawa, Kohei Yamashita et al.

NEURIPS 2025arXiv:2506.08708

#8261

PhyBlock: A Progressive Benchmark for Physical Understanding and Planning via 3D Block Assembly

Liang Ma, Jiajun Wen, Min Lin et al.

NEURIPS 2025arXiv:2505.24173

#8262

DrVD-Bench: Do Vision-Language Models Reason Like Human Doctors in Medical Image Diagnosis?

Tianhong Zhou, xu yin, Yingtao Zhu et al.

CVPR 2025arXiv:2503.12042

#8263

Prosody-Enhanced Acoustic Pre-training and Acoustic-Disentangled Prosody Adapting for Movie Dubbing

Zhedong Zhang, Liang Li, Chenggang Yan et al.

#8264

Binarized Neural Network for Multi-spectral Image Fusion

Junming Hou, Xiaoyu Chen, Ran Ran et al.

NEURIPS 2025oralarXiv:2506.07016

#8265

MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks

Sanjoy Chowdhury, Mohamed Elmoghany, Yohan Abeysinghe et al.

CVPR 2025highlightarXiv:2502.20126

#8266

FlexiDiT: Your Diffusion Transformer Can Easily Generate High-Quality Samples with Less Compute

Sotiris Anagnostidis, Gregor Bachmann, Yeongmin Kim et al.

CVPR 2025highlightarXiv:2507.04388

#8267

Comprehensive Information Bottleneck for Unveiling Universal Attribution to Interpret Vision Transformers

Jung-Ho Hong, Ho-Joong Kim, Kyu-Sung Jeon et al.

CVPR 2025arXiv:2505.23180

#8268

Proximal Algorithm Unrolling: Flexible and Efficient Reconstruction Networks for Single-Pixel Imaging

Ping Wang, Lishun Wang, Gang Qu et al.

NEURIPS 2025arXiv:2505.17306

#8269

Refusal Direction is Universal Across Safety-Aligned Languages

Xinpeng Wang, Mingyang Wang, Yihong Liu et al.

ICCV 2025arXiv:2412.03515

#8270

Distilling Diffusion Models to Efficient 3D LiDAR Scene Completion

shengyuan zhang, An Zhao, Ling Yang et al.

CVPR 2025arXiv:2503.02101

#8271

Generalized Diffusion Detector: Mining Robust Features from Diffusion Models for Domain-Generalized Detection

Boyong He, Yuxiang Ji, Qianwen Ye et al.

NEURIPS 2025oralarXiv:2506.16029

#8272

EvoLM: In Search of Lost Language Model Training Dynamics

Zhenting Qi, Fan Nie, Alexandre Alahi et al.

ICCV 2025highlightarXiv:2507.01496

#8273

ReFlex: Text-Guided Editing of Real Images in Rectified Flow via Mid-Step Feature Extraction and Attention Adaptation

Jimyeong Kim, Jungwon Park, Yeji Song et al.

NEURIPS 2025oralarXiv:2506.05340

#8274

Exploring Diffusion Transformer Designs via Grafting

Keshigeyan Chandrasegaran, Michael Poli, Dan Fu et al.

CVPR 2025arXiv:2412.07696

#8275

SimVS: Simulating World Inconsistencies for Robust View Synthesis

Alex Trevithick, Roni Paiss, Philipp Henzler et al.

NEURIPS 2025oralarXiv:2508.01561

#8276

One Subgoal at a Time: Zero-Shot Generalization to Arbitrary Linear Temporal Logic Requirements in Multi-Task Reinforcement Learning

Zijian Guo, İlker Işık, H M Sabbir Ahmad et al.

NEURIPS 2025arXiv:2402.10028

#8277

Diffusion Models Meet Contextual Bandits

Imad Aouali

ICCV 2025arXiv:2411.16313

#8278

CATP-LLM: Empowering Large Language Models for Cost-Aware Tool Planning

Duo Wu, Jinghe Wang, Yuan Meng et al.

ICCV 2025highlightarXiv:2508.02106

#8279

Towards Immersive Human-X Interaction: A Real-Time Framework for Physically Plausible Motion Synthesis

Kaiyang Ji, Ye Shi, Zichen Jin et al.

CVPR 2025arXiv:2310.14356

#8280

Semantic and Expressive Variations in Image Captions Across Languages

Andre Ye, Sebastin Santy, Jena D. Hwang et al.

ICCV 2025highlightarXiv:2503.16067

#8281

Bokehlicious: Photorealistic Bokeh Rendering with Controllable Apertures

Tim Seizinger, Florin-Alexandru Vasluianu, Marcos Conde et al.

#8282

Detection-Friendly Nonuniformity Correction: A Union Framework for Infrared UAV Target Detection

Houzhang Fang, Xiaolin Wang, Zengyang Li et al.

CVPR 2025highlight

NEURIPS 2025arXiv:2411.17265

#8283

Systematic Reward Gap Optimization for Mitigating VLM Hallucinations

Lehan He, Zeren Chen, Zhelun Shi et al.

NEURIPS 2025arXiv:2510.04081

#8284

Scaling Code-Assisted Chain-of-Thoughts and Instructions for Model Reasoning

Honglin Lin, Qizhi Pei, Zhuoshi Pan et al.

ICCV 2025arXiv:2503.19457

#8285

G-DexGrasp: Generalizable Dexterous Grasping Synthesis Via Part-Aware Prior Retrieval and Prior-Assisted Generation

Juntao Jian, Xiuping Liu, Zixuanchen Zixuanchen et al.

CVPR 2025highlightarXiv:2503.16956

#8286

From Faces to Voices: Learning Hierarchical Representations for High-quality Video-to-Speech

Jihoon Kim, Jeongsoo Choi, Jaehun Kim et al.

CVPR 2025arXiv:2504.03639

#8287

Shape My Moves: Text-Driven Shape-Aware Synthesis of Human Motions

Ting-Hsuan Liao, Yi Zhou, Yu Shen et al.

NEURIPS 2025arXiv:2506.02408

#8288

Revisiting End-to-End Learning with Slide-level Supervision in Computational Pathology

Wenhao Tang, Rong Qin, Heng Fang et al.

NEURIPS 2025arXiv:2505.15210

#8289

Deliberation on Priors: Trustworthy Reasoning of Large Language Models on Knowledge Graphs

Jie Ma, NING QU, Zhitao Gao et al.

CVPR 2025arXiv:2503.12077

#8290

V-Stylist: Video Stylization via Collaboration and Reflection of MLLM Agents

Zhengrong Yue, Shaobin Zhuang, Kunchang Li et al.

#8291

HUSH: Holistic Panoramic 3D Scene Understanding using Spherical Harmonics

Jongsung Lee, HARIN PARK, Byeong-Uk Lee et al.

ICCV 2025arXiv:2506.18527

#8292

Auto-Regressively Generating Multi-View Consistent Images

JiaKui Hu, Yuxiao Yang, Jialun Liu et al.

NEURIPS 2025arXiv:2505.07865

#8293

CellVerse: Do Large Language Models Really Understand Cell Biology?

Fan Zhang, Tianyu Liu, Zhihong Zhu et al.

ICCV 2025arXiv:2508.20063

#8294

OpenM3D: Open Vocabulary Multi-view Indoor 3D Object Detection without Human Annotations

Peng-Hao Hsu, Ke Zhang, Fu-En Wang et al.

CVPR 2025arXiv:2501.13370

#8295

Unraveling Normal Anatomy via Fluid-Driven Anomaly Randomization

Peirong Liu, Ana Lawry Aguila, Juan Iglesias

NEURIPS 2025arXiv:2505.11883

#8296

MINGLE: Mixture of Null-Space Gated Low-Rank Experts for Test-Time Continual Model Merging

Zihuan Qiu, Yi Xu, Chiyuan He et al.

#8297

Zero-shot 3D Question Answering via Voxel-based Dynamic Token Compression

Hsiang-Wei Huang, Fu-Chen Chen, Wenhao Chai et al.

ICCV 2025arXiv:2508.08867

#8298

GaussianUpdate: Continual 3D Gaussian Splatting Update for Changing Environments

Lin Zeng, Boming Zhao, Jiarui Hu et al.

CVPR 2025arXiv:2408.07790

#8299

Cropper: Vision-Language Model for Image Cropping through In-Context Learning

Seung Hyun Lee, Jijun jiang, Yiran Xu et al.

NEURIPS 2025arXiv:2508.17689

#8300

On the Edge of Memorization in Diffusion Models

Sam Buchanan, Druv Pai, Yi Ma et al.

NEURIPS 2025arXiv:2506.06085

#8301

Feedback Guidance of Diffusion Models

Felix Koulischer, Florian Handke, Johannes Deleu et al.

CVPR 2025arXiv:2503.12745

#8302

ProtoDepth: Unsupervised Continual Depth Completion with Prototypes

Patrick Rim, Hyoungseob Park, Suchisrit Gangopadhyay et al.

CVPR 2025arXiv:2411.10189

#8303

NeISF++: Neural Incident Stokes Field for Polarized Inverse Rendering of Conductors and Dielectrics

Chenhao Li, Taishi Ono, Takeshi Uemori et al.

NEURIPS 2025spotlightarXiv:2510.21518

#8304

Head Pursuit: Probing Attention Specialization in Multimodal Transformers

Lorenzo Basile, Valentino Maiorca, Diego Doimo et al.

CVPR 2025highlightarXiv:2502.20111

#8305

MITracker: Multi-View Integration for Visual Object Tracking

Mengjie Xu, Yitao Zhu, Haotian Jiang et al.

CVPR 2025arXiv:2404.14414

#8306

Removing Reflections from RAW Photos

Eric Kee, Adam Pikielny, Kevin Blackburn-Matzen et al.

ICML 2025arXiv:2506.09655

#8307

DipLLM: Fine-Tuning LLM for Strategic Decision-making in Diplomacy

Kaixuan Xu, Jiajun Chai, Sicheng Li et al.

ICML 2025arXiv:2505.00598

#8308

Fast and Low-Cost Genomic Foundation Models via Outlier Removal

Haozheng Luo, Chenghao Qiu, Maojiang Su et al.

ICML 2025arXiv:2405.17951

#8309

Efficient Time Series Processing for Transformers and State-Space Models through Token Merging

Leon Götz, Marcel Kollovieh, Stephan Günnemann et al.

ICML 2025arXiv:2502.13417

#8310

RLTHF: Targeted Human Feedback for LLM Alignment

Yifei Xu, Tusher Chakraborty, Emre Kiciman et al.

ICML 2025arXiv:2410.15361

#8311

A Novel Characterization of the Population Area Under the Risk Coverage Curve (AURC) and Rates of Finite Sample Estimators

Han Zhou, dr. Jordy Van Landeghem, Teodora Popordanoska et al.

COLM 2025paperarXiv:2503.22948

#8312

SUV: Scalable Large Language Model Copyright Compliance with Regularized Selective Unlearning

Tianyang Xu, Xiaoze Liu, Feijie Wu et al.

COLM 2025paperarXiv:2508.07479

#8313

Positional Biases Shift as Inputs Approach Context Window Limits

Blerta Veseli, Julian Chibane, Mariya Toneva et al.

#8314

Gating is Weighting: Understanding Gated Linear Attention through In-context Learning

Yingcong Li, Davoud Ataee Tarzanagh, Ankit Singh Rawat et al.

ICML 2025arXiv:2409.05929

#8315

M3-JEPA: Multimodal Alignment via Multi-gate MoE based on the Joint-Embedding Predictive Architecture

Hongyang Lei, Xiaolong Cheng, Qi Qin et al.

ICML 2025arXiv:2410.14086

#8316

In-Context Learning and Occam's Razor

Eric Elmoznino, Tom Marty, Tejas Kasetty et al.

COLM 2025paperarXiv:2504.02193

#8317

More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment

Yifan Wang, Runjin Chen, Bolian Li et al.

ICML 2025arXiv:2502.09985

#8318

On Volume Minimization in Conformal Regression

Batiste Le Bars, Pierre Humbert

ICML 2025arXiv:2411.05733

#8319

Differential Privacy Under Class Imbalance: Methods and Empirical Insights

Lucas Rosenblatt, Yuliia Lut, Ethan Turok et al.

#8320

Don’t lie to your friends: Learning what you know from collaborative self-play

Jacob Eisenstein, Reza Aghajani, Adam Fisch et al.

#8321

Position: Build Agent Advocates, Not Platform Agents

Sayash Kapoor, Noam Kolt, Seth Lazar

ICML 2025

ICML 2025arXiv:2505.00926

#8322

How Transformers Learn Regular Language Recognition: A Theoretical Study on Training Dynamics and Implicit Bias

Ruiquan Huang, Yingbin LIANG, Jing Yang

COLM 2025paperarXiv:2508.12531

#8323

Rethinking Safety in LLM Fine-tuning: An Optimization Perspective

Minseon Kim, Jin Myung Kwak, Lama Alssum et al.

#8324

C3PO: Critical-Layer, Core-Expert, Collaborative Pathway Optimization for Test-Time Expert Re-Mixing

Zhongyang Li, Ziyue Li, Tianyi Zhou

COLM 2025paperarXiv:2504.02904

#8325

How Post-Training Reshapes LLMs: A Mechanistic View on Knowledge, Truthfulness, Refusal, and Confidence

Hongzhe Du, Weikai Li, Min Cai et al.

ICML 2025arXiv:2506.06486

#8326

A Certified Unlearning Approach without Access to Source Data

Umit Basaran, Sk Miraj Ahmed, Amit Roy-Chowdhury et al.

COLM 2025paperarXiv:2504.17004

#8327

(Im)possibility of Automated Hallucination Detection in Large Language Models

Amin Karbasi, Omar Montasser, John Sous et al.

ICML 2025arXiv:2502.06379

#8328

Solving Linear-Gaussian Bayesian Inverse Problems with Decoupled Diffusion Sequential Monte Carlo

Filip Ekström Kelvinius, Zheng Zhao, Fredrik Lindsten

ICML 2025arXiv:2503.01837

#8329

Multi-Stage Manipulation with Demonstration-Augmented Reward, Policy, and World Model Learning

Adrià López Escoriza, Nicklas Hansen, Stone Tao et al.

ICML 2025spotlightarXiv:2505.21387

#8330

Automatically Identify and Rectify: Robust Deep Contrastive Multi-view Clustering in Noisy Scenarios

xihong yang, Siwei Wang, Fangdi Wang et al.

ICML 2025arXiv:2411.03820

#8331

Beyond The Rainbow: High Performance Deep Reinforcement Learning on a Desktop PC

Tyler Clark, Mark Towers, Christine Evers et al.

COLM 2025paperarXiv:2502.13820

#8332

Scoring Verifiers: Evaluating Synthetic Verification for Code and Reasoning

Aleksander Ficek, Somshubra Majumdar, Vahid Noroozi et al.

COLM 2025paperarXiv:2412.00624

#8333

VideoSAVi: Self-Aligned Video Language Models without Human Supervision

Yogesh Kulkarni, Pooyan Fazli

#8334

Sherkala-Chat: Building a State-of-the-Art LLM for Kazakh in a Moderately Resourced Setting

Fajri Koto, Rituraj Joshi, Nurdaulet Mukhituly et al.

COLM 2025paperarXiv:2504.00043

#8335

CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation

Jixuan Leng, Chengsong Huang, Langlin Huang et al.

COLM 2025paperarXiv:2508.18914

#8336

FormaRL: Enhancing Autoformalization with no Labeled Data

Yanxing Huang, Xinling Jin, Sijie Liang et al.

COLM 2025paperarXiv:2508.10014

#8337

PersonaEval: Are LLM Evaluators Human Enough to Judge Role-Play?

Lingfeng Zhou, Jialing Zhang, Jin Gao et al.

#8338

Supposedly Equivalent Facts That Aren’t? Entity Frequency in Pre-training Induces Asymmetry in LLMs

Yuan He, Bailan He, Zifeng Ding et al.

ICML 2025arXiv:2410.22296

#8339

Generalists vs. Specialists: Evaluating LLMs on Highly-Constrained Biophysical Sequence Optimization Tasks

Angelica Chen, Samuel Stanton, Frances Ding et al.

COLM 2025paperarXiv:2504.02398

#8340

Scaling Analysis of Interleaved Speech-Text Language Models

Gallil Maimon, Michael Hassid, Amit Roth et al.

ICML 2025arXiv:2505.04119

#8341

GAPrompt: Geometry-Aware Point Cloud Prompt for 3D Vision Model

Zixiang Ai, Zichen Liu, Yuanhang Lei et al.

ICML 2025arXiv:2506.11444

#8342

GaussMarker: Robust Dual-Domain Watermark for Diffusion Models

Kecen Li, Zhicong Huang, Xinwen Hou et al.

ICML 2025arXiv:2505.12427

#8343

DragLoRA: Online Optimization of LoRA Adapters for Drag-based Image Editing in Diffusion Model

Siwei Xia, Li Sun, Tiantian Sun et al.

ICML 2025arXiv:2505.07812

#8344

Continuous Visual Autoregressive Generation via Score Maximization

Chenze Shao, Fandong Meng, Jie Zhou

ICML 2025arXiv:2501.09254

#8345

Clone-Robust AI Alignment

Ariel Procaccia, Benjamin Schiffer, Shirley Zhang

ICML 2025arXiv:2506.12087

#8346

Efficient Parallel Training Methods for Spiking Neural Networks with Constant Time Complexity

Wanjin Feng, Xingyu Gao, Wenqian Du et al.

ICML 2025arXiv:2502.03029

#8347

On Zero-Initialized Attention: Optimal Prompt and Gating Factor Estimation

Nghiem Diep, Huy Nguyen, Chau Nguyen et al.

ICML 2025arXiv:2501.18359

#8348

Contextual Online Decision Making with Infinite-Dimensional Functional Regression

Haichen Hu, Rui Ai, Stephen Bates et al.

COLM 2025paperarXiv:2506.12707

#8349

SecurityLingua: Efficient Defense of LLM Jailbreak Attacks via Security-Aware Prompt Compression

Yucheng Li, Surin Ahn, Huiqiang Jiang et al.

COLM 2025paperarXiv:2507.06210

#8350

CultureCLIP: Empowering CLIP with Cultural Awareness through Synthetic Images and Contextualized Captions

Yuchen Huang, Zhiyuan Fan, Zhitao He et al.

ICML 2025arXiv:2506.15271

#8351

Unlocking Post-hoc Dataset Inference with Synthetic Data

Bihe Zhao, Pratyush Maini, Franziska Boenisch et al.

ICML 2025arXiv:2506.05434

#8352

Efficient Robust Conformal Prediction via Lipschitz-Bounded Networks

Thomas Massena, Léo Andéol, Thibaut Boissin et al.

COLM 2025paperarXiv:2508.09804

#8353

BigCharts-R1: Enhanced Chart Reasoning with Visual Reinforcement Finetuning

Ahmed Masry, Abhay Puri, Masoud Hashemi et al.

ICML 2025arXiv:2504.10174

#8354

LLaVA-ReID: Selective Multi-image Questioner for Interactive Person Re-Identification

Yiding Lu, Mouxing Yang, Dezhong Peng et al.

COLM 2025paperarXiv:2503.07358

#8355

RepoST: Scalable Repository-Level Coding Environment Construction with Sandbox Testing

Yiqing Xie, Alex Xie, Divyanshu Sheth et al.

COLM 2025paperarXiv:2504.00623

#8356

Efficient Construction of Model Family through Progressive Training Using Model Expansion

Kazuki Yano, Sho Takase, Sosuke Kobayashi et al.

ICML 2025spotlightarXiv:2505.03475

#8357

am-ELO: A Stable Framework for Arena-based LLM Evaluation

Zirui Liu, Jiatong Li, Yan Zhuang et al.

ICML 2025arXiv:2410.21759

#8358

IntLoRA: Integral Low-rank Adaptation of Quantized Diffusion Models

Hang Guo, Yawei Li, Tao Dai et al.

COLM 2025paperarXiv:2502.03323

#8359

Out-of-Distribution Detection using Synthetic Data Generation

Momin Abbas, Muneeza Azmat, Raya Horesh et al.

ICML 2025arXiv:2410.07169

#8360

VIP: Vision Instructed Pre-training for Robotic Manipulation

Zhuoling Li, LiangLiang Ren, Jinrong Yang et al.

ICML 2025arXiv:2507.07151

#8361

Robust Multimodal Large Language Models Against Modality Conflict

Zongmeng Zhang, Wengang Zhou, Jie Zhao et al.

COLM 2025paperarXiv:2506.15606

#8362

LoX: Low-Rank Extrapolation Robustifies LLM Safety Against Fine-tuning

Gabriel Jacob Perin, Runjin Chen, Xuxi Chen et al.

COLM 2025paperarXiv:2504.00927

#8363

Multi-Token Attention

Olga Golovneva, Tianlu Wang, Jason E Weston et al.

ICML 2025arXiv:2506.01968

#8364

Efficient ANN-SNN Conversion with Error Compensation Learning

chang liu, Jiangrong Shen, Xuming Ran et al.

ICML 2025arXiv:2410.04489

#8365

Grokking at the Edge of Linear Separability

Alon Beck, Noam Levi, Yohai Bar-Sinai

COLM 2025paperarXiv:2504.12140

#8366

Multilingual Contextualization of Large Language Models for Document-Level Machine Translation

Miguel Moura Ramos, Patrick Fernandes, Sweta Agrawal et al.

ICML 2025oralarXiv:2501.15987

#8367

MultiPDENet: PDE-embedded Learning with Multi-time-stepping for Accelerated Flow Simulation

Qi Wang, Yuan Mi, Wang Haoyun et al.

COLM 2025paperarXiv:2507.13541

#8368

PrefPalette: Personalized Preference Modeling with Latent Attributes

Shuyue Stella Li, Melanie Sclar, Hunter Lang et al.

ICML 2025arXiv:2508.18949

#8369

Energy-Based Flow Matching for Generating 3D Molecular Structure

Wenyin Zhou, Christopher I Sprague, Vsevolod Viliuga et al.

ICML 2025arXiv:2502.01046

#8370

Emotional Face-to-Speech

Jiaxin Ye, Boyuan Cao, Hongming Shan

COLM 2025paperarXiv:2504.02122

#8371

Overcoming Vocabulary Constraints with Pixel-level Fallback

Jonas F. Lotz, Hendra Setiawan, Stephan Peitz et al.

ICML 2025arXiv:2501.19173

#8372

Position: Contextual Integrity is Inadequately Applied to Language Models

Yan Shvartzshnaider, Vasisht Duddu

COLM 2025paperarXiv:2504.15219

#8373

EvalAgents: Discovering Implicit Evaluation Criteria from the Web

Manya Wadhwa, Zayne Rea Sprague, Chaitanya Malaviya et al.

ICML 2025arXiv:2503.05004

#8374

Faster Global Minimum Cut with Predictions

Helia Niaparast, Benjamin Moseley, Karan Singh

ICML 2025arXiv:2505.11478

#8375

Automatic Reward Shaping from Confounded Offline Data

Mingxuan Li, Junzhe Zhang, Elias Bareinboim

COLM 2025paperarXiv:2503.24013

#8376

You Cannot Feed Two Birds with One Score: the Accuracy-Naturalness Tradeoff in Translation

Gergely Flamich, David Vilar, Jan-Thorsten Peter et al.

ICML 2025arXiv:2505.05049

#8377

UncertainSAM: Fast and Efficient Uncertainty Quantification of the Segment Anything Model

Timo Kaiser, Thomas Norrenbrock, Bodo Rosenhahn

COLM 2025paperarXiv:2407.14477

#8378

Data-Centric Human Preference with Rationales for Direct Preference Alignment

Hoang Anh Just, Ming Jin, Anit Kumar Sahu et al.

#8379

Can Performant LLMs Be Ethical? Quantifying the Impact of Web Crawling Opt-Outs

Dongyang Fan, Vinko Sabolčec, Matin Ansaripour et al.

ICML 2025arXiv:2506.08954

#8380

Protriever: End-to-End Differentiable Protein Homology Search for Fitness Prediction

Ruben Weitzman, Peter Mørch Groth, Lood van Niekerk et al.

ICML 2025arXiv:2506.05574

#8381

When can in-context learning generalize out of task distribution?

Chase Goddard, Lindsay Smith, Wave Ngampruetikorn et al.

ICML 2025arXiv:2410.00435

#8382

Incorporating Arbitrary Matrix Group Equivariance into KANs

Lexiang Hu, Yisen Wang, Zhouchen Lin

COLM 2025paperarXiv:2407.00900

#8383

From Next-Token to Mathematics: The Learning Dynamics of Mathematical Reasoning in Language Models

Shubhra Mishra, Gabriel Poesia, Noah Goodman

ICML 2025arXiv:2501.09976

#8384

Dendritic Localized Learning: Toward Biologically Plausible Algorithm

Changze Lv, Jingwen Xu, Yiyang Lu et al.

COLM 2025paperarXiv:2402.12280

#8385

Plato: Plan to Efficient Decode for Large Language Model Inference

Shuowei Jin, Xueshen Liu, Yongji Wu et al.

ICML 2025arXiv:2506.14574

#8386

TGDPO: Harnessing Token-Level Reward Guidance for Enhancing Direct Preference Optimization

Mingkang Zhu, Xi Chen, Zhongdao Wang et al.

ICML 2025oralarXiv:2506.06194

#8387

Transformative or Conservative? Conservation laws for ResNets and Transformers

Sibylle Marcotte, Rémi Gribonval, Gabriel Peyré

ICML 2025arXiv:2412.14297

#8388

Distributionally Robust Policy Learning under Concept Drifts

Jingyuan Wang, Zhimei Ren, Ruohan Zhan et al.

ICML 2025arXiv:2505.23363

#8389

Discriminative Policy Optimization for Token-Level Reward Models

Hongzhan Chen, Tao Yang, Shiping Gao et al.

COLM 2025paperarXiv:2506.15556

#8390

PredGen: Accelerated Inference of Large Language Models through Input-Time Speculation for Real-Time Speech Interaction

Shufan Li, Aditya Grover

ICML 2025arXiv:2505.02406

#8391

Token Coordinated Prompt Attention is Needed for Visual Prompting

Zichen Liu, Xu Zou, Gang Hua et al.

ICML 2025arXiv:2501.03113

#8392

Balancing Efficiency and Expressiveness: Subgraph GNNs with Walk-Based Centrality

Joshua Southern, Yam Eitan, Guy Bar Shalom et al.

ICML 2025arXiv:2502.07735

#8393

Revisiting Non-Acyclic GFlowNets in Discrete Environments

Nikita Morozov, Ian Maksimov, Daniil Tiapkin et al.

ICML 2025arXiv:2410.02483

#8394

Event-Customized Image Generation

Zhen Wang, Yilei JIANG, Dong Zheng et al.

COLM 2025paperarXiv:2504.04152

#8395

Rethinking Multilingual Continual Pretraining: Data Mixing for Adapting LLMs Across Languages and Resources

Zihao Li, Shaoxiong Ji, Hengyu Luo et al.

COLM 2025paperarXiv:2410.12491

#8396

Insights from the Inverse: Reconstructing LLM Training Goals Through Inverse Reinforcement Learning

Jared Joselowitz, Ritam Majumdar, Arjun Jagota et al.

COLM 2025paperarXiv:2508.20279

#8397

How Multimodal LLMs Solve Image Tasks: A Lens on Visual Grounding, Task Reasoning, and Answer Decoding

Zhuoran Yu, Yong Jae Lee

ICML 2025oralarXiv:2506.08933

#8398

What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities

Wendong Bu, Yang Wu, Qifan Yu et al.

COLM 2025paperarXiv:2504.05625

#8399

Model-Agnostic Policy Explanations with Large Language Models

Zhang Xi-Jia, Yue Guo, Shufei Chen et al.

ICML 2025arXiv:2502.19255

#8400

Can RLHF be More Efficient with Imperfect Reward Models? A Policy Coverage Perspective

Jiawei Huang, Bingcong Li, Christoph Dann et al.