Most Cited 2025 &quot;demographic group misclassification&quot; Papers

NEURIPS 2025posterarXiv:2505.13941

#3402

MLZero: A Multi-Agent System for End-to-end Machine Learning Automation

Haoyang Fang, Boran Han, Nick Erickson et al.

NEURIPS 2025posterarXiv:2505.14681

#3403

Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training

Mengru Wang, Xingyu Chen, Yue Wang et al.

#3404

A transfer learning framework for weak to strong generalization

Seamus Somerstep, Felipe Maia Polo, Moulinath Banerjee et al.

NEURIPS 2025posterarXiv:2506.05310

#3405

Learning normalized image densities via dual score matching

Florentin Guth, Zahra Kadkhodaie, Eero Simoncelli

ICLR 2025posterarXiv:2502.02496

#3406

Deep Weight Factorization: Sparse Learning Through the Lens of Artificial Symmetries

Chris Kolb, Tobias Weber, Bernd Bischl et al.

NEURIPS 2025posterarXiv:2507.02608

#3407

Lost in Latent Space: An Empirical Study of Latent Diffusion Models for Physics Emulation

François Rozet, Ruben Ohana, Michael McCabe et al.

NEURIPS 2025posterarXiv:2501.13734

#3408

Sample complexity of data-driven tuning of model hyperparameters in neural networks with structured parameter-dependent dual function

Maria-Florina Balcan, Anh Nguyen, Dravyansh Sharma

NEURIPS 2025posterarXiv:2512.17351

#3409

Physics of Language Models: Part 4.1, Architecture Design and the Magic of Canon Layers

Zeyuan Allen-Zhu

CVPR 2025posterarXiv:2503.16942

#3410

Re-HOLD: Video Hand Object Interaction Reenactment via adaptive Layout-instructed Diffusion Model

Yingying Fan, Quanwei Yang, Kaisiyuan Wang et al.

ICML 2025posterarXiv:2505.03804

#3411

MoEQuant: Enhancing Quantization for Mixture-of-Experts Large Language Models via Expert-Balanced Sampling and Affinity Guidance

Zhixuan Chen, Xing Hu, Dawei Yang et al.

ICML 2025posterarXiv:2410.13808

#3412

De-mark: Watermark Removal in Large Language Models

Ruibo Chen, Yihan Wu, Junfeng Guo et al.

ICLR 2025posterarXiv:2411.17800

#3413

STAR: Synthesis of Tailored Architectures

Armin Thomas, Rom Parnichkun, Alexander Amini et al.

CVPR 2025posterarXiv:2503.13110

#3414

DTGBrepGen: A Novel B-rep Generative Model through Decoupling Topology and Geometry

Jing Li, Yihang Fu, Falai Chen

#3415

VIoTGPT: Learning to Schedule Vision Tools Towards Intelligent Video Internet of Things

Yaoyao Zhong, Mengshi Qi, Rui Wang et al.

ICLR 2025posterarXiv:2407.04804

#3416

Fair Submodular Cover

Wenjing Chen, Shuo Xing, Samson Zhou et al.

ICLR 2025posterarXiv:2502.19638

#3417

Sensor-Invariant Tactile Representation

Harsh Gupta, Yuchen Mo, Shengmiao Jin et al.

#3418

SIGMAN: Scaling 3D Human Gaussian Generation with Millions of Assets

Yuhang Yang, Fengqi Liu, Yixing Lu et al.

ICCV 2025poster

#3419

Mask^2DiT: Dual Mask-based Diffusion Transformer for Multi-Scene Long Video Generation

Tianhao Qi, Jianlong Yuan, Wanquan Feng et al.

NEURIPS 2025oralarXiv:2412.03565

#3420

INST-IT: Boosting Instance Understanding via Explicit Visual Prompt Instruction Tuning

Wujian Peng, Lingchen Meng, Yitong Chen et al.

CVPR 2025highlightarXiv:2503.16964

#3421

DroneSplat: 3D Gaussian Splatting for Robust 3D Reconstruction from In-the-Wild Drone Imagery

Jiadong Tang, Yu Gao, Dianyi Yang et al.

ICLR 2025posterarXiv:2406.19905

#3422

Solving Token Gradient Conflict in Mixture-of-Experts for Large Vision-Language Model

Longrong Yang, Dong Shen, Chaoxiang Cai et al.

ICLR 2025posterarXiv:2410.01481

#3423

SonicSim: A customizable simulation platform for speech processing in moving sound source scenarios

Kai Li, Wendi Sang, Chang Zeng et al.

#3424

ROD-MLLM: Towards More Reliable Object Detection in Multimodal Large Language Models

Heng Yin, Yuqiang Ren, Ke Yan et al.

NEURIPS 2025posterarXiv:2506.08316

#3425

Why Masking Diffusion Works: Condition on the Jump Schedule for Improved Discrete Diffusion

Alan Amin, Nate Gruver, Andrew Wilson

ICLR 2025posterarXiv:2412.07763

#3426

Bayesian Optimization of Antibodies Informed by a Generative Model of Evolving Sequences

Alan Amin, Nate Gruver, Yilun Kuang et al.

ICLR 2025posterarXiv:2411.04679

#3427

CaPo: Cooperative Plan Optimization for Efficient Embodied Multi-Agent Cooperation

Jie Liu, Pan Zhou, Yingjun Du et al.

ICCV 2025posterarXiv:2504.20996

#3428

X-Fusion: Introducing New Modality to Frozen Large Language Models

Sicheng Mo, Thao Nguyen, Xun Huang et al.

ICCV 2025posterarXiv:2411.15537

#3429

MUNBa: Machine Unlearning via Nash Bargaining

Jing Wu, Mehrtash Harandi

ICML 2025spotlightarXiv:2409.15844

#3430

Adaptive Learn-then-Test: Statistically Valid and Efficient Hyperparameter Selection

Matteo Zecchin, Sangwoo Park, Osvaldo Simeone

#3431

Motion-adaptive Transformer for Event-based Image Deblurring

Senyan Xu, Zhijing Sun, Mingchen Zhong et al.

ICLR 2025posterarXiv:2407.09381

#3432

The Effectiveness of Curvature-Based Rewiring and the Role of Hyperparameters in GNNs Revisited

Floriano Tori, Vincent Holst, Vincent Ginis

NEURIPS 2025oralarXiv:2506.12779

#3433

From Experts to a Generalist: Toward General Whole-Body Control for Humanoid Robots

Yuxuan Wang, Ming Yang, Gang Ding et al.

AAAI 2025paperarXiv:2409.09564

#3434

TG-LLaVA: Text Guided LLaVA via Learnable Latent Embeddings

Dawei Yan, Pengcheng Li, Yang Li et al.

NEURIPS 2025posterarXiv:2505.24722

#3435

HELM: Hyperbolic Large Language Models via Mixture-of-Curvature Experts

Neil He, Rishabh Anand, Hiren Madhu et al.

CVPR 2025posterarXiv:2504.17695

#3436

PICO: Reconstructing 3D People In Contact with Objects

Alpár Cseke, Shashank Tripathi, Sai Kumar Dwivedi et al.

CVPR 2025posterarXiv:2412.04533

#3437

Mask-Adapter: The Devil is in the Masks for Open-Vocabulary Segmentation

Yongkang Li, Tianheng Cheng, Bin Feng et al.

ICCV 2025posterarXiv:2411.16156

#3438

VideoOrion: Tokenizing Object Dynamics in Videos

Yicheng Feng, Yijiang Li, Wanpeng Zhang et al.

#3439

Tartan IMU: A Light Foundation Model for Inertial Positioning in Robotics

Shibo Zhao, Sifan Zhou, Raphael Blanchard et al.

NEURIPS 2025oralarXiv:2503.14935

#3440

FAVOR-Bench: A Comprehensive Benchmark for Fine-Grained Video Motion Understanding

Chongjun Tu, Lin Zhang, pengtao chen et al.

ICLR 2025posterarXiv:2504.09522

#3441

How new data permeates LLM knowledge and how to dilute it

Chen Sun, Renat Aksitov, Andrey Zhmoginov et al.

ICLR 2025posterarXiv:2502.10438

#3442

Injecting Universal Jailbreak Backdoors into LLMs in Minutes

Zhuowei Chen, qiannan zhang, Shichao Pei

ICCV 2025posterarXiv:2507.08772

#3443

From One to More: Contextual Part Latents for 3D Generation

Shaocong Dong, Lihe Ding, Xiao Chen et al.

ICCV 2025posterarXiv:2505.05469

#3444

Generating Physically Stable and Buildable Brick Structures from Text

Ava Pun, Kangle Deng, Ruixuan Liu et al.

NEURIPS 2025posterarXiv:2506.09049

#3445

VIKI‑R: Coordinating Embodied Multi-Agent Cooperation via Reinforcement Learning

Li Kang, Xiufeng Song, Heng Zhou et al.

NEURIPS 2025oralarXiv:2505.23653

#3446

How do Transformers Learn Implicit Reasoning?

Jiaran Ye, Zijun Yao, Zhidian Huang et al.

CVPR 2025posterarXiv:2501.11309

#3447

Finer-CAM: Spotting the Difference Reveals Finer Details for Visual Explanation

Ziheng Zhang, Jianyang Gu, Arpita Chowdhury et al.

ICLR 2025posterarXiv:2412.09544

#3448

Sail into the Headwind: Alignment via Robust Rewards and Dynamic Labels against Reward Hacking

Paria Rashidinejad, Yuandong Tian

ICLR 2025posterarXiv:2411.04425

#3449

DELIFT: Data Efficient Language model Instruction Fine-Tuning

Ishika Agarwal, Krishnateja Killamsetty, Lucian Popa et al.

ICLR 2025posterarXiv:2502.09617

#3450

LIFe-GoM: Generalizable Human Rendering with Learned Iterative Feedback Over Multi-Resolution Gaussians-on-Mesh

Jing Wen, Alex Schwing, Shenlong Wang

ICLR 2025posterarXiv:2502.07005

#3451

Geometry-aware RL for Manipulation of Varying Shapes and Deformable Objects

Tai Hoang, Huy Le, Philipp Becker et al.

ICCV 2025posterarXiv:2508.03227

#3452

Trace3D: Consistent Segmentation Lifting via Gaussian Instance Tracing

Hongyu Shen, Junfeng Ni, Weishuo Li et al.

ICCV 2025posterarXiv:2503.18678

#3453

NullSwap: Proactive Identity Cloaking Against Deepfake Face Swapping

Tianyi Wang, Shuaicheng Niu, Harry Cheng et al.

CVPR 2025highlightarXiv:2503.18223

#3454

MammAlps: A Multi-view Video Behavior Monitoring Dataset of Wild Mammals in the Swiss Alps

Valentin Gabeff, Haozhe Qi, Brendan Flaherty et al.

ICCV 2025posterarXiv:2412.00156

#3455

VISION-XL: High Definition Video Inverse Problem Solver using Latent Image Diffusion Models

Taesung Kwon, Jong Ye

NEURIPS 2025posterarXiv:2504.04827

#3456

From Specificity to Generality: Revisiting Generalizable Artifacts in Detecting Face Deepfakes

Long Ma, Zhiyuan Yan, Jin Xu et al.

AAAI 2025paperarXiv:2407.05909

#3457

Multi-clue Consistency Learning to Bridge Gaps Between General and Oriented Object in Semi-supervised Detection

Chenxu Wang, Chunyan Xu, Xiang Li et al.

ICML 2025posterarXiv:2501.13941

#3458

GaussMark: A Practical Approach for Structural Watermarking of Language Models

Adam Block, Alexander Rakhlin, Ayush Sekhari

#3459

Dehaze-RetinexGAN: Real-World Image Dehazing via Retinex-based Generative Adversarial Network

Xinran Wang, Guang Yang, Tian Ye et al.

ICML 2025posterarXiv:2504.19139

#3460

Fast and Robust: Task Sampling with Posterior and Diversity Synergies for Adaptive Decision-Makers in Randomized Environments

Yun Qu, Cheems Wang, Yixiu Mao et al.

ICCV 2025posterarXiv:2503.08525

#3461

GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training

Tong Wei, Yijun Yang, Junliang Xing et al.

NEURIPS 2025posterarXiv:2505.20460

#3462

DIPO: Dual-State Images Controlled Articulated Object Generation Powered by Diverse Data

Ruiqi Wu, Xinjie wang, Liu.Liu et al.

AAAI 2025paperarXiv:2409.03644

#3463

RealisHuman: A Two-Stage Approach for Refining Malformed Human Parts in Generated Images

Benzhi Wang, Jingkai Zhou, Jingqi Bai et al.

NEURIPS 2025posterarXiv:2507.15886

#3464

Combining Cost Constrained Runtime Monitors for AI Safety

Tim Hua, James Baskerville, Henri Lemoine et al.

ICLR 2025posterarXiv:2407.03604

#3465

Modality-Specialized Synergizers for Interleaved Vision-Language Generalists

Zhiyang Xu, Minqian Liu, Ying Shen et al.

#3466

Fast and Slow Streams for Online Time Series Forecasting Without Information Leakage

Ying-yee Ava Lau, Zhiwen Shao, Dit-Yan Yeung

ICLR 2025oral

ICLR 2025posterarXiv:2503.14702

#3467

Learning Chaos In A Linear Way

Xiaoyuan Cheng, Yi He, Yiming Yang et al.

CVPR 2025posterarXiv:2503.16394

#3468

Do Visual Imaginations Improve Vision-and-Language Navigation Agents?

Akhil Perincherry, Jacob Krantz, Stefan Lee

#3469

PhysSplat: Efficient Physics Simulation for 3D Scenes via MLLM-Guided Gaussian Splatting

Haoyu Zhao, Hao Wang, Xingyue Zhao et al.

ICCV 2025poster

ICLR 2025posterarXiv:2410.09101

#3470

Data Taggants: Dataset Ownership Verification Via Harmless Targeted Data Poisoning

Wassim Bouaziz, Nicolas Usunier, El-Mahdi El-Mhamdi

ICCV 2025highlightarXiv:2411.00626

#3471

ZIM: Zero-Shot Image Matting for Anything

Beomyoung Kim, Chanyong Shin, Joonhyun Jeong et al.

#3472

Temporal Heterogeneous Graph Generation with Privacy, Utility, and Efficiency

Xinyu He, Dongqi Fu, Hanghang Tong et al.

ICLR 2025oral

ICML 2025posterarXiv:2503.07197

#3473

Effective and Efficient Masked Image Generation Models

Zebin You, Jingyang Ou, Xiaolu Zhang et al.

ICLR 2025posterarXiv:2501.18532

#3474

Differentially Private Steering for Large Language Model Alignment

Anmol Goel, Yaxi Hu, Iryna Gurevych et al.

AAAI 2025paperarXiv:2412.16897

#3475

MVREC: A General Few-shot Defect Classification Model Using Multi-View Region-Context

Shuai Lyu, Rongchen Zhang, Zeqi Ma et al.

CVPR 2025posterarXiv:2412.00837

#3476

AniMer: Animal Pose and Shape Estimation Using Family Aware Transformer

Jin Lyu, Tianyi Zhu, Yi Gu et al.

AAAI 2025paperarXiv:2408.00352

#3477

Autonomous LLM-Enhanced Adversarial Attack for Text-to-Motion

Honglei Miao, Fan Ma, Ruijie Quan et al.

ICLR 2025posterarXiv:2502.19980

#3478

Can Textual Gradient Work in Federated Learning?

Minghui Chen, Ruinan Jin, Wenlong Deng et al.

ICLR 2025posterarXiv:2406.00384

#3479

CapeX: Category-Agnostic Pose Estimation from Textual Point Explanation

Matan Rusanovsky, Or Hirschorn, Shai Avidan

CVPR 2025posterarXiv:2501.00603

#3480

DiC: Rethinking Conv3x3 Designs in Diffusion Models

Yuchuan Tian, Jing Han, Chengcheng Wang et al.

ICLR 2025posterarXiv:2502.19363

#3481

DataMan: Data Manager for Pre-training Large Language Models

Ru Peng, Kexin Yang, Yawen Zeng et al.

NEURIPS 2025posterarXiv:2507.07136

#3482

LangSplatV2: High-dimensional 3D Language Gaussian Splatting with 450+ FPS

Wanhua Li, Yujie Zhao, Minghan Qin et al.

AAAI 2025paperarXiv:2502.11724

#3483

Incomplete Modality Disentangled Representation for Ophthalmic Disease Grading and Diagnosis

Chengzhi Liu, Zile Huang, Zhe Chen et al.

ICLR 2025posterarXiv:2405.15540

#3484

Bundle Neural Network for message diffusion on graphs

Jacob Bamberger, Federico Barbero, Xiaowen Dong et al.

ICLR 2025posterarXiv:2503.01931

#3485

Adversarial Generative Flow Network for Solving Vehicle Routing Problems

Ni Zhang, Jingfeng Yang, Zhiguang Cao et al.

CVPR 2025posterarXiv:2412.01553

#3486

SfM-Free 3D Gaussian Splatting via Hierarchical Training

Bo Ji, Angela Yao

AAAI 2025paperarXiv:2412.11070

#3487

HC-LLM: Historical-Constrained Large Language Models for Radiology Report Generation

Tengfei Liu, Jiapu Wang, Yongli Hu et al.

ICML 2025spotlightarXiv:2505.24688

#3488

Soft Reasoning: Navigating Solution Spaces in Large Language Models through Controlled Embedding Exploration

Qinglin Zhu, Runcong Zhao, Hanqi Yan et al.

ICML 2025posterarXiv:2501.18775

#3489

Secant Line Search for Frank-Wolfe Algorithms

Deborah Hendrych, Sebastian Pokutta, Mathieu Besançon et al.

ICML 2025posterarXiv:2501.18858

#3490

BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning

Han Zhong, Yutong Yin, Shenao Zhang et al.

CVPR 2025posterarXiv:2412.15341

#3491

Efficient Fine-Tuning and Concept Suppression for Pruned Diffusion Models

Reza Shirkavand, Peiran Yu, Shangqian Gao et al.

ICLR 2025posterarXiv:2409.04796

#3492

Local-Prompt: Extensible Local Prompts for Few-Shot Out-of-Distribution Detection

Fanhu Zeng, Zhen Cheng, Fei Zhu et al.

NEURIPS 2025posterarXiv:2509.20414

#3493

SceneWeaver: All-in-One 3D Scene Synthesis with an Extensible and Self-Reflective Agent

Yandan Yang, Baoxiong Jia, Shujie Zhang et al.

ICLR 2025posterarXiv:2412.10138

#3494

ROUTE: Robust Multitask Tuning and Collaboration for Text-to-SQL

Yang Qin, Chao Chen, Zhihang Fu et al.

CVPR 2025highlightarXiv:2412.12087

#3495

Instruction-based Image Manipulation by Watching How Things Move

Mingdeng Cao, Xuaner Zhang, Yinqiang Zheng et al.

AAAI 2025paperarXiv:2401.11949

#3496

Feature Denoising Diffusion Model for Blind Image Quality Assessment

Xudong Li, Yan Zhang, Yunhang Shen et al.

CVPR 2025posterarXiv:2410.11666

#3497

DORNet: A Degradation Oriented and Regularized Network for Blind Depth Super-Resolution

Zhengxue Wang, Zhiqiang Yan, Jinshan Pan et al.

AAAI 2025paperarXiv:2501.14231

#3498

Micro-macro Wavelet-based Gaussian Splatting for 3D Reconstruction from Unconstrained Images

Yihui Li, Chengxin Lv, Hongyu Yang et al.

ICLR 2025posterarXiv:2402.05913

#3499

Efficient stagewise pretraining via progressive subnetworks

Abhishek Panigrahi, Nikunj Saunshi, Kaifeng Lyu et al.

AAAI 2025paperarXiv:2404.13322

#3500

MergeNet: Knowledge Migration Across Heterogeneous Models, Tasks, and Modalities

Kunxi Li, Tianyu Zhan, Kairui Fu et al.

NEURIPS 2025posterarXiv:2505.19227

#3501

Scaling Laws for Gradient Descent and Sign Descent for Linear Bigram Models under Zipf’s Law

Frederik Kunstner, Francis Bach

ICCV 2025posterarXiv:2506.16991

#3502

ForestFormer3D: A Unified Framework for End-to-End Segmentation of Forest LiDAR 3D Point Clouds

Binbin Xiang, Maciej Wielgosz, Stefano Puliti et al.

CVPR 2025posterarXiv:2411.17386

#3503

vesselFM: A Foundation Model for Universal 3D Blood Vessel Segmentation

Bastian Wittmann, Yannick Wattenberg, Tamaz Amiranashvili et al.

ICLR 2025posterarXiv:2502.00896

#3504

LoR-VP: Low-Rank Visual Prompting for Efficient Vision Model Adaptation

Can Jin, Ying Li, Mingyu Zhao et al.

ICLR 2025posterarXiv:2410.11933

#3505

Beyond Sequence: Impact of Geometric Context for RNA Property Prediction

Junjie Xu, Artem Moskalev, Tommaso Mansi et al.

CVPR 2025posterarXiv:2503.01087

#3506

Rashomon Sets for Prototypical-Part Networks: Editing Interpretable Models in Real-Time

Jon Donnelly, Zhicheng Guo, Alina Jade Barnett et al.

CVPR 2025posterarXiv:2411.18936

#3507

Self-Cross Diffusion Guidance for Text-to-Image Synthesis of Similar Subjects

Weimin Qiu, Jieke Wang, Meng Tang

CVPR 2025posterarXiv:2405.16240

#3508

AFL: A Single-Round Analytic Approach for Federated Learning with Pre-trained Models

Run He, Kai Tong, Di Fang et al.

NEURIPS 2025spotlightarXiv:2507.12465

#3509

PhysX-3D: Physical-Grounded 3D Asset Generation

Ziang Cao, Zhaoxi Chen, Liang Pan et al.

NEURIPS 2025posterarXiv:2504.10612

#3510

Energy Matching: Unifying Flow Matching and Energy-Based Models for Generative Modeling

Michal Balcerak, Tamaz Amiranashvili, Antonio Terpin et al.

CVPR 2025posterarXiv:2501.07256

#3511

EdgeTAM: On-Device Track Anything Model

Chong Zhou, Chenchen Zhu, Yunyang Xiong et al.

AAAI 2025paperarXiv:2405.18425

#3512

ViG: Linear-complexity Visual Sequence Learning with Gated Linear Attention

Bencheng Liao, Xinggang Wang, Lianghui Zhu et al.

ICLR 2025posterarXiv:2505.04965

#3513

DenseGrounding: Improving Dense Language-Vision Semantics for Ego-centric 3D Visual Grounding

Henry Zheng, Hao Shi, Qihang Peng et al.

ICLR 2025posterarXiv:2410.03968

#3514

Decoding Game: On Minimax Optimality of Heuristic Text Generation Strategies

Sijin Chen, Omar Hagrass, Jason Klusowski

ICLR 2025posterarXiv:2410.06215

#3515

DataEnvGym: Data Generation Agents in Teacher Environments with Student Feedback

Zaid Khan, Elias Stengel-Eskin, Jaemin Cho et al.

AAAI 2025paperarXiv:2501.06761

#3516

VidChain: Chain-of-Tasks with Metric-based Direct Preference Optimization for Dense Video Captioning

Ji Soo Lee, Jongha Kim, Jeehye Na et al.

ICLR 2025posterarXiv:2502.06283

#3517

On the Expressiveness of Rational ReLU Neural Networks With Bounded Depth

Gennadiy Averkov, Christopher Hojny, Maximilian Merkert

#3518

CONTRA: Conformal Prediction Region via Normalizing Flow Transformation

Zhenhan FANG, Aixin Tan, Jian Huang

CVPR 2025highlightarXiv:2501.11515

#3519

UltraFusion: Ultra High Dynamic Imaging using Exposure Fusion

Zixuan Chen, Yujin Wang, Xin Cai et al.

NEURIPS 2025oralarXiv:2505.22246

#3520

StateSpaceDiffuser: Bringing Long Context to Diffusion World Models

Nedko Savov, Naser Kazemi, Deheng Zhang et al.

#3521

As large as it gets – Studying Infinitely Large Convolutions via Neural Implicit Frequency Filters

Margret Keuper, Julia Grabinski, Janis Keuper

NEURIPS 2025posterarXiv:2405.20559

#3522

Information-Driven Design of Imaging Systems

Henry Pinkard, Leyla Kabuli, Eric Markley et al.

CVPR 2025posterarXiv:2412.09191

#3523

RAD: Region-Aware Diffusion Models for Image Inpainting

Sora Kim, Sungho Suh, Minsik Lee

#3524

Chain-of-region: Visual Language Models Need Details for Diagram Analysis

Xue Li, Yiyou Sun, Wei Cheng et al.

CVPR 2025posterarXiv:2503.19359

#3525

Show and Segment: Universal Medical Image Segmentation via In-Context Learning

Yunhe Gao, Di Liu, Zhuowei Li et al.

NEURIPS 2025posterarXiv:2510.00515

#3526

Efficient Multi-modal Large Language Models via Progressive Consistency Distillation

Zichen Wen, Shaobo Wang, Yufa Zhou et al.

ICML 2025oralarXiv:2407.18676

#3527

Right Now, Wrong Then: Non-Stationary Direct Preference Optimization under Preference Drift

Seongho Son, William Bankes, Sayak Ray Chowdhury et al.

ICLR 2025posterarXiv:2410.01532

#3528

Seeing Eye to AI: Human Alignment via Gaze-Based Response Rewards for Large Language Models

Ángela López-Cardona, Carlos Segura, Alexandros Karatzoglou et al.

ICCV 2025posterarXiv:2410.24204

#3529

GeoSplatting: Towards Geometry Guided Gaussian Splatting for Physically-based Inverse Rendering

Kai Ye, Chong Gao, Guanbin Li et al.

ICCV 2025posterarXiv:2503.03259

#3530

BANet: Bilateral Aggregation Network for Mobile Stereo Matching

Gangwei Xu, Jiaxin Liu, Xianqi Wang et al.

#3531

Not all solutions are created equal: An analytical dissociation of functional and representational similarity in deep linear neural networks

Lukas Braun, Erin Grant, Andrew Saxe

ICML 2025spotlight

ICLR 2025posterarXiv:2503.05431

#3532

Quantum-PEFT: Ultra parameter-efficient fine-tuning

Toshiaki Koike-Akino, Francesco Tonin, Yongtao Wu et al.

ICLR 2025posterarXiv:2411.05193

#3533

Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning

Joey Hong, Anca Dragan, Sergey Levine

AAAI 2025paperarXiv:2501.04975

#3534

V2C-CBM: Building Concept Bottlenecks with Vision-to-Concept Tokenizer

Hangzhou He, Lei Zhu, Xinliang Zhang et al.

CVPR 2025posterarXiv:2503.18595

#3535

Adaptive Unimodal Regulation for Balanced Multimodal Information Acquisition

Chengxiang Huang, Yake Wei, Zequn Yang et al.

NEURIPS 2025oralarXiv:2505.21076

#3536

DynamicVL: Benchmarking Multimodal Large Language Models for Dynamic City Understanding

Weihao Xuan, Junjue Wang, Heli Qi et al.

ICCV 2025posterarXiv:2501.13087

#3537

Orchid: Image Latent Diffusion for Joint Appearance and Geometry Generation

Akshay Krishnan, Xinchen Yan, Vincent Casser et al.

ICLR 2025posterarXiv:2410.16646

#3538

TopoDiffusionNet: A Topology-aware Diffusion Model

Saumya Gupta, Dimitris Samaras, Chao Chen

CVPR 2025posterarXiv:2504.20378

#3539

Sparse2DGS: Geometry-Prioritized Gaussian Splatting for Surface Reconstruction from Sparse Views

Jiang Wu, Rui Li, Yu Zhu et al.

NEURIPS 2025posterarXiv:2505.22596

#3540

SAM-R1: Leveraging SAM for Reward Feedback in Multimodal Segmentation via Reinforcement Learning

Jiaqi Huang, Zunnan Xu, Jun Zhou et al.

ICLR 2025posterarXiv:2410.18141

#3541

SmartRAG: Jointly Learn RAG-Related Tasks From the Environment Feedback

Jingsheng Gao, Linxu Li, Ke Ji et al.

ICLR 2025posterarXiv:2410.02392

#3542

MANTRA: The Manifold Triangulations Assemblage

Rubén Ballester, Ernst Roell, Daniel Bin Schmid et al.

CVPR 2025posterarXiv:2503.02491

#3543

Joint Out-of-Distribution Filtering and Data Discovery Active Learning

Sebastian Schmidt, Leonard Schenk, Leo Schwinn et al.

#3544

Generative Zero-Shot Composed Image Retrieval

Lan Wang, Wei Ao, Vishnu Naresh Boddeti et al.

ICLR 2025posterarXiv:2408.11054

#3545

Near, far: Patch-ordering enhances vision foundation models' scene understanding

Valentinos Pariza, Mohammadreza Salehi, Gertjan J Burghouts et al.

ICLR 2025posterarXiv:2410.00079

#3546

Interactive Speculative Planning: Enhance Agent Efficiency through Co-design of System and User Interface

Wenyue Hua, Mengting Wan, JAGANNATH VADREVU et al.

AAAI 2025paperarXiv:2412.08388

#3547

LOMA: Language-assisted Semantic Occupancy Network via Triplane Mamba

Yubo Cui, Zhiheng Li, Jiaqiang Wang et al.

NEURIPS 2025posterarXiv:2502.01637

#3548

Scaling Embedding Layers in Language Models

Da Yu, Edith Cohen, Badih Ghazi et al.

ICCV 2025posterarXiv:2507.04822

#3549

SeqGrowGraph: Learning Lane Topology as a Chain of Graph Expansions

Mengwei Xie, Shuang Zeng, Xinyuan Chang et al.

CVPR 2025highlightarXiv:2412.04077

#3550

SoMA: Singular Value Decomposed Minor Components Adaptation for Domain Generalizable Representation Learning

Seokju Yun, Seunghye Chae, Dongheon Lee et al.

NEURIPS 2025posterarXiv:2506.21552

#3551

Whole-Body Conditioned Egocentric Video Prediction

Yutong Bai, Danny Tran, Amir Bar et al.

ICCV 2025highlightarXiv:2507.19239

#3552

CoopTrack: Exploring End-to-End Learning for Efficient Cooperative Sequential Perception

Jiaru Zhong, Jiahao Wang, Jiahui Xu et al.

CVPR 2025posterarXiv:2506.11036

#3553

Human-centered Interactive Learning via MLLMs for Text-to-Image Person Re-identification

Yang Qin, Chao Chen, Zhihang Fu et al.

CVPR 2025posterarXiv:2407.08027

#3554

Fish-Vista: A Multi-Purpose Dataset for Understanding & Identification of Traits from Images

Kazi Sajeed Mehrab, M. Maruf, Arka Daw et al.

#3555

REPA Works Until It Doesn’t: Early-Stopped, Holistic Alignment Supercharges Diffusion Training

Ziqiao Wang, Wangbo Zhao, Yuhao Zhou et al.

NEURIPS 2025poster

#3556

Federated Residual Low-Rank Adaption of Large Language Models

Yunlu Yan, Chun-Mei Feng, Wangmeng Zuo et al.

AAAI 2025paperarXiv:2412.11395

#3557

Depth-Centric Dehazing and Depth-Estimation from Real-World Hazy Driving Video

Junkai Fan, Kun Wang, Zhiqiang Yan et al.

CVPR 2025highlightarXiv:2409.16434

#3558

Lessons and Insights from a Unifying Study of Parameter-Efficient Fine-Tuning (PEFT) in Visual Recognition

Zheda Mai, Ping Zhang, Cheng-Hao Tu et al.

#3559

Alleviate and Mining: Rethinking Unsupervised Domain Adaptation for Mitochondria Segmentation from Pseudo-Label Perspective

Yujia Chen, Rui Sun, Wangkai Li et al.

ICLR 2025posterarXiv:2503.05025

#3560

ProtComposer: Compositional Protein Structure Generation with 3D Ellipsoids

Hannes Stärk, Bowen Jing, Tomas Geffner et al.

ICLR 2025posterarXiv:2407.01214

#3561

Revisiting Random Walks for Learning on Graphs

Jinwoo Kim, Olga Zaghen, Ayhan Suleymanzade et al.

AAAI 2025paperarXiv:2412.10115

#3562

Filter or Compensate: Towards Invariant Representation from Distribution Shift for Anomaly Detection

Zining Chen, Xingshuang Luo, Weiqiu Wang et al.

NEURIPS 2025posterarXiv:2505.19371

#3563

Foundations of Top-$k$ Decoding for Language Models

Georgy Noarov, Soham Mallick, Tao Wang et al.

CVPR 2025posterarXiv:2505.07843

#3564

PosterO: Structuring Layout Trees to Enable Language Models in Generalized Content-Aware Layout Generation

HsiaoYuan Hsu, Yuxin Peng

CVPR 2025posterarXiv:2506.16201

#3565

FlowRAM: Grounding Flow Matching Policy with Region-Aware Mamba Framework for Robotic Manipulation

Sen Wang, Le Wang, Sanping Zhou et al.

#3566

HMoRA: Making LLMs More Effective with Hierarchical Mixture of LoRA Experts

Mengqi Liao, Wei Chen, Junfeng Shen et al.

AAAI 2025paperarXiv:2503.12560

#3567

Multi-Granular Multimodal Clue Fusion for Meme Understanding

Li Zheng, Hao Fei, Ting Dai et al.

AAAI 2025paperarXiv:2408.09469

#3568

Enhancing Adversarial Transferability with Adversarial Weight Tuning

Jiahao Chen, Zhou Feng, Rui Zeng et al.

NEURIPS 2025spotlightarXiv:2502.04664

#3569

Implicit Bias of Spectral Descent and Muon on Multiclass Separable Data

Chen Fan, Mark Schmidt, Christos Thrampoulidis

AAAI 2025paperarXiv:2501.08328

#3570

PokerBench: Training Large Language Models to Become Professional Poker Players

Richard Zhuang, Akshat Gupta, Richard Yang et al.

ICCV 2025posterarXiv:2502.19958

#3571

ChatReID: Open-ended Interactive Person Retrieval via Hierarchical Progressive Tuning for Vision Language Models

Ke Niu, Haiyang Yu, Mengyang Zhao et al.

CVPR 2025posterarXiv:2505.15185

#3572

MonoSplat: Generalizable 3D Gaussian Splatting from Monocular Depth Foundation Models

Yifan Liu, Keyu Fan, Weihao Yu et al.

NEURIPS 2025posterarXiv:2503.14376

#3573

Tiled Flash Linear Attention: More Efficient Linear RNN and xLSTM Kernels

Maximilian Beck, Korbinian Pöppel, Phillip Lippe et al.

ICCV 2025posterarXiv:2502.00372

#3574

NAVER: A Neuro-Symbolic Compositional Automaton for Visual Grounding with Explicit Logic Reasoning

Zhixi Cai, Fucai Ke, Simindokht Jahangard et al.

ICLR 2025posterarXiv:2406.09827

#3575

A Training-Free Sub-quadratic Cost Transformer Model Serving Framework with Hierarchically Pruned Attention

Heejun Lee, Geon Park, Youngwan Lee et al.

NEURIPS 2025posterarXiv:2408.13036

#3576

H3D-DGS: Exploring Heterogeneous 3D Motion Representation for Deformable 3D Gaussian Splatting

Bing He, Yunuo Chen, Guo Lu et al.

NEURIPS 2025spotlightarXiv:2508.12511

#3577

Trust Region Constrained Measure Transport in Path Space for Stochastic Optimal Control and Inference

Denis Blessing, Julius Berner, Lorenz Richter et al.

AAAI 2025paperarXiv:2412.15504

#3578

Mitigating Social Bias in Large Language Models: A Multi-Objective Approach Within a Multi-Agent Framework

Zhenjie Xu, Wenqing Chen, Yi Tang et al.

#3579

SynQ: Accurate Zero-shot Quantization by Synthesis-aware Fine-tuning

Minjun Kim, Jongjin Kim, U Kang

CVPR 2025posterarXiv:2411.16064

#3580

Multi-Granularity Class Prototype Topology Distillation for Class-Incremental Source-Free Unsupervised Domain Adaptation

Peihua Deng, Jiehua Zhang, Xichun Sheng et al.

AAAI 2025paperarXiv:2501.01110

#3581

MalCL: Leveraging GAN-Based Generative Replay to Combat Catastrophic Forgetting in Malware Classification

Jimin Park, AHyun Ji, Minji Park et al.

CVPR 2025posterarXiv:2503.02394

#3582

BHViT: Binarized Hybrid Vision Transformer

Tian Gao, Yu Zhang, Zhiyuan Zhang et al.

ICLR 2025posterarXiv:2411.03228

#3583

Topograph: An Efficient Graph-Based Framework for Strictly Topology Preserving Image Segmentation

Laurin Lux, Alexander H Berger, Alexander Weers et al.

AAAI 2025paperarXiv:2403.00144

#3584

EBBS: An Ensemble with Bi-Level Beam Search for Zero-Shot Machine Translation

Yuqiao Wen, Behzad Shayegh, Chenyang Huang et al.

AAAI 2025paperarXiv:2408.17072

#3585

MaFeRw: Query Rewriting with Multi-Aspect Feedbacks for Retrieval-Augmented Large Language Models

Yujing Wang, Hainan Zhang, Liang Pang et al.

AAAI 2025paperarXiv:2410.18336

#3586

Assessing the Creativity of LLMs in Proposing Novel Solutions to Mathematical Problems

Junyi Ye, Jingyi Gu, Xinyun Zhao et al.

AAAI 2025paperarXiv:2405.06004

#3587

EWMoE: An Effective Model for Global Weather Forecasting with Mixture-of-Experts

Lihao Gan, Xin Man, Chenghong Zhang et al.

NEURIPS 2025posterarXiv:2506.18951

#3588

SWE-SQL: Illuminating LLM Pathways to Solve User SQL Issues in Real-World Applications

Jinyang Li, Xiaolong Li, Ge Qu et al.

ICLR 2025posterarXiv:2410.09344

#3589

DARE the Extreme: Revisiting Delta-Parameter Pruning For Fine-Tuned Models

Wenlong Deng, Yize Zhao, Vala Vakilian et al.

ICCV 2025posterarXiv:2411.16778

#3590

GEMeX: A Large-Scale, Groundable, and Explainable Medical VQA Benchmark for Chest X-ray Diagnosis

Bo Liu, Ke Zou, Li-Ming Zhan et al.

ICLR 2025posterarXiv:2411.06390

#3591

SplatFormer: Point Transformer for Robust 3D Gaussian Splatting

Yutong Chen, Marko Mihajlovic, Xiyi Chen et al.

ICLR 2025posterarXiv:2410.17711

#3592

Beware of Calibration Data for Pruning Large Language Models

Yixin Ji, Yang Xiang, Juntao Li et al.

CVPR 2025posterarXiv:2501.11175

#3593

ProKeR: A Kernel Perspective on Few-Shot Adaptation of Large Vision-Language Models

Yassir Bendou, Amine Ouasfi, Vincent Gripon et al.

#3594

The Change You Want To Detect: Semantic Change Detection In Earth Observation With Hybrid Data Generationf

Yanis Benidir, Nicolas Gonthier, Clement Mallet

NEURIPS 2025oralarXiv:2507.02001

#3595

Temporal Chain of Thought: Long-Video Understanding by Thinking in Frames

Anurag Arnab, Ahmet Iscen, Mathilde Caron et al.

ICLR 2025posterarXiv:2404.00242

#3596

DeFT: Decoding with Flash Tree-attention for Efficient Tree-structured LLM Inference

Jinwei Yao, Kaiqi Chen, Kexun Zhang et al.

#3597

GNS: Solving Plane Geometry Problems by Neural-Symbolic Reasoning with Multi-Modal LLMs

Maizhen Ning, Zihao Zhou, Qiufeng Wang et al.

NEURIPS 2025posterarXiv:2408.03459

#3598

Can DPO Learn Diverse Human Values? A Theoretical Scaling Law

Shawn Im, Sharon Li

ICLR 2025posterarXiv:2502.00634

#3599

SimulPL: Aligning Human Preferences in Simultaneous Machine Translation

Donglei Yu, Yang Zhao, Jie Zhu et al.

AAAI 2025paperarXiv:2412.17408

#3600

Just What You Desire: Constrained Timeline Summarization with Self-Reflection for Enhanced Relevance

Muhammad Reza Qorib, Qisheng Hu, Hwee Tou Ng