Most Cited 2025 &quot;dual-level pretraining&quot; Papers

ICLR 2025arXiv:2408.11054

#3602

Near, far: Patch-ordering enhances vision foundation models' scene understanding

Valentinos Pariza, Mohammadreza Salehi, Gertjan J Burghouts et al.

CVPR 2025arXiv:2411.17030

#3603

g3D-LF: Generalizable 3D-Language Feature Fields for Embodied Tasks

Zihan Wang, Gim Hee Lee

ICLR 2025arXiv:2410.09101

#3604

Data Taggants: Dataset Ownership Verification Via Harmless Targeted Data Poisoning

Wassim Bouaziz, Nicolas Usunier, El-Mahdi El-Mhamdi

CVPR 2025arXiv:2503.20826

#3605

Exploring CLIP's Dense Knowledge for Weakly Supervised Semantic Segmentation

Zhiwei Yang, Yucong Meng, Kexue Fu et al.

ICLR 2025arXiv:2502.10438

#3606

Injecting Universal Jailbreak Backdoors into LLMs in Minutes

Zhuowei Chen, qiannan zhang, Shichao Pei

ICCV 2025arXiv:2411.16778

#3607

GEMeX: A Large-Scale, Groundable, and Explainable Medical VQA Benchmark for Chest X-ray Diagnosis

Bo Liu, Ke Zou, Li-Ming Zhan et al.

#3608

As large as it gets – Studying Infinitely Large Convolutions via Neural Implicit Frequency Filters

Margret Keuper, Julia Grabinski, Janis Keuper

#3609

Fast and Slow Streams for Online Time Series Forecasting Without Information Leakage

Ying-yee Ava Lau, Zhiwen Shao, Dit-Yan Yeung

ICLR 2025oral

NEURIPS 2025arXiv:2505.19371

#3610

Foundations of Top-$k$ Decoding for Language Models

Georgy Noarov, Soham Mallick, Tao Wang et al.

AAAI 2025paperarXiv:2407.05909

#3611

Multi-clue Consistency Learning to Bridge Gaps Between General and Oriented Object in Semi-supervised Detection

Chenxu Wang, Chunyan Xu, Xiang Li et al.

CVPR 2025arXiv:2503.18314

#3612

LoTUS: Large-Scale Machine Unlearning with a Taste of Uncertainty

Christoforos N. Spartalis, Theodoros Semertzidis, Efstratios Gavves et al.

#3613

REPA Works Until It Doesn’t: Early-Stopped, Holistic Alignment Supercharges Diffusion Training

Ziqiao Wang, Wangbo Zhao, Yuhao Zhou et al.

NEURIPS 2025

ICLR 2025arXiv:2502.06283

#3614

On the Expressiveness of Rational ReLU Neural Networks With Bounded Depth

Gennadiy Averkov, Christopher Hojny, Maximilian Merkert

NEURIPS 2025arXiv:2505.22596

#3615

SAM-R1: Leveraging SAM for Reward Feedback in Multimodal Segmentation via Reinforcement Learning

Jiaqi Huang, Zunnan Xu, Jun Zhou et al.

ICML 2025arXiv:2501.18858

#3616

BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning

Han Zhong, Yutong Yin, Shenao Zhang et al.

ICLR 2025arXiv:2412.10138

#3617

ROUTE: Robust Multitask Tuning and Collaboration for Text-to-SQL

Yang Qin, Chao Chen, Zhihang Fu et al.

NEURIPS 2025arXiv:2506.21552

#3618

Whole-Body Conditioned Egocentric Video Prediction

Yutong Bai, Danny Tran, Amir Bar et al.

NEURIPS 2025arXiv:2502.01637

#3619

Scaling Embedding Layers in Language Models

Da Yu, Edith Cohen, Badih Ghazi et al.

ICLR 2025arXiv:2501.18532

#3620

Differentially Private Steering for Large Language Model Alignment

Anmol Goel, Yaxi Hu, Iryna Gurevych et al.

ICLR 2025arXiv:2410.06215

#3621

DataEnvGym: Data Generation Agents in Teacher Environments with Student Feedback

Zaid Khan, Elias Stengel-Eskin, Jaemin Cho et al.

#3622

Dehaze-RetinexGAN: Real-World Image Dehazing via Retinex-based Generative Adversarial Network

Xinran Wang, Guang Yang, Tian Ye et al.

ICLR 2025arXiv:2503.01931

#3623

Adversarial Generative Flow Network for Solving Vehicle Routing Problems

Ni Zhang, Jingfeng Yang, Zhiguang Cao et al.

ICLR 2025arXiv:2410.03968

#3624

Decoding Game: On Minimax Optimality of Heuristic Text Generation Strategies

Sijin Chen, Omar Hagrass, Jason Klusowski

ICLR 2025arXiv:2502.19363

#3625

DataMan: Data Manager for Pre-training Large Language Models

Ru Peng, Kexin Yang, Yawen Zeng et al.

ICLR 2025arXiv:2402.05913

#3626

Efficient stagewise pretraining via progressive subnetworks

Abhishek Panigrahi, Nikunj Saunshi, Kaifeng Lyu et al.

ICCV 2025arXiv:2503.14494

#3627

Deeply Supervised Flow-Based Generative Models

Inkyu Shin, Chenglin Yang, Liang-Chieh Chen

CVPR 2025arXiv:2412.11509

#3628

Skip Tuning: Pre-trained Vision-Language Models are Effective and Efficient Adapters Themselves

Shihan Wu, Ji Zhang, Pengpeng Zeng et al.

#3629

Multirate Neural Image Compression with Adaptive Lattice Vector Quantization

Hao Xu, Xiaolin Wu, Xi Zhang

CVPR 2025highlight

AAAI 2025paperarXiv:2409.03644

#3630

RealisHuman: A Two-Stage Approach for Refining Malformed Human Parts in Generated Images

Benzhi Wang, Jingkai Zhou, Jingqi Bai et al.

ICML 2025arXiv:2501.13941

#3631

GaussMark: A Practical Approach for Structural Watermarking of Language Models

Adam Block, Alexander Rakhlin, Ayush Sekhari

ICLR 2025arXiv:2403.04348

#3632

LoCoDL: Communication-Efficient Distributed Learning with Local Training and Compression

Laurent Condat, Artavazd Maranjyan, Peter Richtarik

ICLR 2025arXiv:2505.04965

#3633

DenseGrounding: Improving Dense Language-Vision Semantics for Ego-centric 3D Visual Grounding

Henry Zheng, Hao Shi, Qihang Peng et al.

ICLR 2025arXiv:2502.19980

#3634

Can Textual Gradient Work in Federated Learning?

Minghui Chen, Ruinan Jin, Wenlong Deng et al.

ICCV 2025arXiv:2501.03992

#3635

NeuralSVG: An Implicit Representation for Text-to-Vector Generation

Sagi Polaczek, Yuval Alaluf, Elad Richardson et al.

#3636

GPS: A Probabilistic Distributional Similarity with Gumbel Priors for Set-to-Set Matching

Ziming Zhang, Fangzhou Lin, Haotian Liu et al.

ICLR 2025oral

NEURIPS 2025spotlightarXiv:2411.07335

#3637

Balancing Multimodal Training Through Game-Theoretic Regularization

Konstantinos Kontras, Thomas Strypsteen, Christos Chatzichristos et al.

AAAI 2025paperarXiv:2502.02438

#3638

Medical Multimodal Model Stealing Attacks via Adversarial Domain Alignment

Yaling Shen, Zhixiong Zhuang, Kun Yuan et al.

CVPR 2025arXiv:2411.17949

#3639

ROICtrl: Boosting Instance Control for Visual Generation

Yuchao Gu, Yipin Zhou, Yunfan Ye et al.

NEURIPS 2025arXiv:2505.22651

#3640

Sherlock: Self-Correcting Reasoning in Vision-Language Models

Yi Ding, Ruqi Zhang

CVPR 2025arXiv:2411.11911

#3641

ModeSeq: Taming Sparse Multimodal Motion Prediction with Sequential Mode Modeling

Zikang Zhou, Hengjian Zhou, Haibo Hu et al.

ICML 2025arXiv:2503.16322

#3642

Ultra-Resolution Adaptation with Ease

Ruonan Yu, Songhua Liu, Zhenxiong Tan et al.

CVPR 2025arXiv:2412.13047

#3643

Gaussian Splatting for Efficient Satellite Image Photogrammetry

Luca Savant Aira, Gabriele Facciolo, Thibaud Ehret

CVPR 2025arXiv:2406.01591

#3644

DeNVeR: Deformable Neural Vessel Representations for Unsupervised Video Vessel Segmentation

Chun-Hung Wu, Shih-Hong Chen, Chih Yao Hu et al.

CVPR 2025highlightarXiv:2504.12909

#3645

Real-time High-fidelity Gaussian Human Avatars with Position-based Interpolation of Spatially Distributed MLPs

Youyi Zhan, Tianjia Shao, Yin Yang et al.

CVPR 2025arXiv:2502.05741

#3646

Linear Attention Modeling for Learned Image Compression

Donghui Feng, Zhengxue Cheng, Shen Wang et al.

CVPR 2025arXiv:2412.02254

#3647

ProbPose: A Probabilistic Approach to 2D Human Pose Estimation

Miroslav Purkrábek, Jiri Matas

ICLR 2025arXiv:2405.12519

#3648

MAGE: Model-Level Graph Neural Networks Explanations via Motif-based Graph Generation

Zhaoning Yu, Hongyang Gao

#3649

MMSearch: Unveiling the Potential of Large Models as Multi-modal Search Engines

Dongzhi Jiang, Renrui Zhang, Ziyu Guo et al.

NEURIPS 2025spotlightarXiv:2505.19350

#3650

FlashMD: long-stride, universal prediction of molecular dynamics

Filippo Bigi, Sanggyu Chong, Agustinus Kristiadi et al.

CVPR 2025arXiv:2503.17928

#3651

Debiasing Multimodal Large Language Models via Noise-Aware Preference Optimization

zefeng zhang, Hengzhu Tang, Jiawei Sheng et al.

CVPR 2025arXiv:2503.23670

#3652

Learning Bijective Surface Parameterization for Inferring Signed Distance Functions from Sparse Point Clouds with Grid Deformation

Takeshi Noda, Chao Chen, Junsheng Zhou et al.

NEURIPS 2025spotlightarXiv:2502.00791

#3653

Vision-centric Token Compression in Large Language Model

Ling Xing, Alex Jinpeng Wang, Rui Yan et al.

#3654

SMT: Fine-Tuning Large Language Models with Sparse Matrices

Haoze He, Juncheng Li, Xuan Jiang et al.

AAAI 2025paperarXiv:2412.07160

#3655

Motion-aware Contrastive Learning for Temporal Panoptic Scene Graph Generation

Thong Thanh Nguyen, Xiaobao Wu, Yi Bin et al.

NEURIPS 2025arXiv:2505.11197

#3656

Modeling Cell Dynamics and Interactions with Unbalanced Mean Field Schrödinger Bridge

Zhenyi Zhang, Zihan Wang, Yuhao Sun et al.

CVPR 2025highlightarXiv:2411.10825

#3657

ARM: Appearance Reconstruction Model for Relightable 3D Generation

Xiang Feng, Chang Yu, Zoubin Bi et al.

AAAI 2025paperarXiv:2412.10178

#3658

SwiftTry: Fast and Consistent Video Virtual Try-On with Diffusion Models

Hung Nguyen, Quang Qui-Vinh Nguyen, Khoi Nguyen et al.

ICML 2025arXiv:2502.07587

#3659

SEMU: Singular Value Decomposition for Efficient Machine Unlearning

Marcin Sendera, Łukasz Struski, Kamil Książek et al.

AAAI 2025paperarXiv:2412.10159

#3660

Arbitrary Reading Order Scene Text Spotter with Local Semantics Guidance

Jiahao Lyu, Wei Wang, Dongbao Yang et al.

ICLR 2025arXiv:2410.18538

#3661

SMITE: Segment Me In TimE

Amirhossein Alimohammadi, Sauradip Nag, Saeid Asgari et al.

NEURIPS 2025oralarXiv:2502.20432

#3662

LLM Strategic Reasoning: Agentic Study through Behavioral Game Theory

Jingru Jia, Zehua Yuan, Junhao Pan et al.

NEURIPS 2025arXiv:2506.09050

#3663

ALE-Bench: A Benchmark for Long-Horizon Objective-Driven Algorithm Engineering

Yuki Imajuku, Kohki Horie, Yoichi Iwata et al.

ICLR 2025arXiv:2405.17035

#3664

Glauber Generative Model: Discrete Diffusion Models via Binary Classification

Harshit Varma, Dheeraj Nagaraj, Karthikeyan Shanmugam

CVPR 2025arXiv:2503.18589

#3665

Unified Uncertainty-Aware Diffusion for Multi-Agent Trajectory Modeling

Guillem Capellera, Antonio Rubio, Luis Ferraz et al.

CVPR 2025arXiv:2504.01503

#3666

Luminance-GS: Adapting 3D Gaussian Splatting to Challenging Lighting Conditions with View-Adaptive Curve Adjustment

Ziteng Cui, Xuangeng Chu, Tatsuya Harada

NEURIPS 2025spotlightarXiv:2504.04072

#3667

Among Us: A Sandbox for Measuring and Detecting Agentic Deception

Satvik Golechha, Adrià Garriga-Alonso

NEURIPS 2025arXiv:2505.18809

#3668

VORTA: Efficient Video Diffusion via Routing Sparse Attention

Wenhao Sun, Rong-Cheng Tu, Yifu Ding et al.

CVPR 2025arXiv:2503.19783

#3669

Fine-Grained Erasure in Text-to-Image Diffusion-based Foundation Models

Kartik Thakral, Tamar Glaser, Tal Hassner et al.

ICLR 2025arXiv:2405.19230

#3670

Valid Conformal Prediction for Dynamic GNNs

Ed Davis, Ian Gallagher, Daniel Lawson et al.

NEURIPS 2025arXiv:2507.19060

#3671

PurpCode: Reasoning for Safer Code Generation

Jiawei Liu, Nirav Diwan, Zhe Wang et al.

CVPR 2025arXiv:2504.00665

#3672

Monocular and Generalizable Gaussian Talking Head Animation

Shengjie Gong, Haojie Li, Jiapeng Tang et al.

CVPR 2025arXiv:2502.20256

#3673

The Computer Vision Foundation

Yancheng Cai, Fei Yin, Dounia Hammou et al.

NEURIPS 2025arXiv:2502.02421

#3674

Activation-Informed Merging of Large Language Models

Amin Heyrani Nobari, Kaveh Alimohammadi, Ali ArjomandBigdeli et al.

ICCV 2025highlightarXiv:2411.19527

#3675

DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding

Jungbin Cho, Junwan Kim, Jisoo Kim et al.

ICML 2025arXiv:2410.18076

#3676

Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration

Max Wilcoxson, Qiyang Li, Kevin Frans et al.

ICLR 2025arXiv:2408.16115

#3677

Uncertainty Modeling in Graph Neural Networks via Stochastic Differential Equations

Richard Bergna, Sergio Calvo Ordoñez, Felix Opolka et al.

ICLR 2025arXiv:2501.15878

#3678

Slot-Guided Adaptation of Pre-trained Diffusion Models for Object-Centric Learning and Compositional Generation

adil kaan akan, Yucel Yemez

CVPR 2025arXiv:2502.18290

#3679

Stealthy Backdoor Attack in Self-Supervised Learning Vision Encoders for Large Vision Language Models

Zhaoyi Liu, Huan Zhang

ICML 2025arXiv:2411.17284

#3680

AutoElicit: Using Large Language Models for Expert Prior Elicitation in Predictive Modelling

Alexander Capstick, Rahul G. Krishnan, Payam Barnaghi

ICLR 2025arXiv:2410.05050

#3681

FreSh: Frequency Shifting for Accelerated Neural Representation Learning

Adam Kania, Marko Mihajlovic, Sergey Prokudin et al.

AAAI 2025paperarXiv:2409.04053

#3682

COLUMBUS: Evaluating COgnitive Lateral Understanding Through Multiple-Choice reBUSes

Koen Kraaijveld, Yifan Jiang, Kaixin Ma et al.

ICML 2025spotlightarXiv:2507.07544

#3683

Position: We Need An Algorithmic Understanding of Generative AI

Oliver Eberle, Thomas McGee, Hamza Giaffar et al.

CVPR 2025arXiv:2412.04470

#3684

Turbo3D: Ultra-fast Text-to-3D Generation

Hanzhe Hu, Tianwei Yin, Fujun Luan et al.

ICCV 2025highlightarXiv:2506.23639

#3685

Unified Multimodal Understanding via Byte-Pair Visual Encoding

Wanpeng Zhang, Yicheng Feng, Hao Luo et al.

ICML 2025spotlightarXiv:2407.11784

#3686

Data-Juicer Sandbox: A Feedback-Driven Suite for Multimodal Data-Model Co-development

Daoyuan Chen, Haibin Wang, Yilun Huang et al.

CVPR 2025arXiv:2503.04639

#3687

Enhancing SAM with Efficient Prompting and Preference Optimization for Semi-supervised Medical Image Segmentation

Aishik Konwer, Zhijian Yang, Erhan Bas et al.

ICLR 2025arXiv:2410.02749

#3688

Training Language Models on Synthetic Edit Sequences Improves Code Synthesis

Ulyana Piterbarg, Lerrel Pinto, Rob Fergus

NEURIPS 2025arXiv:2502.16671

#3689

MimeQA: Towards Socially-Intelligent Nonverbal Foundation Models

Hengzhi Li, Megan Tjandrasuwita, Yi R. (May) Fung et al.

ICML 2025arXiv:2506.05774

#3690

Evaluating Neuron Explanations: A Unified Framework with Sanity Checks

Tuomas Oikarinen, Ge Yan, Lily Weng

ICML 2025oralarXiv:2504.19496

#3691

DISCO: learning to DISCover an evolution Operator for multi-physics-agnostic prediction

Rudy Morel, Jiequn Han, Edouard Oyallon

NEURIPS 2025arXiv:2510.20661

#3692

UltraHR-100K: Enhancing UHR Image Synthesis with A Large-Scale High-Quality Dataset

Chen Zhao, En Ci, Yunzhe Xu et al.

#3693

Doubly Contrastive Learning for Source-Free Domain Adaptive Person Search

Yizhen Jia, Rong Quan, Yue Feng et al.

NEURIPS 2025arXiv:2506.01480

#3694

Janus-Pro-R1: Advancing Collaborative Visual Comprehension and Generation via Reinforcement Learning

Kaihang Pan, Yang Wu, Wendong Bu et al.

ICCV 2025arXiv:2508.05038

#3695

HAMoBE: Hierarchical and Adaptive Mixture of Biometric Experts for Video-based Person ReID

Yiyang Su, Yunping Shi, Feng Liu et al.

CVPR 2025highlightarXiv:2503.07635

#3696

Cross-modal Causal Relation Alignment for Video Question Grounding

weixing chen, Yang Liu, Binglin Chen et al.

AAAI 2025paperarXiv:2409.18401

#3697

GenesisTex2: Stable, Consistent and High-Quality Text-to-Texture Generation

Jiawei Lu, YingPeng Zhang, Zengjun Zhao et al.

CVPR 2025arXiv:2504.06120

#3698

Hyperbolic Category Discovery

Yuanpei Liu, Zhenqi He, Kai Han

ICLR 2025oralarXiv:2509.18627

#3699

BRAID: Input-driven Nonlinear Dynamical Modeling of Neural-Behavioral Data

Parsa Vahidi, Omid G. Sani, Maryam Shanechi

ICLR 2025arXiv:2501.04304

#3700

DGQ: Distribution-Aware Group Quantization for Text-to-Image Diffusion Models

Hyogon Ryu, NaHyeon Park, Hyunjung Shim

NEURIPS 2025arXiv:2506.11136

#3701

JAFAR: Jack up Any Feature at Any Resolution

Paul Couairon, Loïck Chambon, Louis Serrano et al.

ICCV 2025arXiv:2504.10414

#3702

HUMOTO: A 4D Dataset of Mocap Human Object Interactions

Jiaxin Lu, Chun-Hao Huang, Uttaran Bhattacharya et al.

NEURIPS 2025arXiv:2505.18781

#3703

Geometry Aware Operator Transformer as an efficient and accurate neural surrogate for PDEs on arbitrary domains

Shizheng Wen, Arsh Kumbhat, Levi Lingsch et al.

CVPR 2025arXiv:2503.06621

#3704

Dynamic Updates for Language Adaptation in Visual-Language Tracking

Xiaohai Li, Bineng Zhong, Qihua Liang et al.

CVPR 2025arXiv:2503.18513

#3705

LookCloser: Frequency-aware Radiance Field for Tiny-Detail Scene

Xiaoyu Zhang, Weihong Pan, Chong Bao et al.

CVPR 2025arXiv:2406.19827

#3706

Towards Stable and Storage-efficient Dataset Distillation: Matching Convexified Trajectory

Wenliang Zhong, Haoyu Tang, Qinghai Zheng et al.

NEURIPS 2025arXiv:2507.06920

#3707

Rethinking Verification for LLM Code Generation: From Generation to Testing

Zihan Ma, Taolin Zhang, Maosongcao et al.

CVPR 2025highlightarXiv:2503.18420

#3708

Panorama Generation From NFoV Image Done Right

Dian Zheng, Cheng Zhang, Xiao-Ming Wu et al.

CVPR 2025arXiv:2502.20249

#3709

Enhancing 3D Gaze Estimation in the Wild using Weak Supervision with Gaze Following Labels

Pierre Vuillecard, Jean-marc Odobez

ICLR 2025arXiv:2411.03753

#3710

Symbolic regression via MDLformer-guided search: from minimizing prediction error to minimizing description length

Zihan Yu, Jingtao Ding, Yong Li et al.

AAAI 2025paperarXiv:2501.01125

#3711

DuMo: Dual Encoder Modulation Network for Precise Concept Erasure

Feng Han, Kai Chen, Chao Gong et al.

ICCV 2025arXiv:2410.09865

#3712

SynFER: Towards Boosting Facial Expression Recognition with Synthetic Data

Xilin He, Cheng Luo, Xiaole Xian et al.

NEURIPS 2025arXiv:2506.15691

#3713

What Do Latent Action Models Actually Learn?

Chuheng Zhang, Tim Pearce, Pushi Zhang et al.

NEURIPS 2025arXiv:2502.16816

#3714

Finite-Sample Analysis of Policy Evaluation for Robust Average Reward Reinforcement Learning

Yang Xu, Washim Mondal, Vaneet Aggarwal

ICLR 2025arXiv:2404.02157

#3715

Segment Any 3D Object with Language

Seungjun Lee, Yuyang Zhao, Gim H Lee

#3716

Noisy Label Calibration for Multi-View Classification

Shilin Xu, Yuan Sun, Xingfeng Li et al.

NEURIPS 2025spotlightarXiv:2502.01826

#3717

GSRF: Complex-Valued 3D Gaussian Splatting for Efficient Radio-Frequency Data Synthesis

Kang Yang, Gaofeng Dong, Sijie Ji et al.

AAAI 2025paperarXiv:2407.12317

#3718

Out of Length Text Recognition with Sub-String Matching

Yongkun Du, Zhineng Chen, Caiyan Jia et al.

ICLR 2025arXiv:2412.05994

#3719

PIG: Physics-Informed Gaussians as Adaptive Parametric Mesh Representations

Namgyu Kang, Jaemin Oh, Youngjoon Hong et al.

ICLR 2025arXiv:2410.05315

#3720

PALMBENCH: A COMPREHENSIVE BENCHMARK OF COMPRESSED LARGE LANGUAGE MODELS ON MOBILE PLATFORMS

Yilong Li, Jingyu Liu, Hao Zhang et al.

NEURIPS 2025spotlightarXiv:2502.08202

#3721

Privacy amplification by random allocation

Moshe Shenfeld, Vitaly Feldman

#3722

Triples as the Key: Structuring Makes Decomposition and Verification Easier in LLM-based TableQA

Zhen Yang, Ziwei Du, Minghan Zhang et al.

NEURIPS 2025arXiv:2506.15838

#3723

EchoShot: Multi-Shot Portrait Video Generation

Jiahao Wang, Hualian Sheng, Sijia Cai et al.

AAAI 2025paperarXiv:2405.08674

#3724

Expensive Multi-Objective Bayesian Optimization Based on Diffusion Models

Bingdong Li, Zixiang Di, Yongfan Lu et al.

CVPR 2025arXiv:2412.17630

#3725

Detail-Preserving Latent Diffusion for Stable Shadow Removal

Jiamin Xu, Yuxin Zheng, Zelong Li et al.

AAAI 2025paperarXiv:2412.10488

#3726

SVGBuilder: Component-Based Colored SVG Generation with Text-Guided Autoregressive Transformers

Zehao Chen, Rong Pan

ICML 2025arXiv:2501.16168

#3727

Ringmaster ASGD: The First Asynchronous SGD with Optimal Time Complexity

Artavazd Maranjyan, Alexander Tyurin, Peter Richtarik

CVPR 2025arXiv:2409.06214

#3728

Towards Generalizable Scene Change Detection

Jae-Woo KIM, Ue-Hwan Kim

CVPR 2025arXiv:2505.06166

#3729

DiffLocks: Generating 3D Hair from a Single Image using Diffusion Models

Radu Alexandru Rosu, Keyu Wu, Yao Feng et al.

AAAI 2025paperarXiv:2412.10185

#3730

Solving Robust Markov Decision Processes: Generic, Reliable, Efficient

Tobias Meggendorfer, Maximilian Weininger, Patrick Wienhöft

CVPR 2025arXiv:2503.01725

#3731

HarmonySet: A Comprehensive Dataset for Understanding Video-Music Semantic Alignment and Temporal Synchronization

Zitang Zhou, Ke Mei, Yu Lu et al.

ICCV 2025arXiv:2507.20519

#3732

AgroBench: Vision-Language Model Benchmark in Agriculture

Risa Shinoda, Nakamasa Inoue, Hirokatsu Kataoka et al.

CVPR 2025arXiv:2412.02071

#3733

Progress-Aware Video Frame Captioning

Zihui Xue, Joungbin An, Xitong Yang et al.

ICCV 2025arXiv:2411.16072

#3734

Language Driven Occupancy Prediction

Zhu Yu, Bowen Pang, Lizhe Liu et al.

NEURIPS 2025arXiv:2410.13903

#3735

CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment

Qinfeng Li, Tianyue Luo, Xuhong Zhang et al.

ICCV 2025arXiv:2412.11258

#3736

GaussianProperty: Integrating Physical Properties to 3D Gaussians with LMMs

Xinli Xu, Wenhang Ge, Dicong Qiu et al.

AAAI 2025paperarXiv:2311.14265

#3737

Adaptive Calibration: A Unified Conversion Framework of Spiking Neural Networks

Ziqing Wang, Yuetong Fang, Jiahang Cao et al.

ICLR 2025arXiv:2409.16197

#3738

Second Order Bounds for Contextual Bandits with Function Approximation

Aldo Pacchiano

CVPR 2025arXiv:2503.24210

#3739

DiET-GS: Diffusion Prior and Event Stream-Assisted Motion Deblurring 3D Gaussian Splatting

Seungjun Lee, Gim Hee Lee

ICLR 2025arXiv:2410.01912

#3740

A Spark of Vision-Language Intelligence: 2-Dimensional Autoregressive Transformer for Efficient Finegrained Image Generation

Liang Chen, Sinan Tan, Zefan Cai et al.

CVPR 2025highlightarXiv:2505.24315

#3741

InteractAnything: Zero-shot Human Object Interaction Synthesis via LLM Feedback and Object Affordance Parsing

Jinlu Zhang, Yixin Chen, Zan Wang et al.

CVPR 2025highlightarXiv:2502.20162

#3742

Gradient-Guided Annealing for Domain Generalization

Aristotelis Ballas, Christos Diou

AAAI 2025paperarXiv:2501.15508

#3743

Learning Complex Heterogeneous Multimodal Fake News via Social Latent Network Inference

Mingxin Li, Yuchen Zhang, Haowei Xu et al.

CVPR 2025highlightarXiv:2503.04919

#3744

FirePlace: Geometric Refinements of LLM Common Sense Reasoning for 3D Object Placement

Ian Huang, Yanan Bao, Karen Truong et al.

#3745

ESE: Espresso Sentence Embeddings

Xianming Li, Zongxi Li, Jing Li et al.

ICCV 2025highlightarXiv:2507.07424

#3746

Corvid: Improving Multimodal Large Language Models Towards Chain-of-Thought Reasoning

Jingjing Jiang, Chao Ma, Xurui Song et al.

ICCV 2025arXiv:2508.02293

#3747

Towards Real Unsupervised Anomaly Detection Via Confident Meta-Learning

Muhammad Aqeel, Shakiba Sharifi, Marco Cristani et al.

CVPR 2025arXiv:2411.11909

#3748

SymDPO: Boosting In-Context Learning of Large Multimodal Models with Symbol Demonstration Direct Preference Optimization

Hongrui Jia, Chaoya Jiang, Haiyang Xu et al.

AAAI 2025paperarXiv:2412.13594

#3749

Generalizable Sensor-Based Activity Recognition via Categorical Concept Invariant Learning

Di Xiong, Shuoyuan Wang, Lei Zhang et al.

NEURIPS 2025arXiv:2406.01899

#3750

Cross-Domain Graph Data Scaling: A Showcase with Diffusion Models

Wenzhuo Tang, Haitao Mao, Danial Dervovic et al.

#3751

DAMO: Decoding by Accumulating Activations Momentum for Mitigating Hallucinations in Vision-Language Models

Kaishen Wang, Hengrui Gu, Meijun Gao et al.

NEURIPS 2025arXiv:2505.15152

#3752

Sculpting Features from Noise: Reward-Guided Hierarchical Diffusion for Task-Optimal Feature Transformation

Nanxu Gong, Zijun Li, Sixun Dong et al.

#3753

Learning Fine-Grained Representations through Textual Token Disentanglement in Composed Video Retrieval

Yue Wu, Zhaobo Qi, Yiling Wu et al.

ISMAR 2025paperarXiv:2507.20356

#3754

Detecting Visual Information Manipulation Attacks in Augmented Reality: A Multimodal Semantic Reasoning Approach

Yanming Xiu, Maria Gorlatova

ICLR 2025arXiv:2412.01036

#3755

Generating Freeform Endoskeletal Robots

Muhan Li, Lingji Kong, Sam Kriegman

CVPR 2025arXiv:2503.01291

#3756

SemGeoMo: Dynamic Contextual Human Motion Generation with Semantic and Geometric Guidance

Peishan Cong, Ziyi Wang, Yuexin Ma et al.

CVPR 2025arXiv:2411.18552

#3757

FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable Diffusion

Haosen Yang, Adrian Bulat, Isma Hadji et al.

#3758

HQGS: High-Quality Novel View Synthesis with Gaussian Splatting in Degraded Scenes

Xin Lin, Shi Luo, Xiaojun Shan et al.

ICLR 2025arXiv:2402.04355

#3759

PQMass: Probabilistic Assessment of the Quality of Generative Models using Probability Mass Estimation

Pablo Lemos, Sammy Sharief, Nikolay Malkin et al.

ICLR 2025arXiv:2405.17816

#3760

Pursuing Feature Separation based on Neural Collapse for Out-of-Distribution Detection

Yingwen Wu, Ruiji Yu, Xinwen Cheng et al.

ICCV 2025arXiv:2503.12897

#3761

Federated Continual Instruction Tuning

Haiyang Guo, Fanhu Zeng, Fei Zhu et al.

ICLR 2025oralarXiv:2503.17452

#3762

CausalRivers - Scaling up benchmarking of causal discovery for real-world time-series

Gideon Stein, Maha Shadaydeh, Jan Blunk et al.

ICLR 2025arXiv:2501.15356

#3763

Federated Class-Incremental Learning: A Hybrid Approach Using Latent Exemplars and Data-Free Techniques to Address Local and Global Forgetting

Milad Khademi Nori, IL-MIN KIM, Guanghui Wang

NEURIPS 2025oralarXiv:2509.25040

#3764

A multiscale analysis of mean-field transformers in the moderate interaction regime

Giuseppe Bruno, Federico Pasqualotto, Andrea Agazzi

AAAI 2025paperarXiv:2404.17513

#3765

A Comprehensive Evaluation on Event Reasoning of Large Language Models

Zhengwei Tao, Zhi Jin, Yifan Zhang et al.

NEURIPS 2025oralarXiv:2409.14500

#3766

GraphLand: Evaluating Graph Machine Learning Models on Diverse Industrial Data

Gleb Bazhenov, Oleg Platonov, Liudmila Prokhorenkova

ICLR 2025arXiv:2410.07916

#3767

Robustness Auditing for Linear Regression: To Singularity and Beyond

Ittai Rubinstein, Samuel Hopkins

NEURIPS 2025spotlightarXiv:2504.15473

#3768

Emergence and Evolution of Interpretable Concepts in Diffusion Models

Berk Tinaz, Zalan Fabian, Mahdi Soltanolkotabi

ICLR 2025arXiv:2403.13838

#3769

Circuit Transformer: A Transformer That Preserves Logical Equivalence

Xihan Li, Xing Li, Lei Chen et al.

ICLR 2025arXiv:2407.11306

#3770

PADRe: A Unifying Polynomial Attention Drop-in Replacement for Efficient Vision Transformer

Pierre-David Letourneau, Manish Singh, Hsin-Pai Cheng et al.

#3771

Distilling Structured Rationale from Large Language Models to Small Language Models for Abstractive Summarization

Linyong Wang, Lianwei Wu, Shaoqi Song et al.

NEURIPS 2025spotlightarXiv:2502.17159

#3772

RobustMerge: Parameter-Efficient Model Merging for MLLMs with Direction Robustness

Fanhu Zeng, Haiyang Guo, Fei Zhu et al.

#3773

Neighborhood Self-Dissimilarity Attention for Medical Image Segmentation

Junren Chen, Rui Chen, Wei Wang et al.

NEURIPS 2025

ICLR 2025arXiv:2502.18195

#3774

Multi-Perspective Data Augmentation for Few-shot Object Detection

Anh-Khoa Nguyen Vu, Quoc Truong Truong, Vinh-Tiep Nguyen et al.

NEURIPS 2025arXiv:2505.18962

#3775

System-1.5 Reasoning: Traversal in Language and Latent Spaces with Dynamic Shortcuts

Xiaoqiang Wang, Suyuchen Wang, Yun Zhu et al.

NEURIPS 2025arXiv:2502.19110

#3776

Conformal Linguistic Calibration: Trading-off between Factuality and Specificity

Zhengping Jiang, Anqi Liu, Ben Van Durme

CVPR 2025arXiv:2408.17135

#3777

TIMotion: Temporal and Interactive Framework for Efficient Human-Human Motion Generation

Yabiao Wang, Shuo Wang, Jiangning Zhang et al.

NEURIPS 2025spotlightarXiv:2502.05625

#3778

Training-Free Constrained Generation With Stable Diffusion Models

Stefano Zampini, Jacob K Christopher, Luca Oneto et al.

NEURIPS 2025arXiv:2503.05965

#3779

Validating LLM-as-a-Judge Systems under Rating Indeterminacy

Luke Guerdan, Solon Barocas, Kenneth Holstein et al.

NEURIPS 2025arXiv:2506.00359

#3780

Keeping an Eye on LLM Unlearning: The Hidden Risk and Remedy

Jie Ren, Zhenwei Dai, Xianfeng Tang et al.

CVPR 2025arXiv:2509.09555

#3781

InterAct: Advancing Large-Scale Versatile 3D Human-Object Interaction Generation

Sirui Xu, Dongting Li, Yucheng Zhang et al.

ICLR 2025oralarXiv:2410.05805

#3782

PostCast: Generalizable Postprocessing for Precipitation Nowcasting via Unsupervised Blurriness Modeling

Junchao Gong, Siwei Tu, Weidong Yang et al.

#3783

AnoLLM: Large Language Models for Tabular Anomaly Detection

Che-Ping Tsai, Ganyu Teng, Phillip Wallis et al.

AAAI 2025paperarXiv:2407.12021

#3784

Adaptive Draft-Verification for Efficient Large Language Model Decoding

Xukun Liu, Bowen Lei, Ruqi Zhang et al.

ICCV 2025arXiv:2506.23563

#3785

MMReason: An Open-Ended Multi-Modal Multi-Step Reasoning Benchmark for MLLMs Toward AGI

Huanjin Yao, Jiaxing Huang, Yawen Qiu et al.

ICLR 2025arXiv:2404.05662

#3786

BinaryDM: Accurate Weight Binarization for Efficient Diffusion Models

Xingyu Zheng, Xianglong Liu, Haotong Qin et al.

NEURIPS 2025spotlightarXiv:2506.03642

#3787

Spatial Understanding from Videos: Structured Prompts Meet Simulation Data

Haoyu Zhang, Meng Liu, Zaijing Li et al.

CVPR 2025arXiv:2502.20678

#3788

STPro: Spatial and Temporal Progressive Learning for Weakly Supervised Spatio-Temporal Grounding

Aaryan Garg, Akash Kumar, Yogesh S. Rawat

#3789

Dynamic-Width Speculative Beam Decoding for LLM Inference

Zongyue Qin, Zifan He, Neha Prakriya et al.

NEURIPS 2025arXiv:2505.17373

#3790

Value-Guided Search for Efficient Chain-of-Thought Reasoning

Kaiwen Wang, Jin Zhou, Jonathan Chang et al.

NEURIPS 2025arXiv:2510.05520

#3791

CAM: A Constructivist View of Agentic Memory for LLM-Based Reading Comprehension

Rui Li, Zeyu Zhang, Xiaohe Bo et al.

#3792

NOVA: A Benchmark for Rare Anomaly Localization and Clinical Reasoning in Brain MRI

Cosmin Bercea, Jun Li, Philipp Raffler et al.

NEURIPS 2025oral

AAAI 2025paperarXiv:2401.17809

#3793

SWEA: Updating Factual Knowledge in Large Language Models via Subject Word Embedding Altering

Xiaopeng Li, Shasha Li, Shezheng Song et al.

ICLR 2025arXiv:2406.04046

#3794

ActionReasoningBench: Reasoning about Actions with and without Ramification Constraints

Divij Handa, Pavel Dolin, Shrinidhi Kumbhar et al.

CVPR 2025arXiv:2412.09680

#3795

PBR-NeRF: Inverse Rendering with Physics-Based Neural Fields

Sean Wu, Shamik Basu, Tim Broedermann et al.

ICCV 2025arXiv:2502.03207

#3796

MotionAgent: Fine-grained Controllable Video Generation via Motion Field Agent

Xinyao Liao, Xianfang Zeng, Liao Wang et al.

AAAI 2025paperarXiv:2501.14300

#3797

Fast Think-on-Graph: Wider, Deeper and Faster Reasoning of Large Language Model on Knowledge Graph

Xujian Liang, Zhaoquan Gu

CVPR 2025arXiv:2504.02451

#3798

ConMo: Controllable Motion Disentanglement and Recomposition for Zero-Shot Motion Transfer

Jiayi Gao, Zijin Yin, Changcheng Hua et al.

NEURIPS 2025oralarXiv:2506.09518

#3799

HAIF-GS: Hierarchical and Induced Flow-Guided Gaussian Splatting for Dynamic Scene

Jianing Chen, Zehao Li, Yujun Cai et al.

ICLR 2025arXiv:2504.16855

#3800

Monte Carlo Planning with Large Language Model for Text-Based Game Agents

Zijing Shi, Meng Fang, Ling Chen