Most Cited 2025 &quot;causal perspective&quot; Papers

NEURIPS 2025posterarXiv:2505.11197

#3802

Modeling Cell Dynamics and Interactions with Unbalanced Mean Field Schrödinger Bridge

Zhenyi Zhang, Zihan Wang, Yuhao Sun et al.

AAAI 2025paperarXiv:2501.08001

#3803

GDiffRetro: Retrosynthesis Prediction with Dual Graph Enhanced Molecular Representation and Diffusion Generation

Shengyin Sun, Wenhao Yu, Yuxiang Ren et al.

CVPR 2025posterarXiv:2502.18290

#3804

Stealthy Backdoor Attack in Self-Supervised Learning Vision Encoders for Large Vision Language Models

Zhaoyi Liu, Huan Zhang

ICML 2025posterarXiv:2410.22330

#3805

Vision-Language Models Create Cross-Modal Task Representations

Grace Luo, Trevor Darrell, Amir Bar

NEURIPS 2025oralarXiv:2502.20432

#3806

LLM Strategic Reasoning: Agentic Study through Behavioral Game Theory

Jingru Jia, Zehua Yuan, Junhao Pan et al.

NEURIPS 2025spotlightarXiv:2504.04072

#3807

Among Us: A Sandbox for Measuring and Detecting Agentic Deception

Satvik Golechha, Adrià Garriga-Alonso

AAAI 2025paperarXiv:2501.12799

#3808

Int2Planner: An Intention-based Multi-modal Motion Planner for Integrated Prediction and Planning

Xiaolei Chen, Junchi Yan, Wenlong Liao et al.

ICML 2025posterarXiv:2412.01493

#3809

Learning Adaptive Lighting via Channel-Aware Guidance

Qirui Yang, Peng-Tao Jiang, Hao Zhang et al.

ICLR 2025posterarXiv:2410.03478

#3810

VEDIT: Latent Prediction Architecture For Procedural Video Representation Learning

Han Lin, Tushar Nagarajan, Nicolas Ballas et al.

ICML 2025posterarXiv:2502.02789

#3811

Speculative Prefill: Turbocharging TTFT with Lightweight and Training-Free Token Importance Estimation

Jingyu Liu, Beidi Chen, Ce Zhang

CVPR 2025posterarXiv:2412.04470

#3812

Turbo3D: Ultra-fast Text-to-3D Generation

Hanzhe Hu, Tianwei Yin, Fujun Luan et al.

ICLR 2025posterarXiv:2501.14038

#3813

Implicit Neural Surface Deformation with Explicit Velocity Fields

Lu Sang, Zehranaz Canfes, Dongliang Cao et al.

#3814

SSL-STMFormer Self-Supervised Learning Spatio-Temporal Entanglement Transformer for Traffic Flow Prediction

Zetao Li, Zheng Hu, Peng Han et al.

ICML 2025posterarXiv:2506.12822

#3815

Enhancing Rating-Based Reinforcement Learning to Effectively Leverage Feedback from Large Vision-Language Models

Minh-Tung Luu, Younghwan Lee, Donghoon Lee et al.

NEURIPS 2025posterarXiv:2507.19060

#3816

PurpCode: Reasoning for Safer Code Generation

Jiawei Liu, Nirav Diwan, Zhe Wang et al.

ICCV 2025highlightarXiv:2506.23639

#3817

Unified Multimodal Understanding via Byte-Pair Visual Encoding

Wanpeng Zhang, Yicheng Feng, Hao Luo et al.

CVPR 2025posterarXiv:2503.04639

#3818

Enhancing SAM with Efficient Prompting and Preference Optimization for Semi-supervised Medical Image Segmentation

Aishik Konwer, Zhijian Yang, Erhan Bas et al.

ICLR 2025posterarXiv:2406.03068

#3819

Distributional Associations vs In-Context Reasoning: A Study of Feed-forward and Attention Layers

Lei Chen, Joan Bruna, Alberto Bietti

ICLR 2025posterarXiv:2502.19009

#3820

Distilling Reinforcement Learning Algorithms for In-Context Model-Based Planning

Jaehyeon Son, Soochan Lee, Gunhee Kim

NEURIPS 2025posterarXiv:2506.14852

#3821

Agentic Plan Caching: Test-Time Memory for Fast and Cost-Efficient LLM Agents

Qizheng Zhang, Michael Wornow, Kunle Olukotun

ICLR 2025posterarXiv:2503.00703

#3822

Towards hyperparameter-free optimization with differential privacy

Ruixuan Liu, Zhiqi Bu

NEURIPS 2025posterarXiv:2506.21356

#3823

ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models

Hongbo Liu, Jingwen He, Yi Jin et al.

NEURIPS 2025posterarXiv:2502.02421

#3824

Activation-Informed Merging of Large Language Models

Amin Heyrani Nobari, Kaveh Alimohammadi, Ali ArjomandBigdeli et al.

AAAI 2025paperarXiv:2408.08578

#3825

TAMER: Tree-Aware Transformer for Handwritten Mathematical Expression Recognition

Jianhua Zhu, Wenqi Zhao, Yu Li et al.

ICLR 2025posterarXiv:2411.04130

#3826

ShEPhERD: Diffusing shape, electrostatics, and pharmacophores for bioisosteric drug design

Keir Adams, Kento Abeywardane, Jenna Fromer et al.

ICLR 2025posterarXiv:2410.17174

#3827

From Attention to Activation: Unraveling the Enigmas of Large Language Models

Prannay Kaul, Chengcheng Ma, Ismail Elezi et al.

#3828

DoF: A Diffusion Factorization Framework for Offline Multi-Agent Reinforcement Learning

Chao Li, Ziwei Deng, Chenxing Lin et al.

ICCV 2025posterarXiv:2508.05038

#3829

HAMoBE: Hierarchical and Adaptive Mixture of Biometric Experts for Video-based Person ReID

Yiyang Su, Yunping Shi, Feng Liu et al.

CVPR 2025highlightarXiv:2503.07635

#3830

Cross-modal Causal Relation Alignment for Video Question Grounding

weixing chen, Yang Liu, Binglin Chen et al.

CVPR 2025posterarXiv:2504.06120

#3831

Hyperbolic Category Discovery

Yuanpei Liu, Zhenqi He, Kai Han

AAAI 2025paperarXiv:2411.06920

#3832

Safe Planner: Empowering Safety Awareness in Large Pre-Trained Models for Robot Task Planning

Siyuan Li, Feifan Liu, Lingfei Cui et al.

NEURIPS 2025spotlightarXiv:2509.09672

#3833

Locality in Image Diffusion Models Emerges from Data Statistics

Artem Lukoianov, Chenyang Yuan, Justin Solomon et al.

ICML 2025posterarXiv:2408.09121

#3834

Selective Prompt Anchoring for Code Generation

Yuan Tian, Tianyi Zhang

AAAI 2025paperarXiv:2412.20657

#3835

DiffGrasp: Whole-Body Grasping Synthesis Guided by Object Motion Using a Diffusion Model

Yonghao Zhang, Qiang He, Yanguang Wan et al.

ICCV 2025posterarXiv:2504.10414

#3836

HUMOTO: A 4D Dataset of Mocap Human Object Interactions

Jiaxin Lu, Chun-Hao Huang, Uttaran Bhattacharya et al.

NEURIPS 2025posterarXiv:2506.09050

#3837

ALE-Bench: A Benchmark for Long-Horizon Objective-Driven Algorithm Engineering

Yuki Imajuku, Kohki Horie, Yoichi Iwata et al.

CVPR 2025posterarXiv:2503.06621

#3838

Dynamic Updates for Language Adaptation in Visual-Language Tracking

Xiaohai Li, Bineng Zhong, Qihua Liang et al.

#3839

GPS: A Probabilistic Distributional Similarity with Gumbel Priors for Set-to-Set Matching

Ziming Zhang, Fangzhou Lin, Haotian Liu et al.

ICLR 2025oral

CVPR 2025posterarXiv:2503.18513

#3840

LookCloser: Frequency-aware Radiance Field for Tiny-Detail Scene

Xiaoyu Zhang, Weihong Pan, Chong Bao et al.

CVPR 2025posterarXiv:2406.19827

#3841

Towards Stable and Storage-efficient Dataset Distillation: Matching Convexified Trajectory

Wenliang Zhong, Haoyu Tang, Qinghai Zheng et al.

CVPR 2025highlightarXiv:2503.18420

#3842

Panorama Generation From NFoV Image Done Right

Dian Zheng, Cheng Zhang, Xiao-Ming Wu et al.

ICLR 2025posterarXiv:2412.03161

#3843

Physics-Informed Deep Inverse Operator Networks for Solving PDE Inverse Problems

Sung Woong Cho, Hwijae Son

CVPR 2025posterarXiv:2502.20249

#3844

Enhancing 3D Gaze Estimation in the Wild using Weak Supervision with Gaze Following Labels

Pierre Vuillecard, Jean-marc Odobez

ICLR 2025posterarXiv:2412.14301

#3845

What Has Been Overlooked in Contrastive Source-Free Domain Adaptation: Leveraging Source-Informed Latent Augmentation within Neighborhood Context

JING WANG, Wonho Bae, Jiahong Chen et al.

ICCV 2025posterarXiv:2410.09865

#3846

SynFER: Towards Boosting Facial Expression Recognition with Synthetic Data

Xilin He, Cheng Luo, Xiaole Xian et al.

#3847

MMSearch: Unveiling the Potential of Large Models as Multi-modal Search Engines

Dongzhi Jiang, Renrui Zhang, Ziyu Guo et al.

AAAI 2025paperarXiv:2408.15461

#3848

Hand1000: Generating Realistic Hands from Text with Only 1,000 Images

Haozhuo Zhang, Bin Zhu, Yu Cao et al.

ICML 2025posterarXiv:2502.02514

#3849

Privacy Attacks on Image AutoRegressive Models

Antoni Kowalczuk, Jan Dubiński, Franziska Boenisch et al.

NEURIPS 2025spotlightarXiv:2501.04126

#3850

Stochastic Process Learning via Operator Flow Matching

Yaozhong Shi, Zachary Ross, Domniki Asimaki et al.

AAAI 2025paperarXiv:2501.11124

#3851

Rethinking Pseudo-Label Guided Learning for Weakly Supervised Temporal Action Localization from the Perspective of Noise Correction

Quan Zhang, Yuxin Qi, Xi Tang et al.

#3852

Towards Robustness and Explainability of Automatic Algorithm Selection

Xingyu Wu, Jibin Wu, Yu Zhou et al.

ICML 2025spotlight

NEURIPS 2025spotlightarXiv:2505.19350

#3853

FlashMD: long-stride, universal prediction of molecular dynamics

Filippo Bigi, Sanggyu Chong, Agustinus Kristiadi et al.

AAAI 2025paperarXiv:2409.13407

#3854

Instruction-guided Multi-Granularity Segmentation and Captioning with Large Multimodal Model

Xu Yuan, Li Zhou, Zenghui Sun et al.

NEURIPS 2025posterarXiv:2510.20661

#3855

UltraHR-100K: Enhancing UHR Image Synthesis with A Large-Scale High-Quality Dataset

Chen Zhao, En Ci, Yunzhe Xu et al.

ICML 2025spotlightarXiv:2412.09729

#3856

Doubly Robust Conformalized Survival Analysis with Right-Censored Data

Matteo Sesia, vladimir svetnik

AAAI 2025paperarXiv:2412.11634

#3857

Predicting the Original Appearance of Damaged Historical Documents

Zhenhua Yang, Dezhi Peng, Yongxin Shi et al.

CVPR 2025posterarXiv:2412.17630

#3858

Detail-Preserving Latent Diffusion for Stable Shadow Removal

Jiamin Xu, Yuxin Zheng, Zelong Li et al.

NEURIPS 2025posterarXiv:2505.18781

#3859

Geometry Aware Operator Transformer as an efficient and accurate neural surrogate for PDEs on arbitrary domains

Shizheng Wen, Arsh Kumbhat, Levi Lingsch et al.

NEURIPS 2025posterarXiv:2506.11136

#3860

JAFAR: Jack up Any Feature at Any Resolution

Paul Couairon, Loïck Chambon, Louis Serrano et al.

AAAI 2025paperarXiv:2406.00346

#3861

Details Enhancement in Unsigned Distance Field Learning for High-fidelity 3D Surface Reconstruction

Cheng Xu, Fei Hou, Wencheng Wang et al.

#3862

DanceFix: An Exploration in Group Dance Neatness Assessment Through Fixing Abnormal Challenges of Human Pose

Huangbiao Xu, Xiao Ke, Huanqi Wu et al.

NEURIPS 2025posterarXiv:2505.18809

#3863

VORTA: Efficient Video Diffusion via Routing Sparse Attention

Wenhao Sun, Rong-Cheng Tu, Yifu Ding et al.

NEURIPS 2025posterarXiv:2507.06920

#3864

Rethinking Verification for LLM Code Generation: From Generation to Testing

Zihan Ma, Taolin Zhang, Maosongcao et al.

CVPR 2025posterarXiv:2409.06214

#3865

Towards Generalizable Scene Change Detection

Jae-Woo KIM, Ue-Hwan Kim

ICLR 2025posterarXiv:2405.19230

#3866

Valid Conformal Prediction for Dynamic GNNs

Ed Davis, Ian Gallagher, Daniel Lawson et al.

CVPR 2025posterarXiv:2505.06166

#3867

DiffLocks: Generating 3D Hair from a Single Image using Diffusion Models

Radu Alexandru Rosu, Keyu Wu, Yao Feng et al.

CVPR 2025posterarXiv:2503.01725

#3868

HarmonySet: A Comprehensive Dataset for Understanding Video-Music Semantic Alignment and Temporal Synchronization

Zitang Zhou, Ke Mei, Yu Lu et al.

ICCV 2025posterarXiv:2507.20519

#3869

AgroBench: Vision-Language Model Benchmark in Agriculture

Risa Shinoda, Nakamasa Inoue, Hirokatsu Kataoka et al.

CVPR 2025posterarXiv:2412.02071

#3870

Progress-Aware Video Frame Captioning

Zihui Xue, Joungbin An, Xitong Yang et al.

ICCV 2025posterarXiv:2411.16072

#3871

Language Driven Occupancy Prediction

Zhu Yu, Bowen Pang, Lizhe Liu et al.

ICLR 2025posterarXiv:2407.07356

#3872

Video In-context Learning: Autoregressive Transformers are Zero-Shot Video Imitators

Wentao Zhang, Junliang Guo, Tianyu He et al.

ICLR 2025posterarXiv:2403.14715

#3873

Towards Understanding Why Label Smoothing Degrades Selective Classification and How to Fix It

Guoxuan Xia, Olivier Laurent, Gianni Franchi et al.

NEURIPS 2025posterarXiv:2502.16816

#3874

Finite-Sample Analysis of Policy Evaluation for Robust Average Reward Reinforcement Learning

Yang Xu, Washim Mondal, Vaneet Aggarwal

ICCV 2025posterarXiv:2412.11258

#3875

GaussianProperty: Integrating Physical Properties to 3D Gaussians with LMMs

Xinli Xu, Wenhang Ge, Dicong Qiu et al.

NEURIPS 2025spotlightarXiv:2502.01826

#3876

GSRF: Complex-Valued 3D Gaussian Splatting for Efficient Radio-Frequency Data Synthesis

Kang Yang, Gaofeng Dong, Sijie Ji et al.

AAAI 2025paperarXiv:2407.01081

#3877

CVLUE: A New Benchmark Dataset for Chinese Vision-Language Understanding Evaluation

Yuxuan Wang, Yijun Liu, Fei Yu et al.

CVPR 2025posterarXiv:2503.24210

#3878

DiET-GS: Diffusion Prior and Event Stream-Assisted Motion Deblurring 3D Gaussian Splatting

Seungjun Lee, Gim Hee Lee

CVPR 2025highlightarXiv:2505.24315

#3879

InteractAnything: Zero-shot Human Object Interaction Synthesis via LLM Feedback and Object Affordance Parsing

Jinlu Zhang, Yixin Chen, Zan Wang et al.

#3880

SMT: Fine-Tuning Large Language Models with Sparse Matrices

Haoze He, Juncheng Li, Xuan Jiang et al.

CVPR 2025highlightarXiv:2502.20162

#3881

Gradient-Guided Annealing for Domain Generalization

Aristotelis Ballas, Christos Diou

CVPR 2025highlightarXiv:2503.04919

#3882

FirePlace: Geometric Refinements of LLM Common Sense Reasoning for 3D Object Placement

Ian Huang, Yanan Bao, Karen Truong et al.

#3883

UniCoTT: A Unified Framework for Structural Chain-of-Thought Distillation

Xianwei Zhuang, Zhihong Zhu, Zhichang Wang et al.

ICML 2025spotlightarXiv:2505.24445

#3884

Learning Safety Constraints for Large Language Models

Xin Chen, Yarden As, Andreas Krause

ICCV 2025highlightarXiv:2507.07424

#3885

Corvid: Improving Multimodal Large Language Models Towards Chain-of-Thought Reasoning

Jingjing Jiang, Chao Ma, Xurui Song et al.

NEURIPS 2025posterarXiv:2506.15838

#3886

EchoShot: Multi-Shot Portrait Video Generation

Jiahao Wang, Hualian Sheng, Sijia Cai et al.

AAAI 2025paperarXiv:2412.14576

#3887

Alignment-Free RGB-T Salient Object Detection: A Large-Scale Dataset and Progressive Correlation Network

Kunpeng Wang, Keke Chen, Chenglong Li et al.

AAAI 2025paperarXiv:2407.09774

#3888

ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context

Sixiao Zheng, Yanwei Fu

ICLR 2025posterarXiv:2405.12519

#3889

MAGE: Model-Level Graph Neural Networks Explanations via Motif-based Graph Generation

Zhaoning Yu, Hongyang Gao

ICCV 2025posterarXiv:2508.02293

#3890

Towards Real Unsupervised Anomaly Detection Via Confident Meta-Learning

Muhammad Aqeel, Shakiba Sharifi, Marco Cristani et al.

#3891

Effective and Efficient Time-Varying Counterfactual Prediction with State-Space Models

Haotian Wang, Haoxuan Li, Hao Zou et al.

CVPR 2025posterarXiv:2411.11909

#3892

SymDPO: Boosting In-Context Learning of Large Multimodal Models with Symbol Demonstration Direct Preference Optimization

Hongrui Jia, Chaoya Jiang, Haiyang Xu et al.

ICLR 2025oralarXiv:2509.18627

#3893

BRAID: Input-driven Nonlinear Dynamical Modeling of Neural-Behavioral Data

Parsa Vahidi, Omid G. Sani, Maryam Shanechi

NEURIPS 2025posterarXiv:2502.16671

#3894

MimeQA: Towards Socially-Intelligent Nonverbal Foundation Models

Hengzhi Li, Megan Tjandrasuwita, Yi R. (May) Fung et al.

NEURIPS 2025posterarXiv:2410.13903

#3895

CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment

Qinfeng Li, Tianyue Luo, Xuhong Zhang et al.

ICML 2025posterarXiv:2410.05078

#3896

Compression via Pre-trained Transformers: A Study on Byte-Level Multimodal Data

David Heurtel-Depeiges, Anian Ruoss, Joel Veness et al.

NEURIPS 2025posterarXiv:2506.01480

#3897

Janus-Pro-R1: Advancing Collaborative Visual Comprehension and Generation via Reinforcement Learning

Kaihang Pan, Yang Wu, Wendong Bu et al.

AAAI 2025paperarXiv:2404.18598

#3898

Anywhere: A Multi-Agent Framework for User-Guided, Reliable, and Diverse Foreground-Conditioned Image Generation

Xie Tianyidan, Rui Ma, Qian Wang et al.

ICLR 2025posterarXiv:2501.04304

#3899

DGQ: Distribution-Aware Group Quantization for Text-to-Image Diffusion Models

Hyogon Ryu, NaHyeon Park, Hyunjung Shim

ICLR 2025posterarXiv:2405.17035

#3900

Glauber Generative Model: Discrete Diffusion Models via Binary Classification

Harshit Varma, Dheeraj Nagaraj, Karthikeyan Shanmugam

ICML 2025oralarXiv:2503.14378

#3901

Impossible Videos

Zechen Bai, Hai Ci, Mike Zheng Shou

CVPR 2025posterarXiv:2503.01291

#3902

SemGeoMo: Dynamic Contextual Human Motion Generation with Semantic and Geometric Guidance

Peishan Cong, Ziyi Wang, Yuexin Ma et al.

CVPR 2025posterarXiv:2411.18552

#3903

FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable Diffusion

Haosen Yang, Adrian Bulat, Isma Hadji et al.

ICCV 2025posterarXiv:2503.12897

#3904

Federated Continual Instruction Tuning

Haiyang Guo, Fanhu Zeng, Fei Zhu et al.

AAAI 2025paperarXiv:2412.15650

#3905

Beyond Human Data: Aligning Multimodal Large Language Models by Iterative Self-Evolution

Wentao Tan, Qiong Cao, Yibing Zhan et al.

ICLR 2025posterarXiv:2501.15878

#3906

Slot-Guided Adaptation of Pre-trained Diffusion Models for Object-Centric Learning and Compositional Generation

adil kaan akan, Yucel Yemez

AAAI 2025paperarXiv:2502.02438

#3907

Medical Multimodal Model Stealing Attacks via Adversarial Domain Alignment

Yaling Shen, Zhixiong Zhuang, Kun Yuan et al.

NEURIPS 2025posterarXiv:2406.01899

#3908

Cross-Domain Graph Data Scaling: A Showcase with Diffusion Models

Wenzhuo Tang, Haitao Mao, Danial Dervovic et al.

ICLR 2025posterarXiv:2410.18538

#3909

SMITE: Segment Me In TimE

Amirhossein Alimohammadi, Sauradip Nag, Saeid Asgari et al.

ICML 2025posterarXiv:2501.18537

#3910

Loss Functions and Operators Generated by f-Divergences

Vincent Roulet, Tianlin Liu, Nino Vieillard et al.

NEURIPS 2025posterarXiv:2506.15691

#3911

What Do Latent Action Models Actually Learn?

Chuheng Zhang, Tim Pearce, Pushi Zhang et al.

CVPR 2025posterarXiv:2408.17135

#3912

TIMotion: Temporal and Interactive Framework for Efficient Human-Human Motion Generation

Yabiao Wang, Shuo Wang, Jiangning Zhang et al.

ICML 2025oralarXiv:2411.05712

#3913

Scaling Laws for Task-Optimized Models of the Primate Visual Ventral Stream

Abdulkadir Gokce, Martin Schrimpf

ICML 2025posterarXiv:2504.07165

#3914

Perception in Reflection

Yana Wei, Liang Zhao, Kangheng Lin et al.

ICML 2025oralarXiv:2502.02450

#3915

Robust and Conjugate Spatio-Temporal Gaussian Processes

William Laplante, Matias Altamirano, Andrew Duncan et al.

CVPR 2025posterarXiv:2509.09555

#3916

InterAct: Advancing Large-Scale Versatile 3D Human-Object Interaction Generation

Sirui Xu, Dongting Li, Yucheng Zhang et al.

NEURIPS 2025posterarXiv:2505.15152

#3917

Sculpting Features from Noise: Reward-Guided Hierarchical Diffusion for Task-Optimal Feature Transformation

Nanxu Gong, Zijun Li, Sixun Dong et al.

NEURIPS 2025spotlightarXiv:2502.08202

#3918

Privacy amplification by random allocation

Moshe Shenfeld, Vitaly Feldman

AAAI 2025paperarXiv:2412.07160

#3919

Motion-aware Contrastive Learning for Temporal Panoptic Scene Graph Generation

Thong Thanh Nguyen, Xiaobao Wu, Yi Bin et al.

ICCV 2025posterarXiv:2506.23563

#3920

MMReason: An Open-Ended Multi-Modal Multi-Step Reasoning Benchmark for MLLMs Toward AGI

Huanjin Yao, Jiaxing Huang, Yawen Qiu et al.

CVPR 2025posterarXiv:2502.20678

#3921

STPro: Spatial and Temporal Progressive Learning for Weakly Supervised Spatio-Temporal Grounding

Aaryan Garg, Akash Kumar, Yogesh S. Rawat

AAAI 2025paperarXiv:2412.10178

#3922

SwiftTry: Fast and Consistent Video Virtual Try-On with Diffusion Models

Hung Nguyen, Quang Qui-Vinh Nguyen, Khoi Nguyen et al.

ICML 2025posterarXiv:2411.07591

#3923

Overcoming the Curse of Dimensionality in Reinforcement Learning Through Approximate Factorization

Chenbei Lu, Laixi Shi, Zaiwei Chen et al.

AAAI 2025paperarXiv:2409.18401

#3924

GenesisTex2: Stable, Consistent and High-Quality Text-to-Texture Generation

Jiawei Lu, YingPeng Zhang, Zengjun Zhao et al.

AAAI 2025paperarXiv:2412.10159

#3925

Arbitrary Reading Order Scene Text Spotter with Local Semantics Guidance

Jiahao Lyu, Wei Wang, Dongbao Yang et al.

ICML 2025posterarXiv:2503.16322

#3926

Ultra-Resolution Adaptation with Ease

Ruonan Yu, Songhua Liu, Zhenxiong Tan et al.

ICLR 2025posterarXiv:2410.02749

#3927

Training Language Models on Synthetic Edit Sequences Improves Code Synthesis

Ulyana Piterbarg, Lerrel Pinto, Rob Fergus

NEURIPS 2025oralarXiv:2409.14500

#3928

GraphLand: Evaluating Graph Machine Learning Models on Diverse Industrial Data

Gleb Bazhenov, Oleg Platonov, Liudmila Prokhorenkova

CVPR 2025posterarXiv:2412.09680

#3929

PBR-NeRF: Inverse Rendering with Physics-Based Neural Fields

Sean Wu, Shamik Basu, Tim Broedermann et al.

#3930

Neighborhood Self-Dissimilarity Attention for Medical Image Segmentation

Junren Chen, Rui Chen, Wei Wang et al.

NEURIPS 2025poster

ICLR 2025posterarXiv:2310.11211

#3931

Understanding Fairness Surrogate Functions in Algorithmic Fairness

Yong Liu, (Andrew) Zhanke Zhou, Zhicong Li et al.

CVPR 2025posterarXiv:2504.02451

#3932

ConMo: Controllable Motion Disentanglement and Recomposition for Zero-Shot Motion Transfer

Jiayi Gao, Zijin Yin, Changcheng Hua et al.

NEURIPS 2025posterarXiv:2503.05965

#3933

Validating LLM-as-a-Judge Systems under Rating Indeterminacy

Luke Guerdan, Solon Barocas, Kenneth Holstein et al.

ICLR 2025posterarXiv:2410.05050

#3934

FreSh: Frequency Shifting for Accelerated Neural Representation Learning

Adam Kania, Marko Mihajlovic, Sergey Prokudin et al.

ICML 2025posterarXiv:2502.07587

#3935

SEMU: Singular Value Decomposition for Efficient Machine Unlearning

Marcin Sendera, Łukasz Struski, Kamil Książek et al.

ICLR 2025posterarXiv:2404.02157

#3936

Segment Any 3D Object with Language

Seungjun Lee, Yuyang Zhao, Gim H Lee

#3937

Robust Multimodal Survival Prediction with Conditional Latent Differentiation Variational AutoEncoder

Junjie Zhou, Jiao Tang, Yingli Zuo et al.

CVPR 2025poster

ICML 2025posterarXiv:2410.18076

#3938

Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration

Max Wilcoxson, Qiyang Li, Kevin Frans et al.

ICLR 2025posterarXiv:2411.03753

#3939

Symbolic regression via MDLformer-guided search: from minimizing prediction error to minimizing description length

Zihan Yu, Jingtao Ding, Yong Li et al.

CVPR 2025posterarXiv:2505.04270

#3940

Object-Shot Enhanced Grounding Network for Egocentric Video

Yisen Feng, Haoyu Zhang, Meng Liu et al.

NEURIPS 2025spotlightarXiv:2506.03642

#3941

Spatial Understanding from Videos: Structured Prompts Meet Simulation Data

Haoyu Zhang, Meng Liu, Zaijing Li et al.

NEURIPS 2025posterarXiv:2505.18962

#3942

System-1.5 Reasoning: Traversal in Language and Latent Spaces with Dynamic Shortcuts

Xiaoqiang Wang, Suyuchen Wang, Yun Zhu et al.

ICCV 2025posterarXiv:2507.21391

#3943

Multimodal LLMs as Customized Reward Models for Text-to-Image Generation

Shijie Zhou, Ruiyi Zhang, Huaisheng Zhu et al.

AAAI 2025paperarXiv:2409.04053

#3944

COLUMBUS: Evaluating COgnitive Lateral Understanding Through Multiple-Choice reBUSes

Koen Kraaijveld, Yifan Jiang, Kaixin Ma et al.

CVPR 2025highlightarXiv:2412.01027

#3945

Unleashing In-context Learning of Autoregressive Models for Few-shot Image Manipulation

Bolin Lai, Felix Juefei-Xu, Miao Liu et al.

ICML 2025posterarXiv:2411.17284

#3946

AutoElicit: Using Large Language Models for Expert Prior Elicitation in Predictive Modelling

Alexander Capstick, Rahul G. Krishnan, Payam Barnaghi

CVPR 2025posterarXiv:2412.01814

#3947

COSMOS: Cross-Modality Self-Distillation for Vision Language Pre-training

Sanghwan Kim, Rui Xiao, Iuliana Georgescu et al.

ICLR 2025posterarXiv:2412.05994

#3948

PIG: Physics-Informed Gaussians as Adaptive Parametric Mesh Representations

Namgyu Kang, Jaemin Oh, Youngjoon Hong et al.

ICCV 2025posterarXiv:2502.03207

#3949

MotionAgent: Fine-grained Controllable Video Generation via Motion Field Agent

Xinyao Liao, Xianfang Zeng, Liao Wang et al.

CVPR 2025posterarXiv:2412.00719

#3950

Synergizing Motion and Appearance: Multi-Scale Compensatory Codebooks for Talking Head Video Generation

Shuling Zhao, Fa-Ting Hong, Xiaoshui Huang et al.

ICML 2025spotlightarXiv:2507.07544

#3951

Position: We Need An Algorithmic Understanding of Generative AI

Oliver Eberle, Thomas McGee, Hamza Giaffar et al.

ICCV 2025posterarXiv:2503.06235

#3952

StreamGS: Online Generalizable Gaussian Splatting Reconstruction for Unposed Image Streams

Yang LI, Jinglu Wang, Lei Chu et al.

CVPR 2025highlightarXiv:2412.16212

#3953

ManiVideo: Generating Hand-Object Manipulation Video with Dexterous and Generalizable Grasping

Youxin Pang, Ruizhi Shao, Jiajun Zhang et al.

ICLR 2025posterarXiv:2408.16115

#3954

Uncertainty Modeling in Graph Neural Networks via Stochastic Differential Equations

Richard Bergna, Sergio Calvo Ordoñez, Felix Opolka et al.

#3955

ESE: Espresso Sentence Embeddings

Xianming Li, Zongxi Li, Jing Li et al.

ICLR 2025posterarXiv:2409.16197

#3956

Second Order Bounds for Contextual Bandits with Function Approximation

Aldo Pacchiano

ICML 2025oralarXiv:2504.19496

#3957

DISCO: learning to DISCover an evolution Operator for multi-physics-agnostic prediction

Rudy Morel, Jiequn Han, Edouard Oyallon

ICLR 2025posterarXiv:2410.01912

#3958

A Spark of Vision-Language Intelligence: 2-Dimensional Autoregressive Transformer for Efficient Finegrained Image Generation

Liang Chen, Sinan Tan, Zefan Cai et al.

#3959

TruthPrInt: Mitigating Large Vision-Language Models Object Hallucination Via Latent Truthful-Guided Pre-Intervention

Jinhao Duan, Fei Kong, Hao Cheng et al.

ICCV 2025poster

CVPR 2025posterarXiv:2503.06457

#3960

Geometric Knowledge-Guided Localized Global Distribution Alignment for Federated Learning

Yanbiao Ma, Wei Dai, Wenke Huang et al.

#3961

HQGS: High-Quality Novel View Synthesis with Gaussian Splatting in Degraded Scenes

Xin Lin, Shi Luo, Xiaojun Shan et al.

#3962

M3amba: Memory Mamba is All You Need for Whole Slide Image Classification

Tingting Zheng, Kui Jiang, Yi Xiao et al.

CVPR 2025poster

NEURIPS 2025oralarXiv:2509.25040

#3963

A multiscale analysis of mean-field transformers in the moderate interaction regime

Giuseppe Bruno, Federico Pasqualotto, Andrea Agazzi

ICCV 2025posterarXiv:2411.15472

#3964

KinMo: Kinematic-aware Human Motion Understanding and Generation

Pengfei Zhang, Pinxin Liu, Pablo Garrido et al.

ICCV 2025posterarXiv:2502.01639

#3965

SliderSpace: Decomposing the Visual Capabilities of Diffusion Models

Rohit Gandikota, Zongze Wu, Richard Zhang et al.

ICML 2025spotlightarXiv:2407.11784

#3966

Data-Juicer Sandbox: A Feedback-Driven Suite for Multimodal Data-Model Co-development

Daoyuan Chen, Haibin Wang, Yilun Huang et al.

AAAI 2025paperarXiv:2501.01125

#3967

DuMo: Dual Encoder Modulation Network for Precise Concept Erasure

Feng Han, Kai Chen, Chao Gong et al.

CVPR 2025posterarXiv:2501.04336

#3968

Building a Mind Palace: Structuring Environment-Grounded Semantic Graphs for Effective Long Video Analysis with LLMs

Zeyi Huang, Yuyang Ji, Xiaofang Wang et al.

ICLR 2025posterarXiv:2405.17816

#3969

Pursuing Feature Separation based on Neural Collapse for Out-of-Distribution Detection

Yingwen Wu, Ruiji Yu, Xinwen Cheng et al.

#3970

Doubly Contrastive Learning for Source-Free Domain Adaptive Person Search

Yizhen Jia, Rong Quan, Yue Feng et al.

CVPR 2025posterarXiv:2503.01463

#3971

MI-DETR: An Object Detection Model with Multi-time Inquiries Mechanism

Zhixiong Nan, Xianghong Li, Tao Xiang et al.

CVPR 2025posterarXiv:2503.13214

#3972

A General Adaptive Dual-level Weighting Mechanism for Remote Sensing Pansharpening

Jie Huang, Haorui Chen, Jiaxuan Ren et al.

NEURIPS 2025spotlightarXiv:2504.15473

#3973

Emergence and Evolution of Interpretable Concepts in Diffusion Models

Berk Tinaz, Zalan Fabian, Mahdi Soltanolkotabi

AAAI 2025paperarXiv:2412.11210

#3974

ViPOcc: Leveraging Visual Priors from Vision Foundation Models for Single-View 3D Occupancy Prediction

Yi Feng, Yu Han, Xijing Zhang et al.

NEURIPS 2025posterarXiv:2502.19110

#3975

Conformal Linguistic Calibration: Trading-off between Factuality and Specificity

Zhengping Jiang, Anqi Liu, Ben Van Durme

ICML 2025posterarXiv:2506.05774

#3976

Evaluating Neuron Explanations: A Unified Framework with Sanity Checks

Tuomas Oikarinen, Ge Yan, Lily Weng

ICLR 2025posterarXiv:2402.04355

#3977

PQMass: Probabilistic Assessment of the Quality of Generative Models using Probability Mass Estimation

Pablo Lemos, Sammy Sharief, Nikolay Malkin et al.

ICLR 2025posterarXiv:2412.01036

#3978

Generating Freeform Endoskeletal Robots

Muhan Li, Lingji Kong, Sam Kriegman

#3979

AVF-MAE++: Scaling Affective Video Facial Masked Autoencoders via Efficient Audio-Visual Self-Supervised Learning

Xuecheng Wu, Heli Sun, Yifan Wang et al.

CVPR 2025poster

#3980

Triples as the Key: Structuring Makes Decomposition and Verification Easier in LLM-based TableQA

Zhen Yang, Ziwei Du, Minghan Zhang et al.

ICCV 2025posterarXiv:2410.17084

#3981

GS-LIVM: Real-Time Photo-Realistic LiDAR-Inertial-Visual Mapping with Gaussian Splatting

Yusen XIE, Zhenmin Huang, Jin Wu et al.

AAAI 2025paperarXiv:2412.10488

#3982

SVGBuilder: Component-Based Colored SVG Generation with Text-Guided Autoregressive Transformers

Zehao Chen, Rong Pan

NEURIPS 2025spotlightarXiv:2502.17159

#3983

RobustMerge: Parameter-Efficient Model Merging for MLLMs with Direction Robustness

Fanhu Zeng, Haiyang Guo, Fei Zhu et al.

ICLR 2025oralarXiv:2503.17452

#3984

CausalRivers - Scaling up benchmarking of causal discovery for real-world time-series

Gideon Stein, Maha Shadaydeh, Jan Blunk et al.

NEURIPS 2025spotlightarXiv:2502.05625

#3985

Training-Free Constrained Generation With Stable Diffusion Models

Stefano Zampini, Jacob K Christopher, Luca Oneto et al.

NEURIPS 2025posterarXiv:2506.00359

#3986

Keeping an Eye on LLM Unlearning: The Hidden Risk and Remedy

Jie Ren, Zhenwei Dai, Xianfeng Tang et al.

ICLR 2025posterarXiv:2410.07916

#3987

Robustness Auditing for Linear Regression: To Singularity and Beyond

Ittai Rubinstein, Samuel Hopkins

ICML 2025posterarXiv:2501.16168

#3988

Ringmaster ASGD: The First Asynchronous SGD with Optimal Time Complexity

Artavazd Maranjyan, Alexander Tyurin, Peter Richtarik

ICLR 2025posterarXiv:2407.11306

#3989

PADRe: A Unifying Polynomial Attention Drop-in Replacement for Efficient Vision Transformer

Pierre-David Letourneau, Manish Singh, Hsin-Pai Cheng et al.

ICLR 2025posterarXiv:2502.18195

#3990

Multi-Perspective Data Augmentation for Few-shot Object Detection

Anh-Khoa Nguyen Vu, Quoc Truong Truong, Vinh-Tiep Nguyen et al.

#3991

Noisy Label Calibration for Multi-View Classification

Shilin Xu, Yuan Sun, Xingfeng Li et al.

CVPR 2025posterarXiv:2405.18840

#3992

Parameter-efficient Fine-tuning in Hyperspherical Space for Open-vocabulary Semantic Segmentation

Zelin Peng, Zhengqin Xu, Zhilin Zeng et al.

CVPR 2025posterarXiv:2412.04432

#3993

Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation

Yuying Ge, Yizhuo Li, Yixiao Ge et al.

CVPR 2025posterarXiv:2504.18032

#3994

Enhancing Privacy-Utility Trade-offs to Mitigate Memorization in Diffusion Models

Chen Chen, Daochang Liu, Mubarak Shah et al.

ICCV 2025posterarXiv:2503.10742

#3995

Keyframe-oriented Vision Token Pruning: Enhancing Efficiency of Large Vision Language Models on Long-Form Video Processing

Yudong Liu, Jingwei Sun, Yueqian Lin et al.

CVPR 2025posterarXiv:2503.16707

#3996

Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding

Jinlong Li, Cristiano Saltori, Fabio Poiesi et al.

AAAI 2025paperarXiv:2311.14265

#3997

Adaptive Calibration: A Unified Conversion Framework of Spiking Neural Networks

Ziqing Wang, Yuetong Fang, Jiahang Cao et al.

ICCV 2025posterarXiv:2507.00472

#3998

ARIG: Autoregressive Interactive Head Generation for Real-time Conversations

Ying Guo, Xi Liu, Cheng Zhen et al.

AAAI 2025paperarXiv:2407.12317

#3999

Out of Length Text Recognition with Sub-String Matching

Yongkun Du, Zhineng Chen, Caiyan Jia et al.

NEURIPS 2025posterarXiv:2510.05520

#4000

CAM: A Constructivist View of Agentic Memory for LLM-Based Reading Comprehension

Rui Li, Zeyu Zhang, Xiaohe Bo et al.