Most Cited 2025 "hierarchical joint embedding" Papers

22,274 papers found • Page 50 of 112

Filters:Most Cited 2025 hierarchical joint embedding Clear all

Conference

AAAI 2025 (3,028)COLM 2025 (418)CVPR 2025 (2,873)ICCV 2025 (2,701)ICLR 2025 (3,827)ICML 2025 (3,340)ISMAR 2025 (229)NEURIPS 2025 (5,858)AAAI 2024 (2,289)CVPR 2024 (2,716)ECCV 2024 (2,387)ICLR 2024 (2,297)ICML 2024 (2,635)

Paper Type

poster (24,624)paper (8,558)oral (1,594)spotlight (1,421)highlight (975)

#9801

SC-Captioner: Improving Image Captioning with Self-Correction by Reinforcement Learning

Lin Zhang, Xianfang Zeng, Kangcong Li et al.

ICCV 2025arXiv:2508.06125

citations

#9802

PlugMark: A Plug-in Zero-Watermarking Framework for Diffusion Models

Pengzhen Chen, Yanwei Liu, Xiaoyan Gu et al.

ICCV 2025

citations

#9803

Implicit Bias Injection Attacks against Text-to-Image Diffusion Models

Huayang Huang, Xiangye Jin, Jiaxu Miao et al.

CVPR 2025arXiv:2504.01819

citations

#9804

Zero-Shot Blind-spot Image Denoising via Implicit Neural Sampling

Yuhui Quan, Tianxiang Zheng, Zhiyuan Ma et al.

CVPR 2025

citations

#9805

Silence is Golden: Leveraging Adversarial Examples to Nullify Audio Control in LDM-based Talking-Head Generation

Yuan Gan, Jiaxu Miao, Yunze Wang et al.

CVPR 2025arXiv:2506.01591

citations

#9806

A Tale of Two Classes: Adapting Supervised Contrastive Learning to Binary Imbalanced Datasets

David Mildenberger, Paul Hager, Daniel Rueckert et al.

CVPR 2025arXiv:2503.17024

citations

#9807

CSD-VAR: Content-Style Decomposition in Visual Autoregressive Models

Quang-Binh Nguyen, Minh Luu, Quang Nguyen et al.

ICCV 2025arXiv:2507.13984

citations

#9808

VLog: Video-Language Models by Generative Retrieval of Narration Vocabulary

Kevin Qinghong Lin, Mike Zheng Shou

CVPR 2025arXiv:2503.09402

citations

#9809

Global Convergence for Average Reward Constrained MDPs with Primal-Dual Actor Critic Algorithm

Yang Xu, Swetha Ganesh, Washim Mondal et al.

NEURIPS 2025arXiv:2505.15138

citations

#9810

Efficient Preference-Based Reinforcement Learning: Randomized Exploration meets Experimental Design

Andreas Schlaginhaufen, Reda Ouhamma, Maryam Kamgarpour

NEURIPS 2025arXiv:2506.09508

citations

#9811

UNICL-SAM: Uncertainty-Driven In-Context Segmentation with Part Prototype Discovery

Dianmo Sheng, Dongdong Chen, Zhentao Tan et al.

CVPR 2025

citations

#9812

PSA-SSL: Pose and Size-aware Self-Supervised Learning on LiDAR Point Clouds

Barza Nisar, Steven L. Waslander

CVPR 2025arXiv:2503.13914

citations

#9813

ARMesh: Autoregressive Mesh Generation via Next-Level-of-Detail Prediction

Jiabao Lei, Kewei Shi, Zhihao Liang et al.

NEURIPS 2025arXiv:2509.20824

citations

#9814

Learning from positive and unlabeled examples -Finite size sample bounds

Farnam Mansouri, Shai Ben-David

NEURIPS 2025arXiv:2507.07354

citations

#9815

Accurate and Efficient Low-Rank Model Merging in Core Space

Aniello Panariello, Daniel Marczak, Simone Magistri et al.

NEURIPS 2025arXiv:2509.17786

citations

#9816

Multi-focal Conditioned Latent Diffusion for Person Image Synthesis

Jiaqi Liu, Jichao Zhang, Paolo Rota et al.

CVPR 2025arXiv:2503.15686

citations

#9817

Towards Fully FP8 GEMM LLM Training at Scale

Alejandro Hernández Cano, Dhia Garbaya, Imanol Schlag et al.

NEURIPS 2025arXiv:2505.20524

citations

#9818

Decoupling Training-Free Guided Diffusion by ADMM

Youyuan Zhang, Zehua Liu, Zenan Li et al.

CVPR 2025arXiv:2411.12773

citations

#9819

Guiding LLM Decision-Making with Fairness Reward Models

Zara Hall, Melanie Subbiah, Thomas Zollo et al.

NEURIPS 2025arXiv:2507.11344

citations

#9820

HuMoCon: Concept Discovery for Human Motion Understanding

Qihang Fang, Chengcheng Tang, Bugra Tekin et al.

CVPR 2025arXiv:2505.20920

citations

#9821

Enhancing Image Restoration Transformer via Adaptive Translation Equivariance

JiaKui Hu, Zhengjian Yao, Lujia Jin et al.

ICCV 2025arXiv:2506.18520

citations

#9822

Bridging the Gap between Gaussian Diffusion Models and Universal Quantization for Image Compression

Lucas Relic, Roberto Azevedo, Yang Zhang et al.

CVPR 2025arXiv:2504.02579

citations

#9823

GradMetaNet: An Equivariant Architecture for Learning on Gradients

Yoav Gelberg, Yam Eitan, Aviv Navon et al.

NEURIPS 2025arXiv:2507.01649

citations

#9824

UrbanCAD: Towards Highly Controllable and Photorealistic 3D Vehicles for Urban Scene Simulation

Yichong Lu, Yichi Cai, Shangzhan Zhang et al.

CVPR 2025arXiv:2411.19292

citations

#9825

DERD-Net: Learning Depth from Event-based Ray Densities

Diego de Oliveira Hitzges, Suman Ghosh, Guillermo Gallego

NEURIPS 2025spotlightarXiv:2504.15863

citations

#9826

ATLAS: Decoupling Skeletal and Shape Parameters for Expressive Parametric Human Modeling

Jinhyung Park, Javier Romero, Shunsuke Saito et al.

ICCV 2025arXiv:2508.15767

citations

#9827

Second-order Optimization under Heavy-Tailed Noise: Hessian Clipping and Sample Complexity Limits

Abdurakhmon Sadiev, Peter Richtarik, Ilyas Fatkhullin

NEURIPS 2025arXiv:2510.10690

citations

#9828

MMAIF: Multi-task and Multi-degradation All-in-One for Image Fusion with Language Guidance

Zihan Cao, Yu Zhong, Ziqi Wang et al.

ICCV 2025arXiv:2503.14944

citations

#9829

Quantifying Cross-Modality Memorization in Vision-Language Models

Yuxin Wen, Yangsibo Huang, Tom Goldstein et al.

NEURIPS 2025arXiv:2506.05198

citations

#9830

FADE: Frequency-Aware Diffusion Model Factorization for Video Editing

Yixuan Zhu, Haolin Wang, Shilin Ma et al.

CVPR 2025arXiv:2506.05934

citations

#9831

CineTechBench: A Benchmark for Cinematographic Technique Understanding and Generation

Xinran Wang, Songyu Xu, Shan Xiangxuan et al.

NEURIPS 2025arXiv:2505.15145

citations

#9832

Supervising Sound Localization by In-the-wild Egomotion

Anna Min, Ziyang Chen, Hang Zhao et al.

CVPR 2025highlight

citations

#9833

Beyond Isolated Words: Diffusion Brush for Handwritten Text-Line Generation

Gang Dai, Yifan Zhang, Yutao Qin et al.

ICCV 2025arXiv:2508.03256

citations

#9834

Towards Consistent Multi-Task Learning: Unlocking the Potential of Task-Specific Parameters

Xiaohan Qin, Xiaoxing Wang, Junchi Yan

CVPR 2025

citations

#9835

Recognition-Synergistic Scene Text Editing

Zhengyao Fang, Pengyuan Lyu, Jingjing Wu et al.

CVPR 2025arXiv:2503.08387

citations

#9836

Teaching VLMs to Localize Specific Objects from In-context Examples

Sivan Doveh, Nimrod Shabtay, Eli Schwartz et al.

ICCV 2025arXiv:2411.13317

citations

#9837

Articulated Kinematics Distillation from Video Diffusion Models

Xuan Li, Qianli Ma, Tsung-Yi Lin et al.

CVPR 2025arXiv:2504.01204

citations

#9838

A Differentiable Wave Optics Model for End-to-End Computational Imaging System Optimization

Chi-Jui Ho, Yash Belhe, Steve Rotenberg et al.

ICCV 2025arXiv:2412.09774

citations

#9839

HARDMath2: A Benchmark for Applied Mathematics Built by Students as Part of a Graduate Class

James Roggeveen, Erik Wang, David Ettel et al.

NEURIPS 2025arXiv:2505.11774

citations

#9840

SMTPD: A New Benchmark for Temporal Prediction of Social Media Popularity

Yijie Xu, Bolun Zheng, Wei Zhu et al.

CVPR 2025arXiv:2503.04446

citations

#9841

Next Semantic Scale Prediction via Hierarchical Diffusion Language Models

Cai Zhou, Chenyu Wang, Dinghuai Zhang et al.

NEURIPS 2025arXiv:2510.08632

citations

#9842

RL-RC-DoT: A Block-level RL agent for Task-Aware Video Compression

Uri Gadot, Shie Mannor, Assaf Shocher et al.

CVPR 2025arXiv:2501.12216

citations

#9843

On Large Multimodal Models as Open-World Image Classifiers

Alessandro Conti, Massimiliano Mancini, Enrico Fini et al.

ICCV 2025arXiv:2503.21851

citations

#9844

Disentangled Clothed Avatar Generation with Layered Representation

Weitian Zhang, Yichao Yan, Sijing Wu et al.

ICCV 2025highlightarXiv:2501.04631

citations

#9845

Bring Your Rear Cameras for Egocentric 3D Human Pose Estimation

HIroyasu Akada, Jian Wang, Vladislav Golyanik et al.

ICCV 2025arXiv:2503.11652

citations

#9846

Foresight in Motion: Reinforcing Trajectory Prediction with Reward Heuristics

Muleilan Pei, Shaoshuai Shi, Xuesong Chen et al.

ICCV 2025arXiv:2507.12083

citations

#9847

Stackelberg Self-Annotation: A Robust Approach to Data-Efficient LLM Alignment

Chu Xu, Zhixin Zhang, Tianyu Jia et al.

NEURIPS 2025arXiv:2502.18099

citations

#9848

SemanticDraw: Towards Real-Time Interactive Content Creation from Image Diffusion Models

Jaerin Lee, Daniel Jung, Kanggeon Lee et al.

CVPR 2025arXiv:2403.09055

citations

#9849

Efficient Parametric SVD of Koopman Operator for Stochastic Dynamical Systems

Minchan Jeong, Jongha (Jon) Ryu, Se-Young Yun et al.

NEURIPS 2025arXiv:2507.07222

citations

#9850

Bridge Frame and Event: Common Spatiotemporal Fusion for High-Dynamic Scene Optical Flow

Hanyu Zhou, Haonan Wang, Haoyue Liu et al.

CVPR 2025arXiv:2503.06992

citations

#9851

Towards Visual Discrimination and Reasoning of Real-World Physical Dynamics: Physics-Grounded Anomaly Detection

wenqiao Li, Yao Gu, Xintao Chen et al.

CVPR 2025arXiv:2503.03562

citations

#9852

Unveiling the Learning Mind of Language Models: A Cognitive Framework and Empirical Study

Zhengyu Hu, Jianxun Lian, Zheyuan Xiao et al.

NEURIPS 2025arXiv:2506.13464

citations

#9853

Hierarchical-aware Orthogonal Disentanglement Framework for Fine-grained Skeleton-based Action Recognition

Haochen Chang, Pengfei Ren, Haoyang Zhang et al.

ICCV 2025

citations

#9854

MonarchAttention: Zero-Shot Conversion to Fast, Hardware-Aware Structured Attention

Can Yaras, Alec Xu, Pierre Abillama et al.

NEURIPS 2025spotlightarXiv:2505.18698

citations

#9855

TimeExpert: An Expert-Guided Video LLM for Video Temporal Grounding

Zuhao Yang, Yingchen Yu, Yunqing Zhao et al.

ICCV 2025arXiv:2508.01699

citations

#9856

Beyond Spatial Frequency: Pixel-wise Temporal Frequency-based Deepfake Video Detection

Taehoon Kim, Jongwook Choi, Yonghyun Jeong et al.

ICCV 2025highlightarXiv:2507.02398

citations

#9857

Scene-agnostic Pose Regression for Visual Localization

Junwei Zheng, Ruiping Liu, Yufan Chen et al.

CVPR 2025arXiv:2503.19543

citations

#9858

Hierarchical Features Matter: A Deep Exploration of Progressive Parameterization Method for Dataset Distillation

Xinhao Zhong, Hao Fang, Bin Chen et al.

CVPR 2025arXiv:2406.05704

citations

#9859

Kestrel: 3D Multimodal LLM for Part-Aware Grounded Description

Mahmoud Ahmed, Junjie Fei, Jian Ding et al.

ICCV 2025arXiv:2405.18937

citations

#9860

Adaptive Frontier Exploration on Graphs with Applications to Network-Based Disease Testing

XianJun, Davin Choo, Yuqi Pan, Tonghan Wang et al.

NEURIPS 2025arXiv:2505.21671

citations

#9861

4D-Fly: Fast 4D Reconstruction from a Single Monocular Video

Diankun Wu, Fangfu Liu, Yi-Hsin Hung et al.

CVPR 2025

citations

#9862

Mixture-of-Experts Meets In-Context Reinforcement Learning

Wenhao Wu, Fuhong Liu, Haoru Li et al.

NEURIPS 2025arXiv:2506.05426

citations

#9863

Whose View of Safety? A Deep DIVE Dataset for Pluralistic Alignment of Text-to-Image Models

Charvi Rastogi, Tian Huey Teh, Pushkar Mishra et al.

NEURIPS 2025spotlightarXiv:2507.13383

citations

#9864

Trans-EnV: A Framework for Evaluating the Linguistic Robustness of LLMs Against English Varieties

Jiyoung Lee, Seungho Kim, Jieun Han et al.

NEURIPS 2025arXiv:2505.20875

citations

#9865

ControlFace: Harnessing Facial Parametric Control for Face Rigging

Wooseok Jang, Youngjun Hong, Geonho Cha et al.

CVPR 2025arXiv:2412.01160

citations

#9866

A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision

Chensheng Peng, Ido Sobol, Masayoshi Tomizuka et al.

ICCV 2025arXiv:2412.00623

citations

#9867

LOD-GS: Achieving Levels of Detail using Scalable Gaussian Soup

Jianxiong Shen, Yue Qian, Xiaohang Zhan

CVPR 2025

citations

#9868

Towards Better & Faster Autoregressive Image Generation: From the Perspective of Entropy

Xiaoxiao Ma, Feng Zhao, Pengyang Ling et al.

NEURIPS 2025arXiv:2510.09012

citations

#9869

Enhancing Diversity for Data-free Quantization

Kai Zhao, zhihao zhuang, Miao Zhang et al.

CVPR 2025

citations

#9870

CALICO: Part-Focused Semantic Co-Segmentation with Large Vision-Language Models

Kiet A. Nguyen, Adheesh Juvekar, Tianjiao Yu et al.

CVPR 2025arXiv:2412.19331

citations

#9871

$\boldsymbol{\lambda}$-Orthogonality Regularization for Compatible Representation Learning

Simone Ricci, Niccolò Biondi, Federico Pernici et al.

NEURIPS 2025

citations

#9872

Recurrent Feature Mining and Keypoint Mixup Padding for Category-Agnostic Pose Estimation

Junjie Chen, Weilong Chen, Yifan Zuo et al.

CVPR 2025arXiv:2503.21140

citations

#9873

GPO: Learning from Critical Steps to Improve LLM Reasoning

Jiahao Yu, Zelei Cheng, Xian Wu et al.

NEURIPS 2025arXiv:2509.16456

citations

#9874

Unifying Text Semantics and Graph Structures for Temporal Text-attributed Graphs with Large Language Models

Siwei Zhang, Yun Xiong, Yateng Tang et al.

NEURIPS 2025oralarXiv:2503.14411

citations

#9875

Differentiation Through Black-Box Quadratic Programming Solvers

Connor Magoon, Fengyu Yang, Noam Aigerman et al.

NEURIPS 2025arXiv:2410.06324

citations

#9876

PRVQL: Progressive Knowledge-guided Refinement for Robust Egocentric Visual Query Localization

Bing Fan, Yunhe Feng, Yapeng Tian et al.

ICCV 2025arXiv:2502.07707

citations

#9877

IllumiCraft: Unified Geometry and Illumination Diffusion for Controllable Video Generation

Yuanze Lin, Yi-Wen Chen, Yi-Hsuan Tsai et al.

NEURIPS 2025oralarXiv:2506.03150

citations

#9878

DV-Matcher: Deformation-based Non-rigid Point Cloud Matching Guided by Pre-trained Visual Features

Zhangquan Chen, Puhua Jiang, Ruqi Huang

CVPR 2025arXiv:2408.08568

citations

#9879

Anatomical Consistency and Adaptive Prior-informed Transformation for Multi-contrast MR Image Synthesis via Diffusion Model

Yejee Shin, Yeeun Lee, Hanbyol Jang et al.

CVPR 2025

citations

#9880

F-Bench: Rethinking Human Preference Evaluation Metrics for Benchmarking Face Generation, Customization, and Restoration

Lu Liu, Huiyu Duan, Qiang Hu et al.

ICCV 2025highlightarXiv:2412.13155

citations

#9881

Prototypes are Balanced Units for Efficient and Effective Partially Relevant Video Retrieval

WonJun Moon, Cheol-Ho Cho, Woojin Jun et al.

ICCV 2025arXiv:2504.13035

citations

#9882

LocalDyGS: Multi-view Global Dynamic Scene Modeling via Adaptive Local Implicit Feature Decoupling

Jiahao Wu, Rui Peng, Jianbo Jiao et al.

ICCV 2025arXiv:2507.02363

citations

#9883

Towards a Universal 3D Medical Multi-modality Generalization via Learning Personalized Invariant Representation

Zhaorui Tan, Xi Yang, Tan Pan et al.

ICCV 2025arXiv:2411.06106

citations

#9884

Seeing the Abstract: Translating the Abstract Language for Vision Language Models

Davide Talon, Federico Girella, Ziyue Liu et al.

CVPR 2025arXiv:2505.03242

citations

#9885

Adaptive Distraction: Probing LLM Contextual Robustness with Automated Tree Search

Yanbo Wang, Zixiang Xu, Yue Huang et al.

NEURIPS 2025arXiv:2502.01609

citations

#9886

A Lightweight UDF Learning Framework for 3D Reconstruction Based on Local Shape Functions

Jiangbei Hu, Yanggeng Li, Fei Hou et al.

CVPR 2025arXiv:2407.01330

citations

#9887

Born a Transformer -- Always a Transformer? On the Effect of Pretraining on Architectural Abilities

Mayank Jobanputra, Yana Veitsman, Yash Sarrof et al.

NEURIPS 2025arXiv:2505.21785

citations

#9888

MoPFormer: Motion-Primitive Transformer for Wearable-Sensor Activity Recognition

Hao Zhang, Zhan Zhuang, Xuehao Wang et al.

NEURIPS 2025oralarXiv:2505.20744

citations

#9889

Heavy Labels Out! Dataset Distillation with Label Space Lightening

Ruonan Yu, Songhua Liu, Zigeng Chen et al.

ICCV 2025arXiv:2408.08201

citations

#9890

AudCast: Audio-Driven Human Video Generation by Cascaded Diffusion Transformers

Jiazhi Guan, Kaisiyuan Wang, Zhiliang Xu et al.

CVPR 2025arXiv:2503.19824

citations

#9891

ResQ: A Novel Framework to Implement Residual Neural Networks on Analog Rydberg Atom Quantum Computers

Nicholas DiBrita, Jason Han, Tirthak Patel

ICCV 2025arXiv:2506.21537

citations

#9892

Diffusion Models and the Manifold Hypothesis: Log-Domain Smoothing is Geometry Adaptive

Tyler Farghly, Peter Potaptchik, Samuel Howard et al.

NEURIPS 2025arXiv:2510.02305

citations

#9893

Human-assisted Robotic Policy Refinement via Action Preference Optimization

Wenke Xia, Yichu Yang, Hongtao Wu et al.

NEURIPS 2025arXiv:2506.07127

citations

#9894

LangScene-X: Reconstruct Generalizable 3D Language-Embedded Scenes with TriMap Video Diffusion

Fangfu Liu, Hao Li, Jiawei Chi et al.

ICCV 2025arXiv:2507.02813

citations

#9895

RivuletMLP: An MLP-based Architecture for Efficient Compressed Video Quality Enhancement

Gang He, Weiran Wang, Guancheng Quan et al.

CVPR 2025

citations

#9896

Taming Flow Matching with Unbalanced Optimal Transport into Fast Pansharpening

Zihan Cao, Yu Zhong, Liang-Jian Deng

ICCV 2025arXiv:2503.14975

citations

#9897

Conformal Information Pursuit for Interactively Guiding Large Language Models

Kwan Ho Ryan Chan, Yuyan Ge, Edgar Dobriban et al.

NEURIPS 2025arXiv:2507.03279

citations

#9898

Offline RL by Reward-Weighted Fine-Tuning for Conversation Optimization

Subhojyoti Mukherjee, Viet Lai, Raghavendra Addanki et al.

NEURIPS 2025arXiv:2506.06964

citations

#9899

Revisiting Pool-based Prompt Learning for Few-shot Class-incremental Learning

Yongwei Jiang, Yixiong Zou, Yuhua Li et al.

ICCV 2025arXiv:2507.09183

citations

#9900

INTER: Mitigating Hallucination in Large Vision-Language Models by Interaction Guidance Sampling

Xin Dong, Shichao Dong, Jin Wang et al.

ICCV 2025arXiv:2507.05056

citations

#9901

Fair Generation without Unfair Distortions: Debiasing Text-to-Image Generation with Entanglement-Free Attention

Jeonghoon Park, Juyoung Lee, Chaeyeon Chung et al.

ICCV 2025arXiv:2506.13298

citations

#9902

Extending Foundational Monocular Depth Estimators to Fisheye Cameras with Calibration Tokens

Suchisrit Gangopadhyay, Jung Hee Kim, Xien Chen et al.

ICCV 2025arXiv:2508.04928

citations

#9903

MobileH2R: Learning Generalizable Human to Mobile Robot Handover Exclusively from Scalable and Diverse Synthetic Data

Zifan Wang, Ziqing Chen, Junyu Chen et al.

CVPR 2025arXiv:2501.04595

citations

#9904

Atomic Diffusion Models for Small Molecule Structure Elucidation from NMR Spectra

Ziyu Xiong, Yichi Zhang, Foyez Alauddin et al.

NEURIPS 2025arXiv:2512.03127

citations

#9905

Hierarchical Material Recognition from Local Appearance

Matthew Beveridge, Shree Nayar

ICCV 2025highlightarXiv:2505.22911

citations

#9906

Ravan: Multi-Head Low-Rank Adaptation for Federated Fine-Tuning

Arian Raje, Baris Askin, Divyansh Jhunjhunwala et al.

NEURIPS 2025arXiv:2506.05568

citations

#9907

A machine learning approach that beats Rubik's cubes

Alexander Chervov, Kirill Khoruzhii, Nikita Bukhal et al.

NEURIPS 2025spotlight

citations

#9908

Predictability Enables Parallelization of Nonlinear State Space Models

Xavier Gonzalez, Leo Kozachkov, David Zoltowski et al.

NEURIPS 2025arXiv:2508.16817

citations

#9909

Efficient Rectified Flow for Image Fusion

Zirui Wang, Jiayi Zhang, Tianwei Guan et al.

NEURIPS 2025arXiv:2509.16549

citations

#9910

Second-Order Convergence in Private Stochastic Non-Convex Optimization

Youming Tao, Zuyuan Zhang, Dongxiao Yu et al.

NEURIPS 2025arXiv:2505.15647

citations

#9911

RvLLM: LLM Runtime Verification with Domain Knowledge

Yedi Zhang, Sun Emma, Annabelle En et al.

NEURIPS 2025arXiv:2505.18585

citations

#9912

A3: Few-shot Prompt Learning of Unlearnable Examples with Cross-Modal Adversarial Feature Alignment

Xuan Wang, Xitong Gao, Dongping Liao et al.

CVPR 2025

citations

#9913

Decouple Distortion from Perception: Region Adaptive Diffusion for Extreme-low Bitrate Perception Image Compression

Jinchang Xu, Shaokang Wang, Jintao Chen et al.

CVPR 2025

citations

#9914

From Laboratory to Real World: A New Benchmark Towards Privacy-Preserved Visible-Infrared Person Re-Identification

Yan Jiang, Hao Yu, Xu Cheng et al.

CVPR 2025

citations

#9915

D2SP: Dynamic Dual-Stage Purification Framework for Dual Noise Mitigation in Vision-based Affective Recognition.

Haoran Wang, Xinji Mai, Zeng Tao et al.

CVPR 2025arXiv:2406.16473

citations

#9916

Towards High-fidelity 3D Talking Avatar with Personalized Dynamic Texture

Xuanchen Li, Jianyu Wang, Yuhao Cheng et al.

CVPR 2025arXiv:2503.00495

citations

#9917

HyTIP: Hybrid Temporal Information Propagation for Masked Conditional Residual Video Coding

Yi-Hsin Chen, Yi-Chen Yao, Kuan-Wei Ho et al.

ICCV 2025arXiv:2508.02072

citations

#9918

RoPECraft: Training-Free Motion Transfer with Trajectory-Guided RoPE Optimization on Diffusion Transformers

Ahmet Berke Gökmen, Yiğit Ekin, Bahri Batuhan Bilecen et al.

NEURIPS 2025arXiv:2505.13344

citations

#9919

Scaling Laws for Robust Comparison of Open Foundation Language-Vision Models and Datasets

Marianna Nezhurina, Tomer Porian, Giovanni Puccetti et al.

NEURIPS 2025arXiv:2506.04598

citations

#9920

SHAP values via sparse Fourier representation

Ali Gorji, Andisheh Amrollahi, Andreas Krause

NEURIPS 2025spotlightarXiv:2410.06300

citations

#9921

Language Modeling by Language Models

Junyan Cheng, Peter Clark, Kyle Richardson

NEURIPS 2025spotlightarXiv:2506.20249

citations

#9922

Revisiting Semi-Supervised Learning in the Era of Foundation Models

Ping Zhang, Zheda Mai, Quang-Huy (Percy) Nguyen et al.

NEURIPS 2025arXiv:2503.09707

citations

#9923

Ground-V: Teaching VLMs to Ground Complex Instructions in Pixels

Yongshuo Zong, Qin ZHANG, DONGSHENG An et al.

CVPR 2025arXiv:2505.13788

citations

#9924

Distilling Spatially-Heterogeneous Distortion Perception for Blind Image Quality Assessment

Xudong Li, Wenjie Nie, Yan Zhang et al.

CVPR 2025

citations

#9925

T1: A Tool-Oriented Conversational Dataset for Multi-Turn Agentic Planning

NEURIPS 2025arXiv:2505.16986

citations

#9926

Open-set Cross Modal Generalization via Multimodal Unified Representation

Hai Huang, Yan Xia, Shulei Wang et al.

ICCV 2025arXiv:2507.14935

citations

#9927

GaRe: Relightable 3D Gaussian Splatting for Outdoor Scenes from Unconstrained Photo Collections

Haiyang Bai, Jiaqi Zhu, Songru Jiang et al.

ICCV 2025arXiv:2507.20512

citations

#9928

Brain network science modelling of sparse neural networks enables Transformers and LLMs to perform as fully connected

Yingtao Zhang, Diego Cerretti, Jialin Zhao et al.

NEURIPS 2025arXiv:2501.19107

citations

#9929

Zero-Shot Trajectory Planning for Signal Temporal Logic Tasks

Ruijia Liu, Ancheng Hou, Xiao Yu et al.

NEURIPS 2025oralarXiv:2501.13457

citations

#9930

STEER-ME: Assessing the Microeconomic Reasoning of Large Language Models

Narun Raman, Taylor Lundy, Thiago Amin et al.

NEURIPS 2025arXiv:2502.13119

citations

#9931

TimeTracker: Event-based Continuous Point Tracking for Video Frame Interpolation with Non-linear Motion

Haoyue Liu, Jinghan Xu, Yi Chang et al.

CVPR 2025arXiv:2505.03116

citations

#9932

Unleashing High-Quality Image Generation in Diffusion Sampling Using Second-Order Levenberg-Marquardt-Langevin

Fangyikang Wang, Hubery Yin, Lei Qian et al.

ICCV 2025arXiv:2505.24222

citations

#9933

Scale Efficient Training for Large Datasets

Qing Zhou, Junyu Gao, Qi Wang

CVPR 2025arXiv:2503.13385

citations

#9934

Beyond Scores: Proximal Diffusion Models

Zhenghan Fang, Mateo Diaz, Sam Buchanan et al.

NEURIPS 2025arXiv:2507.08956

citations

#9935

Demystifying Spectral Feature Learning for Instrumental Variable Regression

Dimitri Meunier, Antoine Moulin, Jakub Wornbard et al.

NEURIPS 2025arXiv:2506.10899

citations

#9936

BACON: Improving Clarity of Image Captions via Bag-of-Concept Graphs

Zhantao Yang, Ruili Feng, Keyu Yan et al.

CVPR 2025arXiv:2407.03314

citations

#9937

ReCAP: Recursive Context-Aware Reasoning and Planning for Large Language Model Agents

Zhenyu Zhang, Tianyi Chen, Weiran Xu et al.

NEURIPS 2025arXiv:2510.23822

citations

#9938

TLB-VFI: Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation

Zonglin Lyu, Chen Chen

ICCV 2025arXiv:2507.04984

citations

#9939

Decouple-Then-Merge: Finetune Diffusion Models as Multi-Task Learning

Qianli Ma, Xuefei Ning, Dongrui Liu et al.

CVPR 2025arXiv:2410.06664

citations

#9940

FGBench: A Dataset and Benchmark for Molecular Property Reasoning at Functional Group-Level in Large Language Models

Xuan Liu, Siru Ouyang, Xianrui Zhong et al.

NEURIPS 2025arXiv:2508.01055

citations

#9941

Register and [CLS] tokens induce a decoupling of local and global features in large ViTs

Alexander Lappe, Martin Giese

NEURIPS 2025

citations

#9942

SA-LUT: Spatial Adaptive 4D Look-Up Table for Photorealistic Style Transfer

Zerui Gong, Zhonghua Wu, Qingyi Tao et al.

ICCV 2025arXiv:2506.13465

citations

#9943

Parallel Sequence Modeling via Generalized Spatial Propagation Network

Hongjun Wang, Wonmin Byeon, Jiarui Xu et al.

CVPR 2025arXiv:2501.12381

citations

#9944

Monocular Semantic Scene Completion via Masked Recurrent Networks

Xuzhi Wang, Xinran Wu, Song Wang et al.

ICCV 2025arXiv:2507.17661

citations

#9945

ADIEE: Automatic Dataset Creation and Scorer for Instruction-Guided Image Editing Evaluation

Sherry Chen, Yi Wei, Luowei Zhou et al.

ICCV 2025arXiv:2507.07317

citations

#9946

All You Need is One: Capsule Prompt Tuning with a Single Vector

Yiyang Liu, James Liang, Heng Fan et al.

NEURIPS 2025arXiv:2510.16670

citations

#9947

SeaLion: Semantic Part-Aware Latent Point Diffusion Models for 3D Generation

Dekai Zhu, Yan Di, Stefan Gavranovic et al.

CVPR 2025arXiv:2505.17721

citations

#9948

FairGen: Enhancing Fairness in Text-to-Image Diffusion Models via Self-Discovering Latent Directions

Yilei Jiang, Wei-Hong Li, Yiyuan Zhang et al.

ICCV 2025arXiv:2412.18810

citations

#9949

Unveiling the Invisible: Reasoning Complex Occlusions Amodally with AURA

Zhixuan Li, Hyunse Yoon, Sanghoon Lee et al.

ICCV 2025arXiv:2503.10225

citations

#9950

Conformal Inference under High-Dimensional Covariate Shifts via Likelihood-Ratio Regularization

Sunay Joshi, Shayan Kiyani, George J. Pappas et al.

NEURIPS 2025arXiv:2502.13030

citations

#9951

Information-Theoretic Reward Decomposition for Generalizable RLHF

Liyuan Mao, Haoran Xu, Amy Zhang et al.

NEURIPS 2025arXiv:2504.06020

citations

#9952

LIFT: Latent Implicit Functions for Task- and Data-Agnostic Encoding

Amirhossein Kazerouni, Soroush Mehraban, Michael Brudno et al.

ICCV 2025arXiv:2503.15420

citations

#9953

RobotSmith: Generative Robotic Tool Design for Acquisition of Complex Manipulation Skills

Chunru Lin, Haotian Yuan, Yian Wang et al.

NEURIPS 2025arXiv:2506.14763

citations

#9954

Orientation-anchored Hyper-Gaussian for 4D Reconstruction from Casual Videos

Junyi Wu, Jiachen Tao, Haoxuan Wang et al.

NEURIPS 2025arXiv:2509.23492

citations

#9955

Generalizable Domain Adaptation for Sim-and-Real Policy Co-Training

Shuo Cheng, Liqian Ma, Zhenyang Chen et al.

NEURIPS 2025arXiv:2509.18631

citations

#9956

A Hidden Stumbling Block in Generalized Category Discovery: Distracted Attention

Qiyu Xu, Zhanxuan Hu, Yu Duan et al.

ICCV 2025arXiv:2507.14315

citations

#9957

GRAB: A Challenging GRaph Analysis Benchmark for Large Multimodal Models

Jonathan Roberts, Kai Han, Samuel Albanie

ICCV 2025arXiv:2408.11817

citations

#9958

Free-viewpoint Human Animation with Pose-correlated Reference Selection

Fa-Ting Hong, Zhan Xu, Haiyang Liu et al.

CVPR 2025highlightarXiv:2412.17290

citations

#9959

RapVerse: Coherent Vocals and Whole-Body Motion Generation from Text

Jiaben Chen, Xin Yan, Yihang Chen et al.

ICCV 2025arXiv:2405.20336

citations

#9960

Sparse Fine-Tuning of Transformers for Generative Tasks

Wei Chen, Jingxi Yu, Zichen Miao et al.

ICCV 2025arXiv:2507.10855

citations

#9961

VIGFace: Virtual Identity Generation for Privacy-Free Face Recognition Dataset

Minsoo Kim, Min-Cheol Sagong, Gi Pyo Nam et al.

ICCV 2025

citations

#9962

ZeroKey: Point-Level Reasoning and Zero-Shot 3D Keypoint Detection from Large Language Models

Bingchen Gong, Diego Gomez, Abdullah Hamdi et al.

ICCV 2025arXiv:2412.06292

citations

#9963

CoSpace: Benchmarking Continuous Space Perception Ability for Vision-Language Models

Yiqi Zhu, Ziyue Wang, Can Zhang et al.

CVPR 2025arXiv:2503.14161

citations

#9964

Efficient Unsupervised Shortcut Learning Detection and Mitigation in Transformers

Lukas Kuhn, sari sadiya, Jörg Schlötterer et al.

ICCV 2025arXiv:2501.00942

citations

#9965

TAViS: Text-bridged Audio-Visual Segmentation with Foundation Models

Ziyang Luo, Nian Liu, Xuguang Yang et al.

ICCV 2025arXiv:2506.11436

citations

#9966

Forgetting Through Transforming: Enabling Federated Unlearning via Class-Aware Representation Transformation

Qi Guo, Zhen Tian, Minghao Yao et al.

ICCV 2025arXiv:2410.06848

citations

#9967

ReasonVQA: A Multi-hop Reasoning Benchmark with Structural Knowledge for Visual Question Answering

Duong T. Tran, Trung-Kien Tran, Manfred Hauswirth et al.

ICCV 2025arXiv:2507.16403

citations

#9968

Dataset Distillation via Vision-Language Category Prototype

YAWEN ZOU, Guang Li, Duo Su et al.

ICCV 2025highlightarXiv:2506.23580

citations

#9969

On the Surprising Effectiveness of Large Learning Rates under Standard Width Scaling

Moritz Haas, Sebastian Bordt, Ulrike Luxburg et al.

NEURIPS 2025spotlightarXiv:2505.22491

citations

#9970

GroomLight: Hybrid Inverse Rendering for Relightable Human Hair Appearance Modeling

Yang Zheng, Menglei Chai, Delio Vicini et al.

CVPR 2025arXiv:2503.10597

citations

#9971

Jigsaw++: Imagining Complete Shape Priors for Object Reassembly

Jiaxin Lu, Gang Hua, Qixing Huang

ICCV 2025arXiv:2410.11816

citations

#9972

Unleashing the Potential of Consistency Learning for Detecting and Grounding Multi-Modal Media Manipulation

Yiheng Li, Yang Yang, Zichang Tan et al.

CVPR 2025arXiv:2506.05890

citations

#9973

Self-Ensembling Gaussian Splatting for Few-Shot Novel View Synthesis

Chen Zhao, Xuan Wang, Tong Zhang et al.

ICCV 2025arXiv:2411.00144

citations

#9974

Spatial-Temporal Aware Visuomotor Diffusion Policy Learning

Zhenyang Liu, Yikai Wang, Kuanning Wang et al.

ICCV 2025arXiv:2507.06710

citations

#9975

HCRMP: An LLM-Hinted Contextual Reinforcement Learning Framework for Autonomous Driving

Zhiwen Chen, Hanming Deng, Zhuoren Li et al.

NEURIPS 2025arXiv:2505.15793

citations

#9976

4D Gaussian Splatting SLAM

Yanyan Li, Youxu Fang, Zunjie Zhu et al.

ICCV 2025arXiv:2503.16710

citations

#9977

Incentivizing Truthful Language Models via Peer Elicitation Games

Baiting Chen, Tong Zhu, Jiale Han et al.

NEURIPS 2025arXiv:2505.13636

citations

#9978

FRESA: Feedforward Reconstruction of Personalized Skinned Avatars from Few Images

Rong Wang, Fabian Prada, Ziyan Wang et al.

CVPR 2025highlightarXiv:2503.19207

citations

#9979

GeoComplete: Geometry-Aware Diffusion for Reference-Driven Image Completion

Beibei Lin, Tingting Chen, Robby Tan

NEURIPS 2025arXiv:2510.03110

citations

#9980

Sharp-It: A Multi-view to Multi-view Diffusion Model for 3D Synthesis and Manipulation

Yiftach Edelstein, Or Patashnik, Dana Cohen-Bar et al.

CVPR 2025arXiv:2412.02631

citations

#9981

Identity-Clothing Similarity Modeling for Unsupervised Clothing Change Person Re-Identification

Zhiqi Pang, Junjie Wang, Lingling Zhao et al.

CVPR 2025

citations

#9982

MaRI: Material Retrieval Integration across Domains

Jianhui Wang, Zhifei Yang, Yangfan He et al.

CVPR 2025arXiv:2503.08111

citations

#9983

Non-stationary Bandit Convex Optimization: A Comprehensive Study

Xiaoqi Liu, Dorian Baudry, Julian Zimmert et al.

NEURIPS 2025arXiv:2506.02980

citations

#9984

SCOUT: Teaching Pre-trained Language Models to Enhance Reasoning via Flow Chain-of-Thought

Guanghao Li, Wenhao Jiang, Mingfeng Chen et al.

NEURIPS 2025arXiv:2505.24181

citations

#9985

Uncertainty Weighted Gradients for Model Calibration

Jinxu Lin, Linwei Tao, Minjing Dong et al.

CVPR 2025arXiv:2503.22725

citations

#9986

AHCPTQ: Accurate and Hardware-Compatible Post-Training Quantization for Segment Anything Model

Wenlun Zhang, Yunshan Zhong, Shimpei Ando et al.

ICCV 2025arXiv:2503.03088

citations

#9987

Shot-by-Shot: Film-Grammar-Aware Training-Free Audio Description Generation

Junyu Xie, Tengda Han, Max Bain et al.

ICCV 2025arXiv:2504.01020

citations

#9988

MPMAvatar: Learning 3D Gaussian Avatars with Accurate and Robust Physics-Based Dynamics

Changmin Lee, Jihyun Lee, Tae-Kyun Kim

NEURIPS 2025arXiv:2510.01619

citations

#9989

LocDiff: Identifying Locations on Earth by Diffusing in the Hilbert Space

Zhangyu Wang, Zeping Liu, Jielu Zhang et al.

NEURIPS 2025arXiv:2503.18142

citations

#9990

Making Old Film Great Again: Degradation-aware State Space Model for Old Film Restoration

Yudong Mao, Hao Luo, Zhiwei Zhong et al.

CVPR 2025

citations

#9991

Put CASH on Bandits: A Max K-Armed Problem for Automated Machine Learning

Amir Rezaei Balef, Claire Vernade, Katharina Eggensperger

NEURIPS 2025arXiv:2505.05226

citations

#9992

Credal Prediction based on Relative Likelihood

Timo Löhr, Paul Hofman, Felix Mohr et al.

NEURIPS 2025spotlightarXiv:2505.22332

citations

#9993

ShapeX: Shapelet-Driven Post Hoc Explanations for Time Series Classification Models

Bosong Huang, Ming Jin, Yuxuan Liang et al.

NEURIPS 2025arXiv:2510.20084

citations

#9994

Gradient Multi-Normalization for Efficient LLM Training

Meyer Scetbon, Chao Ma, Wenbo Gong et al.

NEURIPS 2025

citations

#9995

GS-Occ3D: Scaling Vision-only Occupancy Reconstruction with Gaussian Splatting

Baijun Ye, Minghui Qin, Saining Zhang et al.

ICCV 2025arXiv:2507.19451

citations

#9996

Normalization in Attention Dynamics

Nikita Karagodin, Shu Ge, Yury Polyanskiy et al.

NEURIPS 2025arXiv:2510.22026

citations

#9997

KL-Regularized RLHF with Multiple Reference Models: Exact Solutions and Sample Complexity

Gholamali Aminian, Amir R. Asadi, Idan Shenfeld et al.

NEURIPS 2025arXiv:2502.01203

citations

#9998

Fourier Analysis Network

Yihong Dong, Ge Li, Yongding Tao et al.

NEURIPS 2025arXiv:2502.00497

citations

#9999

SATURN: SAT-based Reinforcement Learning to Unleash LLMs Reasoning

Huanyu Liu, Jia Li, Hao Zhu et al.

NEURIPS 2025spotlightarXiv:2505.16368

citations

#10000

Adaptive Stochastic Coefficients for Accelerating Diffusion Sampling

Ruoyu Wang, Beier Zhu, Junzhi Li et al.

NEURIPS 2025arXiv:2510.23285

citations

← Previous

1...48 49 50 51 52...112