Most Cited 2024 &quot;sound effect generation&quot; Papers

ICLR 2024arXiv:2403.06075

#4202

Multisize Dataset Condensation

Yang He, Lingao Xiao, Joey Tianyi Zhou et al.

CVPR 2024arXiv:2403.10052

#4203

T4P: Test-Time Training of Trajectory Prediction via Masked Autoencoder and Actor-specific Token Memory

Daehee Park, Jaeseok Jeong, Sung-Hoon Yoon et al.

CVPR 2024arXiv:2406.09383

#4204

Multiagent Multitraversal Multimodal Self-Driving: Open MARS Dataset

Yiming Li, Zhiheng Li, Nuo Chen et al.

AAAI 2024paperarXiv:2312.08084

#4205

A Novel Energy Based Model Mechanism for Multi-Modal Aspect-Based Sentiment Analysis

Tianshuo Peng, Zuchao Li, Ping Wang et al.

ICML 2024arXiv:2310.05862

#4206

Better Safe than Sorry: Pre-training CLIP against Targeted Data Poisoning and Backdoor Attacks

Wenhan Yang, Jingdong Gao, Baharan Mirzasoleiman

ICML 2024arXiv:2306.08842

#4207

ViP: A Differentially Private Foundation Model for Computer Vision

Yaodong Yu, Maziar Sanjabi, Yi Ma et al.

CVPR 2024arXiv:2402.18146

#4208

3DSFLabelling: Boosting 3D Scene Flow Estimation by Pseudo Auto-labelling

Chaokang Jiang, Guangming Wang, Jiuming Liu et al.

ICLR 2024arXiv:2402.03845

#4209

On gauge freedom, conservativity and intrinsic dimensionality estimation in diffusion models

Christian Horvat, Jean-Pascal Pfister

ECCV 2024arXiv:2407.06628

#4210

Masked Video and Body-worn IMU Autoencoder for Egocentric Action Recognition

Mingfang Zhang, Yifei Huang, Ruicong Liu et al.

#4211

DVSAI: Diverse View-Shared Anchors Based Incomplete Multi-View Clustering

Shengju Yu, Siwei Wang, Pei Zhang et al.

ICLR 2024spotlightarXiv:2210.00314

#4212

Learning Hierarchical Image Segmentation For Recognition and By Recognition

Tsung-Wei Ke, Sangwoo Mo, Stella Yu

ECCV 2024arXiv:2407.09822

#4213

VividDreamer: Invariant Score Distillation for Hyper-Realistic Text-to-3D Generation

Wenjie Zhuo, Fan Ma, Hehe Fan et al.

ICLR 2024arXiv:2310.07220

#4214

COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically for Model-Based RL

Xiyao Wang, Ruijie Zheng, Yanchao Sun et al.

#4215

Diverse Person: Customize Your Own Dataset for Text-Based Person Search

Zifan Song, Guosheng Hu, Cairong Zhao

AAAI 2024paperarXiv:2312.11816

#4216

A Dual-Way Enhanced Framework from Text Matching Point of View for Multimodal Entity Linking

Shezheng Song, Shan Zhao, ChengYu Wang et al.

CVPR 2024arXiv:2305.15253

#4217

Rethinking the Evaluation Protocol of Domain Generalization

Han Yu, Xingxuan Zhang, Renzhe Xu et al.

ICLR 2024arXiv:2306.14306

#4218

Adaptive Sharpness-Aware Pruning for Robust Sparse Networks

Anna Bair, Hongxu Yin, Maying Shen et al.

AAAI 2024paperarXiv:2402.16318

#4219

Gradient-Guided Modality Decoupling for Missing-Modality Robustness

#4220

COMBAT: Alternated Training for Effective Clean-Label Backdoor Attacks

Tran Huynh, Dang Nguyen, Tung Pham et al.

CVPR 2024arXiv:2403.10073

#4221

Revisiting Adversarial Training Under Long-Tailed Distributions

Xinli Yue, Ningping Mou, Qian Wang et al.

ICLR 2024arXiv:2310.03013

#4222

SemiReward: A General Reward Model for Semi-supervised Learning

Siyuan Li, Weiyang Jin, Zedong Wang et al.

ICML 2024arXiv:2407.09165

#4223

Robust Yet Efficient Conformal Prediction Sets

Soroush H. Zargarbashi, Mohammad Sadegh Akhondzadeh, Aleksandar Bojchevski

ICML 2024arXiv:2406.03193

#4224

Graph Neural Network Explanations are Fragile

Jiate Li, Meng Pang, Yun Dong et al.

ECCV 2024arXiv:2403.11127

#4225

GRA: Detecting Oriented Objects through Group-wise Rotating and Attention

Jiangshan Wang, Yifan Pu, Yizeng Han et al.

ECCV 2024arXiv:2407.11569

#4226

SFPNet: Sparse Focal Point Network for Semantic Segmentation on General LiDAR Point Clouds

Yanbo Wang, Wentao Zhao, Cao Chuan et al.

ICML 2024arXiv:2403.18742

#4227

Understanding the Learning Dynamics of Alignment with Human Feedback

Shawn Im, Sharon Li

#4228

PAIR Diffusion: A Comprehensive Multimodal Object-Level Image Editor

Vidit Goel, Elia Peruzzo, Yifan Jiang et al.

CVPR 2024

CVPR 2024arXiv:2403.06247

#4229

Text-Guided Variational Image Generation for Industrial Anomaly Detection and Segmentation

Mingyu Lee, Jongwon Choi

AAAI 2024paperarXiv:2305.12393

#4230

Layer Collaboration in the Forward-Forward Algorithm

Guy Lorberbom, Itai Gat, Yossi Adi et al.

ICLR 2024oralarXiv:2212.00720

#4231

A Stable, Fast, and Fully Automatic Learning Algorithm for Predictive Coding Networks

Tommaso Salvatori, Yuhang Song, Yordan Yordanov et al.

ICLR 2024spotlightarXiv:2307.04942

#4232

Benchmarking Algorithms for Federated Domain Generalization

Ruqi Bai, Saurabh Bagchi, David Inouye

#4233

AssistGUI: Task-Oriented PC Graphical User Interface Automation

Difei Gao, Lei Ji, Zechen Bai et al.

CVPR 2024

ICML 2024arXiv:2404.01847

#4234

Accelerating Transformer Pre-training with 2:4 Sparsity

Yuezhou Hu, Kang Zhao, Weiyu Huang et al.

ECCV 2024arXiv:2404.04629

#4235

Diffusion Model for Robust Multi-Sensor Fusion in 3D Object Detection and BEV Segmentation

Duy Tho Le, Hengcan Shi, Jianfei Cai et al.

CVPR 2024arXiv:2403.16398

#4236

Rethinking the Representation in Federated Unsupervised Learning with Non-IID Data

Xinting Liao, Weiming Liu, Chaochao Chen et al.

ICLR 2024arXiv:2402.03445

#4237

Denoising Diffusion via Image-Based Rendering

Titas Anciukevičius, Fabian Manhardt, Federico Tombari et al.

ICLR 2024spotlightarXiv:2310.15526

#4238

Privacy Amplification for Matrix Mechanisms

Christopher Choquette-Choo, Arun Ganesh, Thomas Steinke et al.

CVPR 2024arXiv:2401.04728

#4239

Morphable Diffusion: 3D-Consistent Diffusion for Single-image Avatar Creation

Xiyi Chen, Marko Mihajlovic, Shaofei Wang et al.

ECCV 2024arXiv:2406.18958

#4240

AnyControl: Create Your Artwork with Versatile Control on Text-to-Image Generation

Sun Yanan, Yanchen Liu, Yinhao Tang et al.

CVPR 2024arXiv:2312.00375

#4241

Text-Guided 3D Face Synthesis - From Generation to Editing

Yunjie Wu, Yapeng Meng, Zhipeng Hu et al.

CVPR 2024arXiv:2403.19242

#4242

RTracker: Recoverable Tracking via PN Tree Structured Memory

Yuqing Huang, Xin Li, Zikun Zhou et al.

CVPR 2024arXiv:2403.19412

#4243

A Simple and Effective Point-based Network for Event Camera 6-DOFs Pose Relocalization

Hongwei Ren, Jiadong Zhu, Yue Zhou et al.

ICLR 2024arXiv:2309.10402

#4244

Minimum width for universal approximation using ReLU networks on compact domain

Namjun Kim, Chanho Min, Sejun Park

ECCV 2024arXiv:2401.02094

#4245

PILoRA: Prototype Guided Incremental LoRA for Federated Class-Incremental Learning

Haiyang Guo, Fei Zhu, Wenzhuo Liu et al.

ICML 2024arXiv:2305.18728

#4246

Plug-in Performative Optimization

Licong Lin, Tijana Zrnic

CVPR 2024arXiv:2311.18331

#4247

MRFP: Learning Generalizable Semantic Segmentation from Sim-2-Real with Multi-Resolution Feature Perturbation

Sumanth Udupa, Prajwal Gurunath, Aniruddh Sikdar et al.

ECCV 2024arXiv:2308.08543

#4248

InsMapper: Exploring Inner-instance Information for Vectorized HD Mapping

Zhenhua Xu, Kwan-Yee K. Wong, Hengshuang ZHAO

CVPR 2024arXiv:2403.10362

#4249

CPGA: Coding Priors-Guided Aggregation Network for Compressed Video Quality Enhancement

Qiang Zhu, Jinhua Hao, Yukang Ding et al.

CVPR 2024arXiv:2311.15672

#4250

HAVE-FUN: Human Avatar Reconstruction from Few-Shot Unconstrained Images

Xihe Yang, Xingyu Chen, Daiheng Gao et al.

CVPR 2024arXiv:2404.04627

#4251

Self-Training Large Language Models for Improved Visual Program Synthesis With Visual Reinforcement

Zaid Khan, Vijay Kumar BG, Samuel Schulter et al.

CVPR 2024arXiv:2404.02900

#4252

DeiT-LT: Distillation Strikes Back for Vision Transformer Training on Long-Tailed Datasets

Harsh Rangwani, Pradipto Mondal, Mayank Mishra et al.

ICLR 2024spotlightarXiv:2312.11954

#4253

Adversarial AutoMixup

Huafeng Qin, Xin Jin, Yun Jiang et al.

CVPR 2024arXiv:2402.17587

#4254

Instance-aware Exploration-Verification-Exploitation for Instance ImageGoal Navigation

Xiaohan Lei, Min Wang, Wengang Zhou et al.

ECCV 2024arXiv:2407.05363

#4255

Multi-branch Collaborative Learning Network for 3D Visual Grounding

Zhipeng Qian, Yiwei Ma, Zhekai Lin et al.

CVPR 2024arXiv:2311.12588

#4256

HiPose: Hierarchical Binary Surface Encoding and Correspondence Pruning for RGB-D 6DoF Object Pose Estimation

Yongliang Lin, Yongzhi Su, Praveen Nathan et al.

ICML 2024arXiv:2405.07780

#4257

Harnessing Hierarchical Label Distribution Variations in Test Agnostic Long-tail Recognition

Zhiyong Yang, Qianqian Xu, Zitai Wang et al.

CVPR 2024arXiv:2403.02265

#4258

DaReNeRF: Direction-aware Representation for Dynamic Scenes

Ange Lou, Benjamin Planche, Zhongpai Gao et al.

CVPR 2024highlightarXiv:2406.04659

#4259

LocLLM: Exploiting Generalizable Human Keypoint Localization via Large Language Model

Dongkai Wang, shiyu xuan, Shiliang Zhang

ICLR 2024arXiv:2405.11778

#4260

Efficient Multi-agent Reinforcement Learning by Planning

Qihan Liu, Jianing Ye, Xiaoteng Ma et al.

ECCV 2024arXiv:2409.08258

#4261

Improving Virtual Try-On with Garment-focused Diffusion Models

Siqi Wan, Yehao Li, Jingwen Chen et al.

CVPR 2024highlightarXiv:2404.11207

#4262

Exploring the Transferability of Visual Prompting for Multimodal Large Language Models

Yichi Zhang, Yinpeng Dong, Siyuan Zhang et al.

CVPR 2024arXiv:2403.05239

#4263

Towards Effective Usage of Human-Centric Priors in Diffusion Models for Text-based Human Image Generation

Junyan Wang, Zhenhong Sun, Stewart Tan et al.

ICML 2024arXiv:2402.15332

#4264

Position: Categorical Deep Learning is an Algebraic Theory of All Architectures

Bruno Gavranović, Paul Lessard, Andrew Dudzik et al.

AAAI 2024paperarXiv:2308.15459

#4265

ParaGuide: Guided Diffusion Paraphrasers for Plug-and-Play Textual Style Transfer

Zachary Horvitz, Ajay Patel, Chris Callison-Burch et al.

ICLR 2024arXiv:2311.03354

#4266

CoVLM: Composing Visual Entities and Relationships in Large Language Models Via Communicative Decoding

Junyan Li, Delin Chen, Yining Hong et al.

AAAI 2024paperarXiv:2312.12877

#4267

Relightable and Animatable Neural Avatars from Videos

Wenbin Lin, Chengwei Zheng, Jun-hai Yong et al.

CVPR 2024arXiv:2403.17801

#4268

Towards 3D Vision with Low-Cost Single-Photon Cameras

Fangzhou Mu, Carter Sifferman, Sacha Jungerman et al.

AAAI 2024paperarXiv:2401.02683

#4269

Geometric-Facilitated Denoising Diffusion Model for 3D Molecule Generation

6428 Can Xu, Haosen Wang, Weigang Wang et al.

ICLR 2024arXiv:2311.02684

#4270

Octavius: Mitigating Task Interference in MLLMs via LoRA-MoE

Zeren Chen, ziqin wang, zhen wang et al.

ECCV 2024arXiv:2407.13555

#4271

PetFace: A Large-Scale Dataset and Benchmark for Animal Identification

Risa Shinoda, Kaede Shiohara

CVPR 2024arXiv:2403.01901

#4272

FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio

Chao Xu, Yang Liu, Jiazheng Xing et al.

ICLR 2024arXiv:2401.12233

#4273

Memorization in Self-Supervised Learning Improves Downstream Generalization

Wenhao Wang, Muhammad Ahmad Kaleem, Adam Dziedzic et al.

ICML 2024arXiv:2405.10343

#4274

UniCorn: A Unified Contrastive Learning Approach for Multi-view Molecular Representation Learning

Shikun Feng, Yuyan Ni, Li et al.

AAAI 2024paperarXiv:2312.15636

#4275

Lifting by Image – Leveraging Image Cues for Accurate 3D Human Pose Estimation

Feng Zhou, Jianqin Yin, Peiyang Li

ICML 2024arXiv:2408.00929

#4276

Verification of Machine Unlearning is Fragile

Binchi Zhang, Zihan Chen, Cong Shen et al.

AAAI 2024paperarXiv:2309.02613

#4277

Project-Fair and Truthful Mechanisms for Budget Aggregation

Rupert Freeman, Ulrike Schmidt-Kraepelin

ICML 2024arXiv:2406.14481

#4278

Revealing Vision-Language Integration in the Brain with Multimodal Networks

Vighnesh Subramaniam, Colin Conwell, Christopher Wang et al.

ECCV 2024arXiv:2406.08249

#4279

Dataset Enhancement with Instance-Level Augmentations

Orest Kupyn, Christian Rupprecht

#4280

RAW-Adapter: Adapting Pretrained Visual Model to Camera RAW Images

Ziteng Cui, Tatsuya Harada

AAAI 2024paperarXiv:2307.00910

#4281

CoPL: Contextual Prompt Learning for Vision-Language Understanding

Koustava Goswami, Srikrishna Karanam, Prateksha Udhayanan et al.

AAAI 2024paperarXiv:2402.06680

#4282

Social Physics Informed Diffusion Model for Crowd Simulation

Hongyi Chen, Jingtao Ding, Yong Li et al.

ICML 2024arXiv:2402.01052

#4283

Weakly Convex Regularisers for Inverse Problems: Convergence of Critical Points and Primal-Dual Optimisation

Zakhar Shumaylov, Jeremy Budd, Subhadip Mukherjee et al.

ECCV 2024arXiv:2407.16957

#4284

Raindrop Clarity: A Dual-Focused Dataset for Day and Night Raindrop Removal

Yeying Jin, Xin Li, Jiadong Wang et al.

ECCV 2024arXiv:2407.04237

#4285

GSD: View-Guided Gaussian Splatting Diffusion for 3D Reconstruction

Yuxuan Mu, Xinxin Zuo, Chuan Guo et al.

ICML 2024arXiv:2312.17295

#4286

Optimizing Watermarks for Large Language Models

Bram Wouters

#4287

A New Mechanism for Eliminating Implicit Conflict in Graph Contrastive Learning

Dongxiao He, Jitao Zhao, Cuiying Huo et al.

ECCV 2024arXiv:2312.01537

#4288

Unlocking the Potential of Federated Learning: The Symphony of Dataset Distillation via Deep Generative Latents

Yuqi Jia, Saeed Vahidian, Jingwei Sun et al.

#4289

CC-SAM: Enhancing SAM with Cross-feature Attention and Context for Ultrasound Image Segmentation

Shreyank Narayana Gowda, David A Clifton

AAAI 2024paperarXiv:2401.06595

#4290

Every Node Is Different: Dynamically Fusing Self-Supervised Tasks for Attributed Graph Clustering

Pengfei Zhu, Qian Wang, Yu Wang et al.

CVPR 2024highlightarXiv:2406.04673

#4291

MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models

Sanjoy Chowdhury, Sayan Nag, Joseph K J et al.

ECCV 2024arXiv:2403.17369

#4292

CoDA: Instructive Chain-of-Domain Adaptation with Severity-Aware Visual Prompt Tuning

Ziyang Gong, FuHao Li, Yupeng Deng et al.

ICML 2024arXiv:2401.02058

#4293

Neural Collapse for Cross-entropy Class-Imbalanced Learning with Unconstrained ReLU Features Model

Hien Dang, Tho Tran Huu, Tan Nguyen et al.

AAAI 2024paperarXiv:2305.17423

#4294

Accelerating Text-to-Image Editing via Cache-Enabled Sparse Diffusion Inference

Zihao Yu, Haoyang Li, Fangcheng Fu et al.

ICLR 2024arXiv:2310.12474

#4295

Enhancing High-Resolution 3D Generation through Pixel-wise Gradient Clipping

Zijie Pan, Jiachen Lu, Xiatian Zhu et al.

ICLR 2024arXiv:2404.00506

#4296

Label-Agnostic Forgetting: A Supervision-Free Unlearning in Deep Models

Shaofei Shen, Chenhao Zhang, Yawen Zhao et al.

ICLR 2024arXiv:2401.12689

#4297

Energy-based Automated Model Evaluation

Ru Peng, Heming Zou, Haobo Wang et al.

ICML 2024arXiv:2310.11914

#4298

A connection between Tempering and Entropic Mirror Descent

Nicolas Chopin, Francesca R Crucinio, Anna Korba

#4299

Towards Modern Image Manipulation Localization: A Large-Scale Dataset and Novel Methods

Chenfan Qu, Yiwu Zhong, Chongyu Liu et al.

CVPR 2024

ECCV 2024arXiv:2310.05873

#4300

Implicit Concept Removal of Diffusion Models

Zhili LIU, Kai Chen, Yifan Zhang et al.

ICML 2024oralarXiv:2405.01719

#4301

Inherent Trade-Offs between Diversity and Stability in Multi-Task Benchmarks

Guanhua Zhang, Moritz Hardt

ICML 2024arXiv:2401.01268

#4302

$f$-Divergence Based Classification: Beyond the Use of Cross-Entropy

Nicola Novello, Andrea Tonello

CVPR 2024highlightarXiv:2401.10831

#4303

Understanding Video Transformers via Universal Concept Discovery

Matthew Kowal, Achal Dave, Rares Andrei Ambrus et al.

ICML 2024arXiv:2402.05443

#4304

Scalable Wasserstein Gradient Flow for Generative Modeling through Unbalanced Optimal Transport

Jaemoo Choi, Jaewoong Choi, Myungjoo Kang

AAAI 2024paperarXiv:2305.18072

#4305

Image Captioning with Multi-Context Synthetic Data

Feipeng Ma, Y. Zhou, Fengyun Rao et al.

CVPR 2024arXiv:2403.15192

#4306

SFOD: Spiking Fusion Object Detector

Yimeng Fan, Wei Zhang, Changsong Liu et al.

CVPR 2024arXiv:2403.15234

#4307

Shadow Generation for Composite Image Using Diffusion Model

Qingyang Liu, Junqi You, Jian-Ting Wang et al.

ECCV 2024arXiv:2312.02638

#4308

Synchronization is All You Need: Exocentric-to-Egocentric Transfer for Temporal Action Segmentation with Unlabeled Synchronized Video Pairs

Camillo Quattrocchi, Antonino Furnari, Daniele Di Mauro et al.

ICML 2024arXiv:2401.09125

#4309

Understanding Heterophily for Graph Neural Networks

Junfu Wang, Yuanfang Guo, Liang Yang et al.

AAAI 2024paperarXiv:2403.01203

#4310

Pseudo-Label Calibration Semi-supervised Multi-Modal Entity Alignment

Luyao Wang, Pengnian Qi, Xigang Bao et al.

ICML 2024arXiv:2306.16978

#4311

Learning Coverage Paths in Unknown Environments with Deep Reinforcement Learning

Arvi Jonnarth, Jie Zhao, Michael Felsberg

ECCV 2024arXiv:2404.07389

#4312

Object-Conditioned Energy-Based Attention Map Alignment in Text-to-Image Diffusion Models

Yasi Zhang, Peiyu Yu, Ying Nian Wu

CVPR 2024arXiv:2403.12760

#4313

WaveFace: Authentic Face Restoration with Efficient Frequency Recovery

Yunqi Miao, Jiankang Deng, Jungong Han

AAAI 2024paperarXiv:2312.15900

#4314

Chain of Generation: Multi-Modal Gesture Synthesis via Cascaded Conditional Control

Zunnan Xu, Yachao Zhang, Sicheng Yang et al.

CVPR 2024arXiv:2403.07705

#4315

Robust Synthetic-to-Real Transfer for Stereo Matching

Jiawei Zhang, Jiahe Li, Lei Huang et al.

AAAI 2024paperarXiv:2305.16081

#4316

Almost Envy-Free Allocations of Indivisible Goods or Chores with Entitlements

Max Springer, MohammadTaghi Hajiaghayi, Hadi Yami

ICML 2024arXiv:2405.17583

#4317

Understanding Forgetting in Continual Learning with Linear Regression

Meng Ding, Kaiyi Ji, Di Wang et al.

ECCV 2024arXiv:2505.09264

#4318

Learning to Detect Multi-class Anomalies with Just One Normal Image Prompt

Bin-Bin Gao

ECCV 2024arXiv:2407.10814

#4319

Pathology-knowledge Enhanced Multi-instance Prompt Learning for Few-shot Whole Slide Image Classification

Linhao Qu, Dingkang Yang, Dan Huang et al.

ICML 2024arXiv:2406.19320

#4320

Efficient World Models with Context-Aware Tokenization

Vincent Micheli, Eloi Alonso, François Fleuret

ICML 2024arXiv:2404.08458

#4321

On the Independence Assumption in Neurosymbolic Learning

Emile van Krieken, Pasquale Minervini, Edoardo Ponti et al.

CVPR 2024arXiv:2405.19718

#4322

LED: A Large-scale Real-world Paired Dataset for Event Camera Denoising

Yuxing Duan

CVPR 2024arXiv:2312.01663

#4323

Customize your NeRF: Adaptive Source Driven 3D Scene Editing via Local-Global Iterative Training

Runze He, Shaofei Huang, Xuecheng Nie et al.

ICLR 2024arXiv:2306.07261

#4324

Unprocessing Seven Years of Algorithmic Fairness

André F. Cruz, Moritz Hardt

CVPR 2024arXiv:2311.05304

#4325

Data Valuation and Detections in Federated Learning

Wenqian Li, Shuran Fu, Fengrui Zhang et al.

ICML 2024arXiv:2310.00344

#4326

HarmonyDream: Task Harmonization Inside World Models

Haoyu Ma, Jialong Wu, Ningya Feng et al.

#4327

Beta-Tuned Timestep Diffusion Model

Tianyi Zheng, Peng-Tao Jiang, Ben Wan et al.

ICLR 2024spotlightarXiv:2310.11802

#4328

De novo Protein Design Using Geometric Vector Field Networks

weian mao, Muzhi Zhu, Zheng Sun et al.

ICML 2024arXiv:2405.03103

#4329

Learning from Students: Applying t-Distributions to Explore Accurate and Efficient Formats for LLMs

Jordan Dotzel, Yuzong Chen, Bahaa Kotb et al.

ICML 2024arXiv:2106.08414

#4330

On the Sample Complexity and Metastability of Heavy-tailed Policy Search in Continuous Control

Amrit Singh Bedi, Anjaly Parayil, Junyu Zhang et al.

ECCV 2024arXiv:2409.04559

#4331

Thinking Outside the BBox: Unconstrained Generative Object Compositing

Gemma Canet Tarrés, Zhe Lin, Zhifei Zhang et al.

CVPR 2024arXiv:2404.12235

#4332

Beyond Average: Individualized Visual Scanpath Prediction

Xianyu Chen, Ming Jiang, Qi Zhao

ICLR 2024arXiv:2311.07593

#4333

Follow-Up Differential Descriptions: Language Models Resolve Ambiguities for Image Classification

Reza Esfandiarpoor, Stephen Bach

CVPR 2024arXiv:2406.07551

#4334

Blur-aware Spatio-temporal Sparse Transformer for Video Deblurring

Huicong Zhang, Haozhe Xie, Hongxun Yao

ICML 2024arXiv:2405.01031

#4335

The Privacy Power of Correlated Noise in Decentralized Learning

Youssef Allouah, Anastasiia Koloskova, Aymane Firdoussi et al.

AAAI 2024paperarXiv:2312.06486

#4336

STDiff: Spatio-Temporal Diffusion for Continuous Stochastic Video Prediction

Xi Ye, Guillaume-Alexandre Bilodeau

ICLR 2024spotlightarXiv:2403.04161

#4337

SWAP-NAS: Sample-Wise Activation Patterns for Ultra-fast NAS

Yameng Peng, Andy Song, Haytham Fayek et al.

#4338

Harnessing Holistic Discourse Features and Triadic Interaction for Sentiment Quadruple Extraction in Dialogues

Bobo Li, Hao Fei, Lizi Liao et al.

CVPR 2024arXiv:2403.10103

#4339

DyBluRF: Dynamic Neural Radiance Fields from Blurry Monocular Video

Huiqiang Sun, Xingyi Li, Liao Shen et al.

ICLR 2024arXiv:2404.19644

#4340

MetaCoCo: A New Few-Shot Classification Benchmark with Spurious Correlation

Min Zhang, Haoxuan Li, Fei Wu et al.

AAAI 2024paperarXiv:2402.10002

#4341

MM-Point: Multi-View Information-Enhanced Multi-Modal Self-Supervised 3D Point Cloud Understanding

HaiTao Yu, Mofei Song

AAAI 2024paperarXiv:2309.16456

#4342

Resisting Backdoor Attacks in Federated Learning via Bidirectional Elections and Individual Perspective

Zhen Qin, Feiyi Chen, Chen Zhi et al.

ECCV 2024arXiv:2409.19811

#4343

Robust Incremental Structure-from-Motion with Hybrid Features

Shaohui Liu, Yidan Gao, Tianyi Zhang et al.

CVPR 2024arXiv:2305.06973

#4344

FreePoint: Unsupervised Point Cloud Instance Segmentation

Zhikai Zhang, Jian Ding, Li Jiang et al.

ECCV 2024arXiv:2407.18112

#4345

Keypoint Promptable Re-Identification

Vladimir Somers, Alexandre ALahi, Christophe De Vleeschouwer

ECCV 2024arXiv:2404.05673

#4346

CoReS: Orchestrating the Dance of Reasoning and Segmentation

Xiaoyi Bao, Siyang Sun, Shuailei Ma et al.

ICML 2024arXiv:2406.00766

#4347

Scaling Tractable Probabilistic Circuits: A Systems Perspective

Anji Liu, Kareem Ahmed, Guy Van den Broeck

CVPR 2024arXiv:2312.16279

#4348

Cloud-Device Collaborative Learning for Multimodal Large Language Models

Guanqun Wang, Jiaming Liu, Chenxuan Li et al.

ECCV 2024arXiv:2407.13584

#4349

Connecting Consistency Distillation to Score Distillation for Text-to-3D Generation

Zongrui Li, Minghui Hu, Qian Zheng et al.

AAAI 2024paperarXiv:2312.10975

#4350

Inducing Point Operator Transformer: A Flexible and Scalable Architecture for Solving PDEs

Seungjun Lee, TaeIL Oh

ICML 2024arXiv:2405.06914

#4351

Non-confusing Generation of Customized Concepts in Diffusion Models

Wang Lin, Jingyuan CHEN, Jiaxin Shi et al.

ECCV 2024arXiv:2311.14280

#4352

Latent Diffusion Prior Enhanced Deep Unfolding for Snapshot Spectral Compressive Imaging

Zongliang Wu, Ruiying Lu, Ying Fu et al.

CVPR 2024arXiv:2405.04377

#4353

Choose What You Need: Disentangled Representation Learning for Scene Text Recognition Removal and Editing

Boqiang Zhang, Hongtao Xie, Zuan Gao et al.

AAAI 2024paperarXiv:2403.00012

#4354

PreRoutGNN for Timing Prediction with Order Preserving Partition: Global Circuit Pre-training, Local Delay Learning and Attentional Cell Modeling

Ruizhe Zhong, Junjie Ye, Zhentao Tang et al.

AAAI 2024paperarXiv:2301.11930

#4355

Deep Quantum Error Correction

Yoni Choukroun, Lior Wolf

ICML 2024arXiv:2406.04336

#4356

On the Expressive Power of Spectral Invariant Graph Neural Networks

Bohang Zhang, Lingxiao Zhao, Haggai Maron

CVPR 2024arXiv:2403.14737

#4357

FedMef: Towards Memory-efficient Federated Dynamic Pruning

Hong Huang, Weiming Zhuang, Chen Chen et al.

ICLR 2024arXiv:2401.13034

#4358

Locality Sensitive Sparse Encoding for Learning World Models Online

Zichen Liu, Chao Du, Wee Sun Lee et al.

AAAI 2024paperarXiv:2308.11234

#4359

Traffic Flow Optimisation for Lifelong Multi-Agent Path Finding

Zhe Chen, Daniel Harabor, Jiaoyang Li et al.

ICLR 2024arXiv:2309.16634

#4360

End-to-End (Instance)-Image Goal Navigation through Correspondence as an Emergent Phenomenon

Guillaume Bono, Leonid Antsfeld, Boris Chidlovskii et al.

ICLR 2024spotlightarXiv:2309.05153

#4361

Learning Energy-Based Models by Cooperative Diffusion Recovery Likelihood

yaxuan zhu, Jianwen Xie, Yingnian Wu et al.

CVPR 2024arXiv:2312.02238

#4362

X-Adapter: Adding Universal Compatibility of Plugins for Upgraded Diffusion Model

Lingmin Ran, Xiaodong Cun, Jia-Wei Liu et al.

#4363

Towards Multi-Intent Spoken Language Understanding via Hierarchical Attention and Optimal Transport

Xuxin Cheng, Zhihong Zhu, Hongxiang Li et al.

CVPR 2024arXiv:2403.15664

#4364

What Do You See in Vehicle? Comprehensive Vision Solution for In-Vehicle Gaze Estimation

Yihua Cheng, Yaning Zhu, Zongji Wang et al.

AAAI 2024paperarXiv:2402.16086

#4365

Deep Homography Estimation for Visual Place Recognition

Feng Lu, Shuting Dong, Lijun Zhang et al.

#4366

Towards Faithful XAI Evaluation via Generalization-Limited Backdoor Watermark

Mengxi Ya, Yiming Li, Tao Dai et al.

ICLR 2024

ECCV 2024arXiv:2407.02174

#4367

BeNeRF:Neural Radiance Fields from a Single Blurry Image and Event Stream

Wenpu Li, Pian Wan, Peng Wang et al.

CVPR 2024arXiv:2306.00519

#4368

DiffInDScene: Diffusion-based High-Quality 3D Indoor Scene Generation

Xiaoliang Ju, Zhaoyang Huang, Yijin Li et al.

#4369

Spectral-Based Graph Neutral Networks for Complementary Item Recommendation

Haitong Luo, Xuying Meng, Suhang Wang et al.

AAAI 2024paperarXiv:2401.02610

#4370

DHGCN: Dynamic Hop Graph Convolution Network for Self-Supervised Point Cloud Learning

Jincen Jiang, Lizhi Zhao, Xuequan Lu et al.

ICLR 2024arXiv:2404.08168

#4371

Conformal Prediction via Regression-as-Classification

Etash Guha, Shlok Natarajan, Thomas Möllenhoff et al.

ICLR 2024spotlightarXiv:2306.00788

#4372

Understanding Augmentation-based Self-Supervised Representation Learning via RKHS Approximation and Regression

Runtian Zhai, Bingbin Liu, Andrej Risteski et al.

ICML 2024arXiv:2405.09331

#4373

Multi-Source Conformal Inference Under Distribution Shift

Yi Liu, Alexander Levis, Sharon-Lise Normand et al.

ECCV 2024arXiv:2401.05906

#4374

PartSTAD: 2D-to-3D Part Segmentation Task Adaptation

Hyunjin Kim, Minhyuk Sung

#4375

Dense Projection for Anomaly Detection

Dazhi Fu, Zhao Zhang, Jicong Fan

ICLR 2024arXiv:2310.00968

#4376

Variance-aware Regret Bounds for Stochastic Contextual Dueling Bandits

Qiwei Di, Tao Jin, Yue Wu et al.

AAAI 2024paperarXiv:2402.07226

#4377

Stitching Sub-trajectories with Conditional Diffusion Model for Goal-Conditioned Offline RL

Sungyoon Kim, Yunseon Choi, Daiki Matsunaga et al.

AAAI 2024paperarXiv:2306.12106

#4378

ViTEraser: Harnessing the Power of Vision Transformers for Scene Text Removal with SegMIM Pretraining

Dezhi Peng, Chongyu Liu, Yuliang Liu et al.

AAAI 2024paperarXiv:2401.11800

#4379

Revisiting Document-Level Relation Extraction with Context-Guided Link Prediction

Monika Jain, Raghava Mutharaju, Ramakanth Kavuluru et al.

ECCV 2024arXiv:2403.16198

#4380

Diffusion Model is a Good Pose Estimator from 3D RF-Vision

Junqiao Fan, Jianfei Yang, Yuecong Xu et al.

ECCV 2024arXiv:2407.05254

#4381

GaussReg: Fast 3D Registration with Gaussian Splatting

Jiahao Chang, Yinglin Xu, Yihao Li et al.

CVPR 2024arXiv:2312.10118

#4382

From-Ground-To-Objects: Coarse-to-Fine Self-supervised Monocular Depth Estimation of Dynamic Objects with Ground Contact Prior

Jaeho Moon, Juan Luis Gonzalez Bello, Byeongjun Kwon et al.

ECCV 2024arXiv:2407.10142

#4383

PARE-Net: Position-Aware Rotation-Equivariant Networks for Robust Point Cloud Registration

Runzhao Yao, Shaoyi Du, Wenting Cui et al.

ICML 2024arXiv:2405.01462

#4384

Uncertainty for Active Learning on Graphs

Dominik Fuchsgruber, Tom Wollschläger, Bertrand Charpentier et al.

ICML 2024spotlightarXiv:2406.10475

#4385

Discrete Latent Perspective Learning for Segmentation and Detection

Deyi Ji, Feng Zhao, Lanyun Zhu et al.

ECCV 2024arXiv:2408.00766

#4386

Optimizing Diffusion Models for Joint Trajectory Prediction and Controllable Generation

Yixiao Wang, Chen Tang, Lingfeng Sun et al.

AAAI 2024paperarXiv:2312.00198

#4387

Optimal Attack and Defense for Reinforcement Learning

Jeremy McMahan, Young Wu, Xiaojin Zhu et al.

ECCV 2024arXiv:2406.00609

#4388

SuperGaussian: Repurposing Video Models for 3D Super Resolution

Yuan Shen, Duygu Ceylan, Paul Guerrero et al.

ICLR 2024spotlightarXiv:2306.08103

#4389

Generating Images with 3D Annotations Using Diffusion Models

Wufei Ma, Qihao Liu, Jiahao Wang et al.

ECCV 2024arXiv:2309.17389

#4390

Prompt-Based Test-Time Real Image Dehazing: A Novel Pipeline

Zixuan Chen, Zewei He, Ziqian Lu et al.

CVPR 2024arXiv:2404.04878

#4391

CycleINR: Cycle Implicit Neural Representation for Arbitrary-Scale Volumetric Super-Resolution of Medical Data

Wei Fang, Yuxing Tang, Heng Guo et al.

ICLR 2024spotlightarXiv:2310.17653

#4392

Fantastic Gains and Where to Find Them: On the Existence and Prospect of General Knowledge Transfer between Any Pretrained Model

Karsten Roth, Lukas Thede, A. Sophia Koepke et al.

ICML 2024arXiv:2405.07414

#4393

Binning as a Pretext Task: Improving Self-Supervised Learning in Tabular Domains

Kyungeun Lee, Ye Seul Sim, Hye-Seung Cho et al.

#4394

Visual Alignment Pre-training for Sign Language Translation

Peiqi Jiao, Yuecong Min, Xilin CHEN

AAAI 2024paperarXiv:2401.02614

#4395

Scaling and Masking: A New Paradigm of Data Sampling for Image and Video Quality Assessment

Yongxu Liu, Yinghui Quan, Guoyao Xiao et al.

#4396

What Effects the Generalization in Visual Reinforcement Learning: Policy Consistency with Truncated Return Prediction

Shuo Wang, Zhihao Wu, X. Hu et al.

CVPR 2024arXiv:2403.05105

#4397

Learning to Rematch Mismatched Pairs for Robust Cross-Modal Retrieval

Haochen Han, Qinghua Zheng, Guang Dai et al.

CVPR 2024arXiv:2403.04381

#4398

Single-to-Dual-View Adaptation for Egocentric 3D Hand Pose Estimation

Ruicong Liu, Takehiko Ohkawa, Mingfang Zhang et al.

ECCV 2024arXiv:2407.10641

#4399

Deep Diffusion Image Prior for Efficient OOD Adaptation in 3D Inverse Problems

Hyungjin Chung, Jong Chul Ye

ICML 2024arXiv:2409.19132

#4400

From Vision to Audio and Beyond: A Unified Model for Audio-Visual Representation and Generation

Kun Su, Xiulong Liu, Eli Shlizerman