Most Cited 2024 &quot;encoder-decoder model&quot; Papers

ECCV 2024posterarXiv:2403.10997

#1202

N2F2: Hierarchical Scene Understanding with Nested Neural Feature Fields

Yash Bhalgat, Iro Laina, Joao F Henriques et al.

AAAI 2024paperarXiv:2308.13568

#1203

Region-Disentangled Diffusion Model for High-Fidelity PPG-to-ECG Translation

Debaditya Shome, Pritam Sarkar, Ali Etemad

CVPR 2024posterarXiv:2312.01623

#1204

Universal Segmentation at Arbitrary Granularity with Language Instruction

Yong Liu, Cairong Zhang, Yitong Wang et al.

ICLR 2024posterarXiv:2401.03349

#1205

Image Inpainting via Tractable Steering of Diffusion Models

Anji Liu, Mathias Niepert, Guy Van den Broeck

CVPR 2024highlightarXiv:2403.01482

#1206

EAGLE: Eigen Aggregation Learning for Object-Centric Unsupervised Semantic Segmentation

Chanyoung Kim, Woojung Han, Dayun Ju et al.

CVPR 2024posterarXiv:2401.10226

#1207

Towards Language-Driven Video Inpainting via Multimodal Large Language Models

Jianzong Wu, Xiangtai Li, Chenyang Si et al.

ICLR 2024posterarXiv:2310.06823

#1208

NECO: NEural Collapse Based Out-of-distribution detection

Mouïn Ben Ammar, Nacim Belkhir, Sebastian Popescu et al.

AAAI 2024paperarXiv:2401.12069

#1209

Beyond TreeSHAP: Efficient Computation of Any-Order Shapley Interactions for Tree Ensembles

Maximilian Muschalik, Fabian Fumagalli, Barbara Hammer et al.

CVPR 2024highlightarXiv:2311.15206

#1210

Insect-Foundation: A Foundation Model and Large-scale 1M Dataset for Visual Insect Understanding

Hoang-Quan Nguyen, Thanh-Dat Truong, Xuan-Bac Nguyen et al.

CVPR 2024posterarXiv:2403.07630

#1211

Hunting Attributes: Context Prototype-Aware Learning for Weakly Supervised Semantic Segmentation

feilong tang, Zhongxing Xu, Zhaojun QU et al.

CVPR 2024posterarXiv:2405.06903

#1212

UniGarmentManip: A Unified Framework for Category-Level Garment Manipulation via Dense Visual Correspondence

Ruihai Wu, Haoran Lu, Yiyan Wang et al.

AAAI 2024paperarXiv:2312.14126

#1213

Entropic Open-Set Active Learning

Bardia Safaei, Vibashan VS, Celso de Melo et al.

AAAI 2024paperarXiv:2305.04440

#1214

Vision Transformer Off-the-Shelf: A Surprising Baseline for Few-Shot Class-Agnostic Counting

Zhicheng Wang, Liwen Xiao, Zhiguo Cao et al.

ICLR 2024posterarXiv:2306.02982

#1215

PolyVoice: Language Models for Speech to Speech Translation

Qianqian Dong, Zhiying Huang, Qiao Tian et al.

#1216

Copula Conformal prediction for multi-step time series prediction

Sophia Sun, Rose Yu

ICLR 2024oral

ICLR 2024posterarXiv:2310.03817

#1217

Logical Languages Accepted by Transformer Encoders with Hard Attention

Pablo Barcelo, Alexander Kozachinskiy, Anthony W. Lin et al.

ECCV 2024posterarXiv:2311.14109

#1218

Boosting the Power of Small Multimodal Reasoning Models to Match Larger Models with Self-Consistency Training

Cheng Tan, Jingxuan Wei, Zhangyang Gao et al.

ICLR 2024posterarXiv:2310.15168

#1219

Ghost on the Shell: An Expressive Representation of General 3D Shapes

Zhen Liu, Yao Feng, Yuliang Xiu et al.

CVPR 2024posterarXiv:2403.02138

#1220

Self-Supervised Facial Representation Learning with Facial Region Awareness

Zheng Gao, Ioannis Patras

CVPR 2024posterarXiv:2403.01813

#1221

A Simple Baseline for Efficient Hand Mesh Reconstruction

zhishan zhou, shihao zhou, Zhi Lv et al.

CVPR 2024posterarXiv:2403.16510

#1222

Make-Your-Anchor: A Diffusion-based 2D Avatar Generation Framework

Ziyao Huang, Fan Tang, Yong Zhang et al.

CVPR 2024posterarXiv:2311.12905

#1223

Revisiting the Domain Shift and Sample Uncertainty in Multi-source Active Domain Transfer

Wenqiao Zhang, Zheqi Lv

ECCV 2024posterarXiv:2407.05005

#1224

Personalized Federated Domain-Incremental Learning based on Adaptive Knowledge Matching

Yichen Li, Wenchao Xu, Haozhao Wang et al.

AAAI 2024paperarXiv:2312.13434

#1225

Zero-1-to-3: Domain-Level Zero-Shot Cognitive Diagnosis via One Batch of Early-Bird Students towards Three Diagnostic Objectives

Weibo Gao, Qi Liu, Hao Wang et al.

#1226

Prompt-Enhanced Multiple Instance Learning for Weakly Supervised Video Anomaly Detection

Junxi Chen, Liang Li, Li Su et al.

ECCV 2024posterarXiv:2407.16698

#1227

Diffusion Models for Monocular Depth Estimation: Overcoming Challenging Conditions

Fabio Tosi, Pierluigi Zama Ramirez, Matteo Poggi

ECCV 2024posterarXiv:2407.02228

#1228

MTMamba: Enhancing Multi-Task Dense Scene Understanding by Mamba-Based Decoders

Baijiong Lin, Weisen Jiang, Pengguang Chen et al.

AAAI 2024paperarXiv:2312.11947

#1229

Emotion Rendering for Conversational Speech Synthesis with Heterogeneous Graph-Based Context Modeling

Rui Liu, Yifan Hu, Yi Ren et al.

CVPR 2024posterarXiv:2403.09124

#1230

Single Domain Generalization for Crowd Counting

Zhuoxuan Peng, S.-H. Gary Chan

ECCV 2024posterarXiv:2312.05283

#1231

Nuvo: Neural UV Mapping for Unruly 3D Representations

Pratul Srinivasan, Stephan J Garbin, Dor Verbin et al.

ECCV 2024posterarXiv:2404.07202

#1232

UMBRAE: Unified Multimodal Brain Decoding

Weihao Xia, Raoul de Charette, Cengiz Oztireli et al.

AAAI 2024paperarXiv:2308.08796

#1233

Chinese Spelling Correction as Rephrasing Language Model

Linfeng Liu, Hongqiu Wu, Hai Zhao

CVPR 2024posterarXiv:2312.08869

#1234

I'M HOI: Inertia-aware Monocular Capture of 3D Human-Object Interactions

Chengfeng Zhao, Juze Zhang, Jiashen Du et al.

CVPR 2024posterarXiv:2404.07155

#1235

Unified Language-driven Zero-shot Domain Adaptation

Senqiao Yang, Zhuotao Tian, Li Jiang et al.

CVPR 2024posterarXiv:2405.04408

#1236

DocRes: A Generalist Model Toward Unifying Document Image Restoration Tasks

Jiaxin Zhang, Dezhi Peng, Chongyu Liu et al.

#1237

Biased Temporal Convolution Graph Network for Time Series Forecasting with Missing Values

Xiaodan Chen, Xiucheng Li, Bo Liu et al.

ICLR 2024oral

AAAI 2024paperarXiv:2401.03082

#1238

UMIE: Unified Multimodal Information Extraction with Instruction Tuning

Lin Sun, Kai Zhang, Qingyuan Li et al.

CVPR 2024posterarXiv:2403.17935

#1239

OmniViD: A Generative Framework for Universal Video Understanding

Junke Wang, Dongdong Chen, Chong Luo et al.

ICLR 2024posterarXiv:2310.00297

#1240

Understanding In-Context Learning from Repetitions

Jianhao (Elliott) Yan, Jin Xu, Chiyu Song et al.

ECCV 2024posterarXiv:2309.04561

#1241

Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding

Ozan Unal, Christos Sakaridis, Suman Saha et al.

ECCV 2024posterarXiv:2404.07984

#1242

View Selection for 3D Captioning via Diffusion Ranking

Tiange Luo, Justin Johnson, Honglak Lee

ECCV 2024posterarXiv:2407.14245

#1243

Dataset Distillation by Automatic Training Trajectories

Dai Liu, Jindong Gu, Hu Cao et al.

AAAI 2024paperarXiv:2312.14334

#1244

DP-AdamBC: Your DP-Adam Is Actually DP-SGD (Unless You Apply Bias Correction)

Qiaoyue Tang, Frederick Shpilevskiy, Mathias Lécuyer

ICLR 2024spotlightarXiv:2403.14966

#1245

DreamFlow: High-quality text-to-3D generation by Approximating Probability Flow

Kyungmin Lee, Kihyuk Sohn, Jinwoo Shin

CVPR 2024posterarXiv:2405.05252

#1246

Attention-Driven Training-Free Efficiency Enhancement of Diffusion Models

Hongjie Wang, Difan Liu, Yan Kang et al.

ECCV 2024posterarXiv:2407.02945

#1247

VEGS: View Extrapolation of Urban Scenes in 3D Gaussian Splatting using Learned Priors

Sungwon Hwang, Min-Jung Kim, Taewoong Kang et al.

AAAI 2024paperarXiv:2312.11792

#1248

Cooper: Coordinating Specialized Agents towards a Complex Dialogue Goal

Yi Cheng, Wenge Liu, Jian Wang et al.

CVPR 2024posterarXiv:2312.02567

#1249

Think Twice Before Selection: Federated Evidential Active Learning for Medical Image Analysis with Domain Shifts

Jiayi Chen, Benteng Ma, Hengfei Cui et al.

ICLR 2024posterarXiv:2403.15441

#1250

Unified Generative Modeling of 3D Molecules with Bayesian Flow Networks

Yuxuan Song, Jingjing Gong, Hao Zhou et al.

CVPR 2024posterarXiv:2406.09829

#1251

Open-Vocabulary Semantic Segmentation with Image Embedding Balancing

Xiangheng Shan, Dongyue Wu, Guilin Zhu et al.

ICLR 2024spotlightarXiv:2302.00456

#1252

Analyzing Feed-Forward Blocks in Transformers through the Lens of Attention Maps

Goro Kobayashi, Tatsuki Kuribayashi, Sho Yokoi et al.

AAAI 2024paperarXiv:2307.05092

#1253

Offline and Online Optical Flow Enhancement for Deep Video Compression

Chuanbo Tang, Xihua Sheng, Zhuoyuan Li et al.

ECCV 2024posterarXiv:2409.17143

#1254

Attention Prompting on Image for Large Vision-Language Models

Runpeng Yu, Weihao Yu, Xinchao Wang

CVPR 2024posterarXiv:2404.11699

#1255

Retrieval-Augmented Embodied Agents

Yichen Zhu, Zhicai Ou, Xiaofeng Mou et al.

CVPR 2024posterarXiv:2403.18978

#1256

TextCraftor: Your Text Encoder Can be Image Quality Controller

Yanyu Li, Xian Liu, Anil Kag et al.

ECCV 2024posterarXiv:2407.10738

#1257

AccDiffusion: An Accurate Method for Higher-Resolution Image Generation

Zhihang Lin, Mingbao Lin, Meng Zhao et al.

ECCV 2024posterarXiv:2407.08414

#1258

MeshAvatar: Learning High-quality Triangular Human Avatars from Multi-view Videos

Yushuo Chen, Zerong Zheng, Zhe Li et al.

ECCV 2024posterarXiv:2308.03135

#1259

EventBind: Learning a Unified Representation to Bind Them All for Event-based Open-world Understanding

jiazhou zhou, Xu Zheng, Yuanhuiyi Lyu et al.

CVPR 2024posterarXiv:2403.10255

#1260

Arbitrary-Scale Image Generation and Upsampling using Latent Diffusion Model and Implicit Neural Decoder

Jinseok Kim, Tae-Kyun Kim

CVPR 2024posterarXiv:2403.07234

#1261

It's All About Your Sketch: Democratising Sketch Control in Diffusion Models

Subhadeep Koley, Ayan Kumar Bhunia, Deeptanshu Sekhri et al.

ECCV 2024posterarXiv:2312.04424

#1262

Cascade-Zero123: One Image to Highly Consistent 3D with Self-Prompted Nearby Views

Yabo Chen, Jiemin Fang, Yuyang Huang et al.

CVPR 2024posterarXiv:2402.14795

#1263

CyberDemo: Augmenting Simulated Human Demonstration for Real-World Dexterous Manipulation

Jun Wang, Yuzhe Qin, Kaiming Kuang et al.

#1264

DC-NAS: Divide-and-Conquer Neural Architecture Search for Multi-Modal Classification

Xinyan Liang, Pinhan Fu, Qian Guo et al.

#1265

Unifying Correspondence Pose and NeRF for Generalized Pose-Free Novel View Synthesis

Sunghwan Hong, Jaewoo Jung, Heeseong Shin et al.

CVPR 2024highlight

AAAI 2024paperarXiv:2312.09059

#1266

Auto-Prox: Training-Free Vision Transformer Architecture Search via Automatic Proxy Discovery

Zimian Wei, Peijie Dong, Zheng Hui et al.

CVPR 2024highlightarXiv:2311.11863

#1267

GP-NeRF: Generalized Perception NeRF for Context-Aware 3D Scene Understanding

Hao Li, Dingwen Zhang, Yalun Dai et al.

ECCV 2024posterarXiv:2402.03631

#1268

CAT-SAM: Conditional Tuning for Few-Shot Adaptation of Segment Anything Model

Aoran Xiao, Weihao Xuan, Heli Qi et al.

#1269

DREAM: Dual Structured Exploration with Mixup for Open-set Graph Domain Adaption

Nan Yin, Mengzhu Wang, Mengzhu Wang et al.

ECCV 2024posterarXiv:2403.11561

#1270

Learning Unified Reference Representation for Unsupervised Multi-class Anomaly Detection

Liren He, Zhengkai Jiang, Jinlong Peng et al.

#1271

Language-Driven Physics-Based Scene Synthesis and Editing via Feature Splatting

Ri-Zhao Qiu, Ge Yang, Weijia Zeng et al.

ECCV 2024poster

CVPR 2024posterarXiv:2404.01819

#1272

Sparse Semi-DETR: Sparse Learnable Queries for Semi-Supervised Object Detection

Tahira Shehzadi, Khurram Azeem Hashmi, Didier Stricker et al.

ECCV 2024posterarXiv:2407.04215

#1273

T2IShield: Defending Against Backdoors on Text-to-Image Diffusion Models

Zhongqi Wang, Jie Zhang, Shiguang Shan et al.

CVPR 2024posterarXiv:2404.01862

#1274

Co-Speech Gesture Video Generation via Motion-Decoupled Diffusion Model

Xu He, Qiaochu Huang, Zhensong Zhang et al.

ICLR 2024posterarXiv:2309.12252

#1275

Parallelizing non-linear sequential models over the sequence length

Yi Heng Lim, Qi Zhu, Joshua Selfridge et al.

CVPR 2024posterarXiv:2311.10111

#1276

VideoCon: Robust Video-Language Alignment via Contrast Captions

Hritik Bansal, Yonatan Bitton, Idan Szpektor et al.

ECCV 2024posterarXiv:2407.11351

#1277

Learning Modality-agnostic Representation for Semantic Segmentation from Any Modalities

Xu Zheng, Yuanhuiyi Lyu, LIN WANG

CVPR 2024posterarXiv:2406.08381

#1278

LaneCPP: Continuous 3D Lane Detection using Physical Priors

Maximilian Pittner, Joel Janai, Alexandru Paul Condurache

ECCV 2024posterarXiv:2311.08100

#1279

PPAD: Iterative Interactions of Prediction and Planning for End-to-end Autonomous Driving

Zhili Chen, Maosheng Ye, Shuangjie Xu et al.

#1280

Graph Disentangled Contrastive Learning with Personalized Transfer for Cross-Domain Recommendation

Jing Liu, Lele Sun, Wei-zhi Nie et al.

ICLR 2024posterarXiv:2307.12851

#1281

Early Neuron Alignment in Two-layer ReLU Networks with Small Initialization

Hancheng Min, Enrique Mallada, Rene Vidal

ECCV 2024posterarXiv:2403.12959

#1282

WHAC: World-grounded Humans and Cameras

Wanqi Yin, Zhongang Cai, Chen Wei et al.

ECCV 2024posterarXiv:2407.15680

#1283

HaloQuest: A Visual Hallucination Dataset for Advancing Multimodal Reasoning

Zhecan Wang, Garrett Bingham, Adams Wei Yu et al.

CVPR 2024posterarXiv:2312.04963

#1284

Text-to-3D Generation with Bidirectional Diffusion using both 2D and 3D priors

Lihe Ding, Shaocong Dong, Zhanpeng Huang et al.

CVPR 2024posterarXiv:2406.05478

#1285

Revisiting Non-Autoregressive Transformers for Efficient Image Synthesis

Zanlin Ni, Yulin Wang, Renping Zhou et al.

ECCV 2024posterarXiv:2403.09334

#1286

Video Editing via Factorized Diffusion Distillation

Uriel Singer, Amit Zohar, Yuval Kirstain et al.

CVPR 2024posterarXiv:2402.19302

#1287

DiffAssemble: A Unified Graph-Diffusion Model for 2D and 3D Reassembly

Gianluca Scarpellini, Stefano Fiorini, Francesco Giuliari et al.

AAAI 2024paperarXiv:2312.08212

#1288

LAMM: Label Alignment for Multi-Modal Prompt Learning

Jingsheng Gao, Jiacheng Ruan, Suncheng Xiang et al.

CVPR 2024posterarXiv:2311.09571

#1289

3D Paintbrush: Local Stylization of 3D Shapes with Cascaded Score Distillation

Dale Decatur, Itai Lang, Kfir Aberman et al.

#1290

Dual Self-Paced Cross-Modal Hashing

Yuan Sun, Jian Dai, Zhenwen Ren et al.

#1291

Dispel Darkness for Better Fusion: A Controllable Visual Enhancer based on Cross-modal Conditional Adversarial Learning

HAO ZHANG, Linfeng Tang, Xinyu Xiang et al.

ECCV 2024posterarXiv:2311.17081

#1292

I-MedSAM: Implicit Medical Image Segmentation with Segment Anything

Xiaobao Wei, Jiajun Cao, Yizhu Jin et al.

CVPR 2024posterarXiv:2308.14316

#1293

UniPT: Universal Parallel Tuning for Transfer Learning with Efficient Parameter and Memory

Haiwen Diao, Bo Wan, Ying Zhang et al.

#1294

Small Model Can Self-Correct

Haixia Han, Jiaqing Liang, Jie Shi et al.

CVPR 2024posterarXiv:2401.03707

#1295

FMA-Net: Flow-Guided Dynamic Filtering and Iterative Feature Refinement with Multi-Attention for Joint Video Super-Resolution and Deblurring

Geunhyuk Youk, Jihyong Oh, Munchurl Kim

CVPR 2024posterarXiv:2402.18771

#1296

NARUTO: Neural Active Reconstruction from Uncertain Target Observations

Ziyue Feng, Huangying Zhan, Zheng Chen et al.

CVPR 2024posterarXiv:2403.11074

#1297

Audio-Visual Segmentation via Unlabeled Frame Exploitation

Jinxiang Liu, Yikun Liu, Ferenas et al.

ECCV 2024posterarXiv:2407.09853

#1298

Image Compression for Machine and Human Vision With Spatial-Frequency Adaptation

han li, Shaohui Li, Shuangrui Ding et al.

CVPR 2024posterarXiv:2403.20126

#1299

ECLIPSE: Efficient Continual Learning in Panoptic Segmentation with Visual Prompt Tuning

Beomyoung Kim, Joonsang Yu, Sung Ju Hwang

ICLR 2024posterarXiv:2304.06094

#1300

Energy-guided Entropic Neural Optimal Transport

Petr Mokrov, Alexander Korotin, Alexander Kolesov et al.

ECCV 2024posterarXiv:2405.04299

#1301

ViewFormer: Exploring Spatiotemporal Modeling for Multi-View 3D Occupancy Perception via View-Guided Transformers

Jinke Li, Xiao He, Chonghua Zhou et al.

ECCV 2024posterarXiv:2407.04948

#1302

Zero-shot Object Counting with Good Exemplars

Huilin Zhu, Jingling Yuan, Zhengwei Yang et al.

AAAI 2024paperarXiv:2312.12263

#1303

FedDiv: Collaborative Noise Filtering for Federated Learning with Noisy Labels

Authors: Jichang Li, Guanbin Li, Hui Cheng et al.

CVPR 2024posterarXiv:2312.11666

#1304

Text-Conditioned Generative Model of 3D Strand-based Human Hairstyles

Vanessa Sklyarova, Egor Zakharov, Otmar Hilliges et al.

ICLR 2024posterarXiv:2310.08872

#1305

R&B: Region and Boundary Aware Zero-shot Grounded Text-to-image Generation

Jiayu Xiao, Henglei Lv, Henglei Lv et al.

CVPR 2024posterarXiv:2303.16198

#1306

Multi-modal Learning for Geospatial Vegetation Forecasting

Vitus Benson, Claire Robin, Christian Requena-Mesa et al.

CVPR 2024posterarXiv:2312.03050

#1307

HIG: Hierarchical Interlacement Graph Approach to Scene Graph Generation in Video Understanding

Trong-Thuan Nguyen, Pha Nguyen, Khoa Luu

#1308

Distribution-aware Knowledge Prototyping for Non-exemplar Lifelong Person Re-identification

Kunlun Xu, Xu Zou, Yuxin Peng et al.

AAAI 2024paperarXiv:2312.08616

#1309

A Generalized Neural Diffusion Framework on Graphs

10011 Yibo Li, Xiao Wang, Hongrui Liu et al.

#1310

Blind Image Quality Assessment Based on Geometric Order Learning

Nyeong-Ho Shin, Seon-Ho Lee, Chang-Su Kim

ECCV 2024posterarXiv:2408.02859

#1311

Multistain Pretraining for Slide Representation Learning in Pathology

Guillaume Jaume, Anurag J Vaidya, Andrew Zhang et al.

ECCV 2024posterarXiv:2407.12511

#1312

Fast Context-Based Low-Light Image Enhancement via Neural Implicit Representations

Tomáš Chobola, Yu Liu, Hanyi Zhang et al.

AAAI 2024paperarXiv:2312.15665

#1313

A Multi-Modal Contrastive Diffusion Model for Therapeutic Peptide Generation

Yongkang Wang, Xuan Liu, Feng Huang et al.

CVPR 2024highlightarXiv:2404.04050

#1314

No Time to Train: Empowering Non-Parametric Networks for Few-shot 3D Scene Segmentation

Xiangyang Zhu, Renrui Zhang, Bowei He et al.

ECCV 2024posterarXiv:2407.12427

#1315

GeneralAD: Anomaly Detection Across Domains by Attending to Distorted Features

Luc Sträter, Mohammadreza Salehi, Efstratios Gavves et al.

ECCV 2024posterarXiv:2407.08813

#1316

FairDomain: Achieving Fairness in Cross-Domain Medical Image Segmentation and Classification

Yu Tian, Congcong Wen, Min Shi et al.

ECCV 2024posterarXiv:2406.07471

#1317

OphNet: A Large-Scale Video Benchmark for Ophthalmic Surgical Workflow Understanding

Ming Hu, Peng Xia, Lin Wang et al.

AAAI 2024paperarXiv:2309.12971

#1318

Higher-Order Graph Convolutional Network with Flower-Petals Laplacians on Simplicial Complexes

Yiming Huang, Yujie Zeng, Qiang Wu et al.

CVPR 2024posterarXiv:2306.08832

#1319

Contrasting Intra-Modal and Ranking Cross-Modal Hard Negatives to Enhance Visio-Linguistic Compositional Understanding

Le Zhang, Rabiul Awal, Aishwarya Agrawal

ICLR 2024posterarXiv:2305.02869

#1320

Masked Structural Growth for 2x Faster Language Model Pre-training

Yiqun Yao, Zheng Zhang, Jing Li et al.

CVPR 2024posterarXiv:2404.06913

#1321

Sparse Global Matching for Video Frame Interpolation with Large Motion

Chunxu Liu, Guozhen Zhang, Rui Zhao et al.

ECCV 2024posterarXiv:2403.09577

#1322

The Nerfect Match: Exploring NeRF Features for Visual Localization

Qunjie Zhou, Maxim Maximov, Or Litany et al.

ICLR 2024posterarXiv:2308.04466

#1323

Backdoor Federated Learning by Poisoning Backdoor-Critical Layers

Haomin Zhuang, Mingxian Yu, Hao Wang et al.

ECCV 2024posterarXiv:2407.11588

#1324

Progressive Pretext Task Learning for Human Trajectory Prediction

Xiaotong Lin, Tianming Liang, Jian-Huang Lai et al.

#1325

Improved baselines for vision-language pre-training

Jakob Verbeek, Enrico Fini, Michal Drozdzal et al.

ICLR 2024posterarXiv:2312.11529

#1326

Efficient and Scalable Graph Generation through Iterative Local Expansion

Andreas Bergmeister, Karolis Martinkus, Nathanaël Perraudin et al.

CVPR 2024posterarXiv:2403.18920

#1327

CPR: Retrieval Augmented Generation for Copyright Protection

Aditya Golatkar, Alessandro Achille, Luca Zancato et al.

ECCV 2024posterarXiv:2310.16305

#1328

Dolfin: Diffusion Layout Transformers without Autoencoder

Yilin Wang, Zeyuan Chen, Liangjun Zhong et al.

ICLR 2024posterarXiv:2311.11202

#1329

Unmasking and Improving Data Credibility: A Study with Datasets for Training Harmless Language Models

Zhaowei Zhu, Jialu Wang, Hao Cheng et al.

CVPR 2024posterarXiv:2311.14402

#1330

TEA: Test-time Energy Adaptation

Yige Yuan, Bingbing Xu, Liang Hou et al.

#1331

2382 SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-Form Layout-to-Image Generation

Chengyou Jia, Minnan Luo, Zhuohang Dang et al.

AAAI 2024paperarXiv:2312.12585

#1332

BadRL: Sparse Targeted Backdoor Attack against Reinforcement Learning

Jing Cui, Yufei Han, Yuzhe Ma et al.

AAAI 2024paperarXiv:2402.14335

#1333

HyperFast: Instant Classification for Tabular Data

David Bonet, Daniel Mas Montserrat, Xavier Giró-i-Nieto et al.

ICLR 2024posterarXiv:2308.15812

#1334

Peering Through Preferences: Unraveling Feedback Acquisition for Aligning Large Language Models

Hritik Bansal, John Dang, Aditya Grover

ICLR 2024posterarXiv:2309.16354

#1335

Transformer-VQ: Linear-Time Transformers via Vector Quantization

Lucas D. Lingle

ECCV 2024posterarXiv:2404.01197

#1336

Getting it Right: Improving Spatial Consistency in Text-to-Image Models

Agneet Chatterjee, Gabriela Ben Melech Stan, Estelle Guez Aflalo et al.

CVPR 2024posterarXiv:2403.18383

#1337

Generative Multi-modal Models are Good Class Incremental Learners

Xusheng Cao, Haori Lu, Linlan Huang et al.

ECCV 2024posterarXiv:2401.00391

#1338

Safe-Sim: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries

WEI-JER Chang, Francesco Pittaluga, Masayoshi TOMIZUKA et al.

AAAI 2024paperarXiv:2312.12236

#1339

Generalization Analysis of Machine Learning Algorithms via the Worst-Case Data-Generating Probability Measure

Xinying Zou, Samir Perlaza, Inaki Esnaola et al.

AAAI 2024paperarXiv:2401.01232

#1340

Motif-Aware Riemannian Graph Neural Network with Generative-Contrastive Learning

Li Sun, Zhenhao Huang, Zixi Wang et al.

AAAI 2024paperarXiv:2305.03731

#1341

Working Memory Capacity of ChatGPT: An Empirical Study

Dongyu Gong, Xingchen Wan, Dingmin Wang

CVPR 2024highlightarXiv:2312.13016

#1342

DiffPortrait3D: Controllable Diffusion for Zero-Shot Portrait View Synthesis

Yuming Gu, Hongyi Xu, You Xie et al.

AAAI 2024paperarXiv:2402.15933

#1343

Bridging the Gap between 2D and 3D Visual Question Answering: A Fusion Approach for 3D VQA

Wentao Mo, Yang Liu

CVPR 2024posterarXiv:2312.09249

#1344

ZeroRF: Fast Sparse View 360° Reconstruction with Zero Pretraining

Ruoxi Shi, Xinyue Wei, Cheng Wang et al.

AAAI 2024paperarXiv:2312.07856

#1345

DTL: Disentangled Transfer Learning for Visual Recognition

Minghao Fu, Ke Zhu, Jianxin Wu

ECCV 2024posterarXiv:2407.18121

#1346

Efficient Inference of Vision Instruction-Following Models with Elastic Cache

ZUYAN LIU, Benlin Liu, Jiahui Wang et al.

ECCV 2024posterarXiv:2403.09192

#1347

PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation

Yizhe Xiong, Hui Chen, Tianxiang Hao et al.

AAAI 2024paperarXiv:2312.06330

#1348

Navigating Open Set Scenarios for Skeleton-Based Action Recognition

Kunyu Peng, Cheng Yin, Junwei Zheng et al.

ECCV 2024posterarXiv:2311.15657

#1349

Enhancing Diffusion Models with Text-Encoder Reinforcement Learning

Chaofeng Chen, Annan Wang, Haoning Wu et al.

#1350

Boosting Spike Camera Image Reconstruction from a Perspective of Dealing with Spike Fluctuations

Rui Zhao, Ruiqin Xiong, Jing Zhao et al.

CVPR 2024highlightarXiv:2406.04542

#1351

M&M VTO: Multi-Garment Virtual Try-On and Editing

Luyang Zhu, Yingwei Li, Nan Liu et al.

AAAI 2024paperarXiv:2401.06159

#1352

FRED: Towards a Full Rotation-Equivariance in Aerial Image Object Detection

Chanho Lee, Jinsu Son, Hyounguk Shon et al.

CVPR 2024posterarXiv:2312.03703

#1353

Skeleton-in-Context: Unified Skeleton Sequence Modeling with In-Context Learning

Xinshun Wang, Zhongbin Fang, Xia Li et al.

CVPR 2024posterarXiv:2312.01409

#1354

Generative Rendering: Controllable 4D-Guided Video Generation with 2D Diffusion Models

Shengqu Cai, Duygu Ceylan, Matheus Gadelha et al.

ECCV 2024posterarXiv:2311.12751

#1355

Towards Natural Language-Guided Drones: GeoText-1652 Benchmark with Spatial Relation Matching

Meng Chu, Zhedong Zheng, Wei Ji et al.

AAAI 2024paperarXiv:2306.12755

#1356

Beyond OOD State Actions: Supported Cross-Domain Offline Reinforcement Learning

Jinxin Liu, Ziqi Zhang, Zhenyu Wei et al.

#1357

eTag: Class-Incremental Learning via Embedding Distillation and Task-Oriented Generation

Libo Huang, Yan Zeng, Chuanguang Yang et al.

CVPR 2024posterarXiv:2312.04016

#1358

PartDistill: 3D Shape Part Segmentation by Vision-Language Model Distillation

Ardian Umam, Cheng-Kun Yang, Min-Hung Chen et al.

ECCV 2024posterarXiv:2311.17921

#1359

Do text-free diffusion models learn discriminative visual representations?

Soumik Mukhopadhyay, Matthew Gwilliam, Yosuke Yamaguchi et al.

#1360

Automatic Radiology Reports Generation via Memory Alignment Network

Hongyu Shen, Mingtao Pei, Juncai Liu et al.

CVPR 2024posterarXiv:2403.12033

#1361

HiKER-SGG: Hierarchical Knowledge Enhanced Robust Scene Graph Generation

Ce Zhang, Simon Stepputtis, Joseph Campbell et al.

ECCV 2024posterarXiv:2407.02040

#1362

ScaleDreamer: Scalable Text-to-3D Synthesis with Asynchronous Score Distillation

Zhiyuan MA, Yuxiang WEI, Yabin Zhang et al.

ECCV 2024posterarXiv:2405.15700

#1363

Trackastra: Transformer-based cell tracking for live-cell microscopy

Benjamin Gallusser, Weigert Martin

#1364

Multimodal Patient Representation Learning with Missing Modalities and Labels

Zhenbang Wu, Anant Dadu, Nicholas Tustison et al.

CVPR 2024highlightarXiv:2401.10786

#1365

Sat2Scene: 3D Urban Scene Generation from Satellite Images with Diffusion

Zuoyue Li, Zhenqiang Li, Zhaopeng Cui et al.

ECCV 2024posterarXiv:2404.05680

#1366

SphereHead: Stable 3D Full-head Synthesis with Spherical Tri-plane Representation

Heyuan Li, Ce Chen, Tianhao Shi et al.

CVPR 2024posterarXiv:2403.20142

#1367

StegoGAN: Leveraging Steganography for Non-Bijective Image-to-Image Translation

Sidi Wu, Yizi Chen, Loic Landrieu et al.

AAAI 2024paperarXiv:2312.15043

#1368

GroundVLP: Harnessing Zero-Shot Visual Grounding from Vision-Language Pre-training and Open-Vocabulary Object Detection

Haozhan Shen, Tiancheng Zhao, Mingwei Zhu et al.

#1369

Text-Based Occluded Person Re-identification via Multi-Granularity Contrastive Consistency Learning

Xinyi Wu, Wentao Ma, Dan Guo et al.

CVPR 2024highlightarXiv:2311.17518

#1370

The Devil is in the Fine-Grained Details: Evaluating Open-Vocabulary Object Detectors for Fine-Grained Understanding

Lorenzo Bianchi, Fabio Carrara, Nicola Messina et al.

CVPR 2024posterarXiv:2405.02859

#1371

MVIP-NeRF: Multi-view 3D Inpainting on NeRF Scenes via Diffusion Prior

Honghua Chen, Chen Change Loy, Xingang Pan

#1372

Zero Bubble (Almost) Pipeline Parallelism

Penghui Qi, Xinyi Wan, Guangxing Huang et al.

ICLR 2024posterarXiv:2310.03262

#1373

Predicting Emergent Abilities with Infinite Resolution Evaluation

Shengding Hu, Xin Liu, Xu Han et al.

CVPR 2024posterarXiv:2404.11998

#1374

Curriculum Point Prompting for Weakly-Supervised Referring Image Segmentation

Qiyuan Dai, Sibei Yang

#1375

SasWOT: Real-Time Semantic Segmentation Architecture Search WithOut Training

Chendi Zhu, Lujun Li, Yuli Wu et al.

CVPR 2024posterarXiv:2311.05698

#1376

Mirasol3B: A Multimodal Autoregressive Model for Time-Aligned and Contextual Modalities

AJ Piergiovanni, Isaac Noble, Dahun Kim et al.

ECCV 2024posterarXiv:2312.13308

#1377

SWinGS: Sliding Windows for Dynamic 3D Gaussian Splatting

Richard Shaw, Michal Nazarczuk, Song Jifei et al.

CVPR 2024posterarXiv:2403.02981

#1378

Doubly Abductive Counterfactual Inference for Text-based Image Editing

Xue Song, Jiequan Cui, Hanwang Zhang et al.

AAAI 2024paperarXiv:2312.11376

#1379

CLIM: Contrastive Language-Image Mosaic for Region Representation

Size Wu, Wenwei Zhang, Lumin XU et al.

#1380

Efficient Deweahter Mixture-of-Experts with Uncertainty-Aware Feature-Wise Linear Modulation

Rongyu Zhang, Yulin Luo, Jiaming Liu et al.

CVPR 2024posterarXiv:2405.14497

#1381

Improving Single Domain-Generalized Object Detection: A Focus on Diversification and Alignment

Muhammad Sohail Danish, Muhammad Haris Khan, Muhammad Akhtar Munir et al.

CVPR 2024posterarXiv:2405.06600

#1382

Multi-Object Tracking in the Dark

Xinzhe Wang, Kang Ma, Qiankun Liu et al.

ECCV 2024posterarXiv:2408.10760

#1383

SAM-COD: SAM-guided Unified Framework for Weakly-Supervised Camouflaged Object Detection

Huafeng Chen, Pengxu Wei, Guangqian Guo et al.

CVPR 2024posterarXiv:2403.09639

#1384

GroupContrast: Semantic-aware Self-supervised Representation Learning for 3D Understanding

Chengyao Wang, Li Jiang, Xiaoyang Wu et al.

CVPR 2024posterarXiv:2404.00262

#1385

Image-to-Image Matching via Foundation Models: A New Perspective for Open-Vocabulary Semantic Segmentation

Yuan Wang, Rui Sun, Naisong Luo et al.

CVPR 2024posterarXiv:2305.14107

#1386

Federated Generalized Category Discovery

Nan Pu, Wenjing Li, Xinyuan Ji et al.

CVPR 2024posterarXiv:2402.17614

#1387

Adapt Before Comparison: A New Perspective on Cross-Domain Few-Shot Segmentation

Jonas Herzog

ECCV 2024posterarXiv:2401.12978

#1388

Beyond the Contact: Discovering Comprehensive Affordance for 3D Objects from Pre-trained 2D Diffusion Models

Hyeonwoo Kim, Sookwan Han, Patrick Kwon et al.

CVPR 2024posterarXiv:2404.03924

#1389

Learning Correlation Structures for Vision Transformers

Manjin Kim, Paul Hongsuck Seo, Cordelia Schmid et al.

CVPR 2024posterarXiv:2404.16030

#1390

MoDE: CLIP Data Experts via Clustering

Jiawei Ma, Po-Yao Huang, Saining Xie et al.

ICLR 2024spotlightarXiv:2211.01939

#1391

Empirical Analysis of Model Selection for Heterogeneous Causal Effect Estimation

Divyat Mahajan, Ioannis Mitliagkas, Brady Neal et al.

CVPR 2024highlightarXiv:2312.07063

#1392

Template Free Reconstruction of Human-object Interaction with Procedural Interaction Generation

Xianghui Xie, Bharat Lal Bhatnagar, Jan Lenssen et al.

CVPR 2024posterarXiv:2403.16385

#1393

Synthesize Step-by-Step: Tools Templates and LLMs as Data Generators for Reasoning-Based Chart VQA

Zhuowan Li, Bhavan Jasani, Peng Tang et al.

AAAI 2024paperarXiv:2312.10686

#1394

Out-of-Distribution Detection in Long-Tailed Recognition with Calibrated Outlier Class Learning

Wenjun Miao, Guansong Pang, Xiao Bai et al.

ECCV 2024posterarXiv:2310.20436

#1395

SignAvatars: A Large-scale 3D Sign Language Holistic Motion Dataset and Benchmark

Zhengdi Yu, Shaoli Huang, yongkang cheng et al.

#1396

Generate Subgoal Images before Act: Unlocking the Chain-of-Thought Reasoning in Diffusion Model for Robot Manipulation with Multimodal Prompts

Fei Ni, Jianye Hao, Shiguang Wu et al.

CVPR 2024posterarXiv:2405.02066

#1397

WateRF: Robust Watermarks in Radiance Fields for Protection of Copyrights

Youngdong Jang, Dong In Lee, MinHyuk Jang et al.

ICLR 2024oralarXiv:2311.12996

#1398

RLIF: Interactive Imitation Learning as Reinforcement Learning

Jianlan Luo, Perry Dong, Yuexiang Zhai et al.

CVPR 2024posterarXiv:2403.10066

#1399

Contrastive Pre-Training with Multi-View Fusion for No-Reference Point Cloud Quality Assessment

Ziyu Shan, Yujie Zhang, Qi Yang et al.

ECCV 2024posterarXiv:2407.13517

#1400

Mask2Map: Vectorized HD Map Construction Using Bird's Eye View Segmentation Masks

Sehwan Choi, Jun Won Choi, JUNGHO KIM et al.