Most Cited 2024 &quot;key-value state reuse&quot; Papers

AAAI 2024paperarXiv:2402.13188

#3802

Question Calibration and Multi-Hop Modeling for Temporal Question Answering

Chao Xue, Di Liang, Pengfei Wang et al.

AAAI 2024paperarXiv:2312.09501

#3803

EDA: Evolving and Distinct Anchors for Multimodal Motion Prediction

Longzhong Lin, Xuewu Lin, Tianwei Lin et al.

ICML 2024arXiv:2405.09927

#3804

Moreau Envelope for Nonconvex Bi-Level Optimization: A Single-Loop and Hessian-Free Solution Strategy

Risheng Liu, Zhu Liu, Wei Yao et al.

AAAI 2024paperarXiv:2308.15727

#3805

Quantifying and Analyzing Entity-Level Memorization in Large Language Models

Zhenhong Zhou, Jiuyang Xiang, Chaomeng Chen et al.

ECCV 2024arXiv:2407.15087

#3806

Navigation Instruction Generation with BEV Perception and Large Language Models

Sheng Fan, Rui Liu, Wenguan Wang et al.

CVPR 2024arXiv:2402.18920

#3807

Spectral Meets Spatial: Harmonising 3D Shape Matching and Interpolation

Dongliang Cao, Marvin Eisenberger, Nafie El Amrani et al.

#3808

SAVSR: Arbitrary-Scale Video Super-resolution via a Learned Scale-Adaptive Network

Zekun Li, Hongying Liu, Fanhua Shang et al.

ECCV 2024arXiv:2407.15350

#3809

WTS: A Pedestrian-Centric Traffic Video Dataset for Fine-grained Spatial-Temporal Understanding

Quan Kong, Yuki Kawana, Rajat Saini et al.

ICML 2024arXiv:2211.04684

#3810

Few-Shot Character Understanding in Movies as an Assessment to Meta-Learning of Theory-of-Mind

Mo Yu, Qiujing Wang, Shunchi Zhang et al.

ECCV 2024arXiv:2310.08820

#3811

Learning to Adapt SAM for Segmenting Cross-domain Point Clouds

Xidong Peng, Runnan Chen, Feng Qiao et al.

ICLR 2024spotlightarXiv:2309.01213

#3812

Implicit regularization of deep residual networks towards neural ODEs

Pierre Marion, Yu-Han Wu, Michael Sander et al.

ICML 2024arXiv:2405.01460

#3813

Purify Unlearnable Examples via Rate-Constrained Variational Autoencoders

Yi Yu, Yufei Wang, Song Xia et al.

ICLR 2024arXiv:2403.01599

#3814

SCHEMA: State CHangEs MAtter for Procedure Planning in Instructional Videos

Yulei Niu, Wenliang Guo, Long Chen et al.

CVPR 2024arXiv:2403.07222

#3815

You'll Never Walk Alone: A Sketch and Text Duet for Fine-Grained Image Retrieval

Subhadeep Koley, Ayan Kumar Bhunia, Aneeshan Sain et al.

ECCV 2024arXiv:2409.17457

#3816

CadVLM: Bridging Language and Vision in the Generation of Parametric CAD Sketches

Sifan Wu, Amir Hosein Khasahmadi, Mor Katz et al.

ECCV 2024arXiv:2406.09272

#3817

Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos

Changan Chen, Puyuan Peng, Ami Baid et al.

ICML 2024oralarXiv:2308.08143

#3818

IIANet: An Intra- and Inter-Modality Attention Network for Audio-Visual Speech Separation

Kai Li, Runxuan Yang, Fuchun Sun et al.

CVPR 2024arXiv:2403.20236

#3819

Long-Tailed Anomaly Detection with Learnable Class Names

Chih-Hui Ho, Kuan-Chuan Peng, Nuno Vasconcelos

AAAI 2024paperarXiv:2312.15731

#3820

Adaptive FSS: A Novel Few-Shot Segmentation Framework via Prototype Enhancement

Jing Wang, Jiangyun Li, Chen Chen et al.

#3821

Unmixing Diffusion for Self-Supervised Hyperspectral Image Denoising

Haijin Zeng, Jiezhang Cao, Yongyong Chen et al.

AAAI 2024paperarXiv:2305.15090

#3822

STAR: Boosting Low-Resource Information Extraction by Structure-to-Text Data Generation with Large Language Models

Mingyu Derek Ma, Xiaoxuan Wang, Po-Nien Kung et al.

AAAI 2024paperarXiv:2308.12608

#3823

HR-Pro: Point-Supervised Temporal Action Localization via Hierarchical Reliability Propagation

Huaxin Zhang, Xiang Wang, Xiaohao Xu et al.

ICLR 2024arXiv:2304.06911

#3824

3D Feature Prediction for Masked-AutoEncoder-Based Point Cloud Pretraining

Siming Yan, Yuqi Yang, Yu-Xiao Guo et al.

#3825

Aligning Geometric Spatial Layout in Cross-View Geo-Localization via Feature Recombination

Qingwang Zhang, Yingying Zhu

ICLR 2024spotlightarXiv:2310.03419

#3826

Pre-Training and Fine-Tuning Generative Flow Networks

Ling Pan, Moksh Jain, Kanika Madan et al.

ICLR 2024arXiv:2402.17888

#3827

ConjNorm: Tractable Density Estimation for Out-of-Distribution Detection

Bo Peng, Yadan Luo, Yonggang Zhang et al.

ICLR 2024oralarXiv:2401.11611

#3828

Continuous Field Reconstruction from Sparse Observations with Implicit Neural Networks

Xihaier Luo, Wei Xu, Balasubramanya T. Nadiga et al.

CVPR 2024arXiv:2312.02152

#3829

Steerers: A Framework for Rotation Equivariant Keypoint Descriptors

Georg Bökman, Johan Edstedt, Michael Felsberg et al.

CVPR 2024arXiv:2404.01758

#3830

GEARS: Local Geometry-aware Hand-object Interaction Synthesis

Keyang Zhou, Bharat Lal Bhatnagar, Jan Lenssen et al.

CVPR 2024highlightarXiv:2404.05136

#3831

Self-Supervised Multi-Object Tracking with Path Consistency

Zijia Lu, Bing Shuai, Yanbei Chen et al.

CVPR 2024arXiv:2403.16997

#3832

Composed Video Retrieval via Enriched Context and Discriminative Embeddings

Omkar Thawakar, Muzammal Naseer, Rao Anwer et al.

CVPR 2024arXiv:2311.17389

#3833

360Loc: A Dataset and Benchmark for Omnidirectional Visual Localization with Cross-device Queries

Huajian Huang, Changkun Liu, Yipeng Zhu et al.

CVPR 2024arXiv:2412.10651

#3834

LAN: Learning to Adapt Noise for Image Denoising

Changjin Kim, Tae Hyun Kim, Sungyong Baik

ICLR 2024spotlightarXiv:2310.01769

#3835

How Over-Parameterization Slows Down Gradient Descent in Matrix Sensing: The Curses of Symmetry and Initialization

Nuoya Xiong, Lijun Ding, Simon Du

AAAI 2024paperarXiv:2312.07175

#3836

Instrumental Variable Estimation for Causal Inference in Longitudinal Data with Time-Dependent Latent Confounders

Debo Cheng, Ziqi Xu, Jiuyong Li et al.

CVPR 2024arXiv:2312.14235

#3837

Neural Spline Fields for Burst Image Fusion and Layer Separation

Ilya Chugunov, David Shustin, Ruyu Yan et al.

ICML 2024arXiv:2402.06625

#3838

Understanding the Effects of Iterative Prompting on Truthfulness

Satyapriya Krishna, Chirag Agarwal, Himabindu Lakkaraju

ECCV 2024arXiv:2311.12066

#3839

EditShield: Protecting Unauthorized Image Editing by Instruction-guided Diffusion Models

Ruoxi Chen, Haibo Jin, Yixin Liu et al.

CVPR 2024arXiv:2312.05849

#3840

InteractDiffusion: Interaction Control in Text-to-Image Diffusion Models

Jiun Tian Hoe, Xudong Jiang, Chee Seng Chan et al.

ICLR 2024arXiv:2310.02232

#3841

HoloNets: Spectral Convolutions do extend to Directed Graphs

Christian Koke, Daniel Cremers

CVPR 2024arXiv:2402.19286

#3842

PrPSeg: Universal Proposition Learning for Panoramic Renal Pathology Segmentation

Ruining Deng, Quan Liu, Can Cui et al.

CVPR 2024arXiv:2211.12036

#3843

Dual Prototype Attention for Unsupervised Video Object Segmentation

Suhwan Cho, Minhyeok Lee, Seunghoon Lee et al.

CVPR 2024arXiv:2303.08314

#3844

Guided Slot Attention for Unsupervised Video Object Segmentation

Minhyeok Lee, Suhwan Cho, Dogyoon Lee et al.

ICML 2024arXiv:2406.06893

#3845

Transformers Provably Learn Sparse Token Selection While Fully-Connected Nets Cannot

Zixuan Wang, Stanley Wei, Daniel Hsu et al.

#3846

Boosting Neural Cognitive Diagnosis with Student’s Affective State Modeling

Shanshan Wang, Zhen Zeng, Xun Yang et al.

ECCV 2024arXiv:2403.18187

#3847

LayoutFlow: Flow Matching for Layout Generation

Julian Jorge Andrade Guerreiro, Naoto Inoue, Kento Masui et al.

ECCV 2024arXiv:2404.12922

#3848

Is Retain Set All You Need in Machine Unlearning? Restoring Performance of Unlearned Models with Out-Of-Distribution Images

Jacopo Bonato, Marco Cotogni, Luigi Sabetta

ICLR 2024arXiv:2310.11311

#3849

Elucidating the design space of classifier-guided diffusion generation

Jiajun Ma, Tianyang Hu, Wenjia Wang et al.

ECCV 2024arXiv:2404.19149

#3850

SAGS: Structure-Aware 3D Gaussian Splatting

Evangelos Ververas, Rolandos Alexandros Potamias, Song Jifei et al.

ICML 2024arXiv:2306.02865

#3851

Seizing Serendipity: Exploiting the Value of Past Success in Off-Policy Actor-Critic

Tianying Ji, Yu Luo, Fuchun Sun et al.

CVPR 2024arXiv:2403.16646

#3852

Clustering Propagation for Universal Medical Image Segmentation

Yuhang Ding, Liulei Li, Wenguan Wang et al.

ICML 2024spotlightarXiv:2307.05831

#3853

Memorization Through the Lens of Curvature of Loss Function Around Samples

Isha Garg, Deepak Ravikumar, Kaushik Roy

ECCV 2024arXiv:2403.10755

#3854

Match-Stereo-Videos: Bidirectional Alignment for Consistent Dynamic Stereo Matching

Junpeng Jing, Ye Mao, Krystian Mikolajczyk

ECCV 2024arXiv:2405.11276

#3855

Visible and Clear: Finding Tiny Objects in Difference Map

Bing Cao, Haiyu Yao, Pengfei Zhu et al.

ICML 2024arXiv:2401.14732

#3856

Residual Quantization with Implicit Neural Codebooks

Iris Huijben, Matthijs Douze, Matthew Muckley et al.

ECCV 2024arXiv:2311.11227

#3857

FedRA: A Random Allocation Strategy for Federated Tuning to Unleash the Power of Heterogeneous Clients

Shangchao Su, Bin Li, Xiangyang Xue

CVPR 2024arXiv:2302.06637

#3858

PerAda: Parameter-Efficient Federated Learning Personalization with Generalization Guarantees

Chulin Xie, De-An Huang, Wenda Chu et al.

ICLR 2024arXiv:2307.13883

#3859

ExeDec: Execution Decomposition for Compositional Generalization in Neural Program Synthesis

Kensen Shi, Joey Hong, Yinlin Deng et al.

ECCV 2024arXiv:2407.10625

#3860

WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models

Zijian He, Peixin Chen, Guangrun Wang et al.

ECCV 2024arXiv:2407.07735

#3861

Protecting NeRFs' Copyright via Plug-And-Play Watermarking Base Model

Qi Song, Ziyuan Luo, Ka Chun Cheung et al.

ECCV 2024arXiv:2407.10125

#3862

When Pedestrian Detection Meets Multi-Modal Learning: Generalist Model and Benchmark Dataset

Yi Zhang, Wang Zeng, Sheng Jin et al.

ECCV 2024arXiv:2407.09033

#3863

Textual Query-Driven Mask Transformer for Domain Generalized Segmentation

Byeonghyun Pak, Byeongju Woo, Sunghwan Kim et al.

ECCV 2024arXiv:2401.04730

#3864

A Simple Baseline for Spoken Language to Sign Language Translation with 3D Avatars

Ronglai Zuo, Fangyun Wei, Zenggui Chen et al.

CVPR 2024arXiv:2404.14542

#3865

UVEB: A Large-scale Benchmark and Baseline Towards Real-World Underwater Video Enhancement

yaofeng xie, Lingwei Kong, Kai Chen et al.

#3866

Surface Reconstruction for 3D Gaussian Splatting via Local Structural Hints

Qianyi Wu, Jianmin Zheng, Jianfei Cai

ECCV 2024

ICML 2024arXiv:2402.08699

#3867

Unsupervised Evaluation of Code LLMs with Round-Trip Correctness

Miltiadis Allamanis, Sheena Panthaplackel, Pengcheng Yin

CVPR 2024arXiv:2401.02317

#3868

BA-SAM: Scalable Bias-Mode Attention Mask for Segment Anything Model

song yiran, Qianyu Zhou, Xiangtai Li et al.

CVPR 2024arXiv:2406.08785

#3869

BEVSpread: Spread Voxel Pooling for Bird’s-Eye-View Representation in Vision-based Roadside 3D Object Detection

Wenjie Wang, Yehao Lu, Guangcong Zheng et al.

AAAI 2024paperarXiv:2401.06521

#3870

Exploring Diverse Representations for Open Set Recognition

Yu Wang, Junxian Mu, Pengfei Zhu et al.

CVPR 2024highlightarXiv:2404.03159

#3871

HandDiff: 3D Hand Pose Estimation with Diffusion on Image-Point Cloud

WENCAN CHENG, Hao Tang, Luc Van Gool et al.

ICLR 2024arXiv:2403.11391

#3872

Investigating the Benefits of Projection Head for Representation Learning

Yihao Xue, Eric Gan, Jiayi Ni et al.

CVPR 2024arXiv:2312.12478

#3873

ProS: Prompting-to-simulate Generalized knowledge for Universal Cross-Domain Retrieval

Fang Kaipeng, Jingkuan Song, Lianli Gao et al.

CVPR 2024highlightarXiv:2406.18817

#3874

Correspondence-Free Non-Rigid Point Set Registration Using Unsupervised Clustering Analysis

Mingyang Zhao, Jiang Jingen, Lei Ma et al.

CVPR 2024arXiv:2305.16316

#3875

Making Vision Transformers Truly Shift-Equivariant

Renan A. Rojas-Gomez, Teck-Yian Lim, Minh Do et al.

ECCV 2024arXiv:2404.06451

#3876

SmartControl: Enhancing ControlNet for Handling Rough Visual Conditions

XIAOYU LIU, Yuxiang WEI, Ming LIU et al.

ECCV 2024arXiv:2407.07586

#3877

Simplifying Source-Free Domain Adaptation for Object Detection: Effective Self-Training Strategies and Performance Insights

Yan Hao, Florent Forest, Olga Fink

ICLR 2024arXiv:2405.02797

#3878

Adapting to Distribution Shift by Visual Domain Prompt Generation

Zhixiang Chi, Li Gu, Tao Zhong et al.

ECCV 2024arXiv:2407.07197

#3879

ColorPeel: Color Prompt Learning with Diffusion Models via Color and Shape Disentanglement

Muhammad Atif Butt, Kai Wang, Javier Vazquez-Corral et al.

ICML 2024arXiv:2310.02299

#3880

Discovering Symmetry Breaking in Physical Systems with Relaxed Group Convolution

Rui Wang, Elyssa Hofgard, Han Gao et al.

#3881

Improving Transferable Targeted Adversarial Attacks with Model Self-Enhancement

Han Wu, Guanyan Ou, Weibin Wu et al.

CVPR 2024arXiv:2404.18135

#3882

Dexterous Grasp Transformer

Guo-Hao Xu, Yi-Lin Wei, Dian Zheng et al.

ICLR 2024arXiv:2304.01910

#3883

On the Variance of Neural Network Training with respect to Test Sets and Distributions

Keller Jordan

AAAI 2024paperarXiv:2301.13779

#3884

FLAME: A Small Language Model for Spreadsheet Formulas

Harshit Joshi, José Cambronero Sanchez, Abishai Ebenezer et al.

AAAI 2024paperarXiv:2307.14878

#3885

MESED: A Multi-Modal Entity Set Expansion Dataset with Fine-Grained Semantic Classes and Hard Negative Entities

Li Yangning, Tingwei Lu, Hai-Tao Zheng et al.

#3886

Dual Prior Unfolding for Snapshot Compressive Imaging

Jiancheng Zhang, Haijin Zeng, Jiezhang Cao et al.

CVPR 2024arXiv:2311.17532

#3887

Weakly-Supervised Emotion Transition Learning for Diverse 3D Co-speech Gesture Generation

Xingqun Qi, Jiahao Pan, Peng Li et al.

CVPR 2024arXiv:2309.12378

#3888

Unsupervised Semantic Segmentation Through Depth-Guided Feature Correlation and Sampling

Leon Sick, Dominik Engel, Pedro Hermosilla et al.

ICLR 2024arXiv:2403.10943

#3889

MIntRec2.0: A Large-scale Benchmark Dataset for Multimodal Intent Recognition and Out-of-scope Detection in Conversations

Hanlei Zhang, Xin Wang, Hua Xu et al.

ICLR 2024arXiv:2310.07449

#3890

PORF: POSE RESIDUAL FIELD FOR ACCURATE NEURAL SURFACE RECONSTRUCTION

Jia-Wang Bian, Wenjing Bian, Victor Prisacariu et al.

CVPR 2024arXiv:2405.19899

#3891

Open-Set Domain Adaptation for Semantic Segmentation

Seun-An Choe, Ah-Hyung Shin, Keon Hee Park et al.

ICML 2024spotlightarXiv:2402.17135

#3892

Unsupervised Zero-Shot Reinforcement Learning via Functional Reward Encodings

Kevin Frans, Seohong Park, Pieter Abbeel et al.

ICML 2024arXiv:2312.03656

#3893

Interpretability Illusions in the Generalization of Simplified Models

Dan Friedman, Andrew Lampinen, Lucas Dixon et al.

CVPR 2024arXiv:2403.02626

#3894

Modeling Collaborator: Enabling Subjective Vision Classification With Minimal Human Effort via LLM Tool-Use

Imad Eddine Toubal, Aditya Avinash, Neil Alldrin et al.

ECCV 2024arXiv:2407.11174

#3895

iHuman: Instant Animatable Digital Humans From Monocular Videos

Pramish Paudel, Anubhav Khanal, Danda Pani Paudel et al.

AAAI 2024paperarXiv:2312.12838

#3896

FedA3I: Annotation Quality-Aware Aggregation for Federated Medical Image Segmentation against Heterogeneous Annotation Noise

Nannan Wu, Zhaobin Sun, Zengqiang Yan et al.

#3897

Pre-training Sequence, Structure, and Surface Features for Comprehensive Protein Representation Learning

Youhan Lee, Hasun Yu, Jaemyung Lee et al.

ICLR 2024

AAAI 2024paperarXiv:2312.13680

#3898

HGE: Embedding Temporal Knowledge Graphs in a Product Space of Heterogeneous Geometric Subspaces

Jiaxin Pan, Mojtaba Nayyeri, Yinan Li et al.

ECCV 2024arXiv:2403.17541

#3899

WordRobe: Text-Guided Generation of Textured 3D Garments

Astitva Srivastava, Pranav Manu, Amit Raj et al.

ICLR 2024spotlightarXiv:2402.07270

#3900

Open-ended VQA benchmarking of Vision-Language models by exploiting Classification datasets and their semantic hierarchy

Simon Ging, Maria A. Bravo, Thomas Brox

#3901

Underwater Organism Color Fine-Tuning via Decomposition and Guidance

Xiaofeng Cong, Jie Gui, Junming Hou

#3902

One-Class Face Anti-spoofing via Spoof Cue Map-Guided Feature Learning

Pei-Kai Huang, Cheng-Hsuan Chiang, Tzu-Hsien Chen et al.

ICLR 2024arXiv:2310.02712

#3903

ED-NeRF: Efficient Text-Guided Editing of 3D Scene With Latent Space NeRF

Jangho Park, Gihyun Kwon, Jong Chul YE

#3904

Improved Self-Training for Test-Time Adaptation

Jing Ma

ICLR 2024arXiv:2402.10011

#3905

Clifford Group Equivariant Simplicial Message Passing Networks

Cong Liu, David Ruhe, Floor Eijkelboom et al.

CVPR 2024highlightarXiv:2402.17483

#3906

AlignMiF: Geometry-Aligned Multimodal Implicit Field for LiDAR-Camera Joint Synthesis

Tao Tang, Guangrun Wang, Yixing Lao et al.

CVPR 2024arXiv:2402.18975

#3907

Theoretically Achieving Continuous Representation of Oriented Bounding Boxes

Zikai Xiao, Guo-Ye Yang, Xue Yang et al.

ECCV 2024arXiv:2404.00086

#3908

Improving Video Segmentation via Dynamic Anchor Queries

Yikang Zhou, Tao Zhang, Xiangtai Li et al.

ICML 2024arXiv:2403.01857

#3909

Reward Model Learning vs. Direct Policy Optimization: A Comparative Analysis of Learning from Human Preferences

Andi Nika, Debmalya Mandal, Parameswaran Kamalaruban et al.

#3910

Improved Graph Contrastive Learning for Short Text Classification

Yonghao Liu, Lan Huang, Fausto Giunchiglia et al.

#3911

Robust Image Denoising through Adversarial Frequency Mixup

Donghun Ryou, Inju Ha, Hyewon Yoo et al.

ECCV 2024arXiv:2312.11595

#3912

SPIRE: Semantic Prompt-Driven Image Restoration

Chenyang Qi, Zhengzhong Tu, Keren Ye et al.

#3913

Embarrassingly Simple Dataset Distillation

Yunzhen Feng, Shanmukha Ramakrishna Vedantam, Julia Kempe

ICLR 2024

ECCV 2024arXiv:2312.02700

#3914

Revisit Human-Scene Interaction via Space Occupancy

Xinpeng Liu, Haowen Hou, Yanchao Yang et al.

CVPR 2024arXiv:2311.18129

#3915

Mixed-Precision Quantization for Federated Learning on Resource-Constrained Heterogeneous Devices

Huancheng Chen, Haris Vikalo

CVPR 2024highlightarXiv:2404.02759

#3916

Unsupervised Occupancy Learning from Sparse Point Cloud

Amine Ouasfi, Adnane Boukhayma

ECCV 2024arXiv:2408.01291

#3917

TexGen: Text-Guided 3D Texture Generation with Multi-view Sampling and Resampling

Dong Huo, Zixin Guo, Xinxin Zuo et al.

ICLR 2024arXiv:2312.15023

#3918

Federated Q-Learning: Linear Regret Speedup with Low Communication Cost

Zhong Zheng, Fengyu Gao, Lingzhou Xue et al.

AAAI 2024paperarXiv:2402.18233

#3919

Zero-Shot Aerial Object Detection with Visual Description Regularization

Chenyu Lin, Zhengqing Zang, Chenwei Tang et al.

CVPR 2024arXiv:2402.10099

#3920

Any-Shift Prompting for Generalization over Distributions

Zehao Xiao, Jiayi Shen, Mohammad Mahdi Derakhshani et al.

AAAI 2024paperarXiv:2305.16830

#3921

Leaving the Nest: Going beyond Local Loss Functions for Predict-Then-Optimize

Sanket Shah, Bryan Wilder, Andrew Perrault et al.

ICML 2024arXiv:2402.06748

#3922

CLIPZyme: Reaction-Conditioned Virtual Screening of Enzymes

Peter Mikhael, Itamar Chinn, Regina Barzilay

ICLR 2024arXiv:2310.00927

#3923

Understanding Transferable Representation Learning and Zero-shot Transfer in CLIP

Zixiang Chen, Yihe Deng, Yuanzhi Li et al.

ICML 2024oralarXiv:2402.10634

#3924

Graph-based Forecasting with Missing Data through Spatiotemporal Downsampling

Ivan Marisca, Cesare Alippi, Filippo Maria Bianchi

ECCV 2024arXiv:2407.03056

#3925

Improving Zero-shot Generalization of Learned Prompts via Unsupervised Knowledge Distillation

Marco Mistretta, Alberto Baldrati, Marco Bertini et al.

CVPR 2024arXiv:2312.01897

#3926

Adapting Short-Term Transformers for Action Detection in Untrimmed Videos

Min Yang, gaohuan, Ping Guo et al.

ICML 2024arXiv:2402.08712

#3927

BECoTTA: Input-dependent Online Blending of Experts for Continual Test-time Adaptation

Daeun Lee, Jaehong Yoon, Sung Ju Hwang

AAAI 2024paperarXiv:2405.05349

#3928

Offline Model-Based Optimization via Policy-Guided Gradient Search

Yassine Chemingui, Aryan Deshwal, Nghia Hoang et al.

AAAI 2024paperarXiv:2308.15299

#3929

TaskLAMA: Probing the Complex Task Understanding of Language Models

Quan Yuan, Mehran Kazemi, Xin Xu et al.

AAAI 2024paperarXiv:2312.08865

#3930

Improving Cross-Modal Alignment with Synthetic Pairs for Text-Only Image Captioning

Zhiyue Liu, Jinyuan Liu, Fanrong Ma

ICLR 2024spotlightarXiv:2302.06430

#3931

Deep Orthogonal Hypersphere Compression for Anomaly Detection

Yunhe Zhang, Yan Sun, Jinyu Cai et al.

CVPR 2024arXiv:2405.10272

#3932

Faces that Speak: Jointly Synthesising Talking Face and Speech from Text

Youngjoon Jang, Jihoon Kim, Junseok Ahn et al.

AAAI 2024paperarXiv:2312.08984

#3933

CL2CM: Improving Cross-Lingual Cross-Modal Retrieval via Cross-Lingual Knowledge Transfer

Yabing Wang, Fan Wang, Jianfeng Dong et al.

CVPR 2024arXiv:2312.05039

#3934

SmartMask: Context Aware High-Fidelity Mask Generation for Fine-grained Object Insertion and Layout Control

Jaskirat Singh, Jianming Zhang, Qing Liu et al.

CVPR 2024arXiv:2404.02755

#3935

DIBS: Enhancing Dense Video Captioning with Unlabeled Videos via Pseudo Boundary Enrichment and Online Refinement

Hao Wu, Huabin Liu, Yu Qiao et al.

CVPR 2024arXiv:2403.07532

#3936

Open-World Semantic Segmentation Including Class Similarity

Matteo Sodano, Federico Magistri, Lucas Nunes et al.

CVPR 2024arXiv:2404.02041

#3937

SelfPose3d: Self-Supervised Multi-Person Multi-View 3d Pose Estimation

Keqi Chen, vinkle srivastav, Nicolas Padoy

CVPR 2024highlightarXiv:2401.02416

#3938

ODIN: A Single Model for 2D and 3D Segmentation

Ayush Jain, Pushkal Katara, Nikolaos Gkanatsios et al.

ECCV 2024arXiv:2406.10708

#3939

MMVR: Millimeter-wave Multi-View Radar Dataset and Benchmark for Indoor Perception

Mohammad Mahbubur Rahman, Ryoma Yataka, Sorachi Kato et al.

ICML 2024arXiv:2404.01601

#3940

What Can Transformer Learn with Varying Depth? Case Studies on Sequence Learning Tasks

Xingwu Chen, Difan Zou

ICLR 2024arXiv:2404.00638

#3941

HypeBoy: Generative Self-Supervised Representation Learning on Hypergraphs

Sunwoo Kim, Shinhwan Kang, Fanchen Bu et al.

CVPR 2024arXiv:2404.04231

#3942

Image-Text Co-Decomposition for Text-Supervised Semantic Segmentation

Ji-Jia Wu, Andy Chia-Hao Chang, Chieh-Yu Chuang et al.

#3943

Loose Inertial Poser: Motion Capture with IMU-attached Loose-Wear Jacket

Chengxu Zuo, Yiming Wang, Lishuang Zhan et al.

CVPR 2024arXiv:2406.07792

#3944

Hierarchical Patch Diffusion Models for High-Resolution Video Generation

Ivan Skorokhodov, Willi Menapace, Aliaksandr Siarohin et al.

CVPR 2024arXiv:2311.15264

#3945

ChAda-ViT : Channel Adaptive Attention for Joint Representation Learning of Heterogeneous Microscopy Images

Nicolas Bourriez, Ihab Bendidi, Cohen Ethan et al.

AAAI 2024paperarXiv:2308.11971

#3946

EVE: Efficient Vision-Language Pre-training with Masked Prediction and Modality-Aware MoE

Junyi Chen, Longteng Guo, Jia Sun et al.

ICML 2024arXiv:2305.19183

#3947

Graph-based Time Series Clustering for End-to-End Hierarchical Forecasting

Andrea Cini, Danilo Mandic, Cesare Alippi

AAAI 2024paperarXiv:2403.16561

#3948

FedFixer: Mitigating Heterogeneous Label Noise in Federated Learning

Xinyuan Ji, Zhaowei Zhu, Wei Xi et al.

ICLR 2024arXiv:2310.01755

#3949

ImageNet-OOD: Deciphering Modern Out-of-Distribution Detection Algorithms

William Yang, Byron Zhang, Olga Russakovsky

ICLR 2024spotlightarXiv:2311.14645

#3950

A General Framework for User-Guided Bayesian Optimization

Carl Hvarfner, Frank Hutter, Luigi Nardi

CVPR 2024arXiv:2312.01711

#3951

Regressor-Segmenter Mutual Prompt Learning for Crowd Counting

Mingyue Guo, Li Yuan, Zhaoyi Yan et al.

ICML 2024arXiv:2402.04362

#3952

Neural Networks Learn Statistics of Increasing Complexity

Nora Belrose, Quintin Pope, Lucia Quirke et al.

CVPR 2024arXiv:2403.07684

#3953

Genuine Knowledge from Practice: Diffusion Test-Time Adaptation for Video Adverse Weather Removal

Yijun Yang, Hongtao Wu, Angelica I. Aviles-Rivero et al.

ECCV 2024arXiv:2409.13430

#3954

CVT-Occ: Cost Volume Temporal Fusion for 3D Occupancy Prediction

Zhangchen Ye, Tao Jiang, Chenfeng Xu et al.

AAAI 2024paperarXiv:2403.06208

#3955

Personalized LoRA for Human-Centered Text Understanding

You Zhang, Jin Wang, Liang-Chih Yu et al.

ECCV 2024arXiv:2405.11921

#3956

MirrorGaussian: Reflecting 3D Gaussians for Reconstructing Mirror Reflections

Jiayue Liu, Tang Xiao, Freeman Cheng et al.

CVPR 2024highlightarXiv:2311.17083

#3957

CLiC: Concept Learning in Context

Mehdi Safaee, Aryan Mikaeili, Or Patashnik et al.

#3958

Learning to Predict Activity Progress by Self-Supervised Video Alignment

Gerard Donahue, Ehsan Elhamifar

ICLR 2024arXiv:2309.06651

#3959

ConR: Contrastive Regularizer for Deep Imbalanced Regression

Mahsa Keramati, Lili Meng, R. Evans

AAAI 2024paperarXiv:2312.14066

#3960

Upper Bounding Barlow Twins: A Novel Filter for Multi-Relational Clustering

Xiaowei Qian, Bingheng Li, Zhao Kang

ICLR 2024arXiv:2310.01794

#3961

GNNX-BENCH: Unravelling the Utility of Perturbation-based GNN Explainers through In-depth Benchmarking

Mert Kosan, Samidha Verma, Burouj Armgaan et al.

#3962

Viewpoint-Aware Visual Grounding in 3D Scenes

Xiangxi Shi, Zhonghua Wu, Stefan Lee

AAAI 2024paperarXiv:2312.15911

#3963

Generating and Reweighting Dense Contrastive Patterns for Unsupervised Anomaly Detection

Songmin Dai, Yifan Wu, Xiaoqiang Li et al.

CVPR 2024arXiv:2404.04819

#3964

Joint Reconstruction of 3D Human and Object via Contact-Based Refinement Transformer

Hyeongjin Nam, Daniel Jung, Gyeongsik Moon et al.

AAAI 2024paperarXiv:2401.07709

#3965

Towards Efficient Diffusion-Based Image Editing with Instant Attention Masks

Siyu Zou, Jiji Tang, Yiyi Zhou et al.

ICML 2024arXiv:2311.01198

#3966

Gaussian Processes on Cellular Complexes

Mathieu Alain, So Takao, Brooks Paige et al.

ICLR 2024arXiv:2305.19044

#3967

Exploring the Promise and Limits of Real-Time Recurrent Learning

Kazuki Irie, Anand Gopalakrishnan, Jürgen Schmidhuber

ECCV 2024arXiv:2401.17258

#3968

You Only Need One Step: Fast Super-Resolution with Stable Diffusion via Scale Distillation

Mehdi Noroozi, Isma Hadji, Brais Martinez et al.

ICLR 2024arXiv:2312.15001

#3969

Discovering modular solutions that generalize compositionally

Simon Schug, Seijin Kobayashi, Yassir Akram et al.

AAAI 2024paperarXiv:2309.03797

#3970

Conformal Autoregressive Generation: Beam Search with Coverage Guarantees

Nicolas Deutschmann, Marvin Alberts, María Rodríguez Martínez

CVPR 2024arXiv:2402.18490

#3971

TAMM: TriAdapter Multi-Modal Learning for 3D Shape Understanding

Zhihao Zhang, Shengcao Cao, Yu-Xiong Wang

#3972

FlowTrack: Revisiting Optical Flow for Long-Range Dense Tracking

Seokju Cho, Gabriel Huang, Seungryong Kim et al.

CVPR 2024arXiv:2404.02405

#3973

TE-TAD: Towards Full End-to-End Temporal Action Detection via Time-Aligned Coordinate Expression

Ho-Joong Kim, Jung-Ho Hong, Heejo Kong et al.

ICML 2024arXiv:2309.16932

#3974

Symmetry Induces Structure and Constraint of Learning

Liu Ziyin

AAAI 2024paperarXiv:2308.14448

#3975

ExpCLIP: Bridging Text and Facial Expressions via Semantic Alignment

Yicheng Zhong, Huawei Wei, Peiji Yang et al.

ICLR 2024arXiv:2307.06966

#3976

Layer-wise linear mode connectivity

Linara Adilova, Maksym Andriushchenko, Michael Kamp et al.

ICML 2024arXiv:2402.04779

#3977

StableMask: Refining Causal Masking in Decoder-only Transformer

Qingyu Yin, Xuzheng He, Xiang Zhuang et al.

ICML 2024arXiv:2406.00670

#3978

Cascade-CLIP: Cascaded Vision-Language Embeddings Alignment for Zero-Shot Semantic Segmentation

Yunheng Li, Zhong-Yu Li, Quan-Sheng Zeng et al.

AAAI 2024paperarXiv:2401.02682

#3979

Homophily-Related: Adaptive Hybrid Graph Filter for Multi-View Graph Clustering

Zichen Wen, Yawen Ling, Yazhou Ren et al.

AAAI 2024paperarXiv:2312.15861

#3980

Towards Squeezing-Averse Virtual Try-On via Sequential Deformation

Sang-Heon Shim, Jiwoo Chung, Jae-Pil Heo

ICLR 2024arXiv:2305.16174

#3981

From Latent Graph to Latent Topology Inference: Differentiable Cell Complex Module

Claudio Battiloro, Indro Spinelli, Lev Telyatinkov et al.

ICML 2024arXiv:2401.13875

#3982

Is Temperature Sample Efficient for Softmax Gaussian Mixture of Experts?

Huy Nguyen, Pedram Akbarian, Nhat Ho

CVPR 2024arXiv:2405.16925

#3983

OED: Towards One-stage End-to-End Dynamic Scene Graph Generation

Guan Wang, Zhimin Li, Qingchao Chen et al.

CVPR 2024arXiv:2406.08476

#3984

RMem: Restricted Memory Banks Improve Video Object Segmentation

Junbao Zhou, Ziqi Pang, Yu-Xiong Wang

ICLR 2024arXiv:2211.11747

#3985

Nevis'22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision Research

Jorg Bornschein, Alexandre Galashov, Ross Hemsley et al.

AAAI 2024paperarXiv:2401.17390

#3986

Customizing Language Model Responses with Contrastive In-Context Learning

Xiang Gao, Kamalika Das

#3987

Gaussian Frosting: Editable Complex Radiance Fields with Real-Time Rendering

Antoine Guedon, Vincent Lepetit

ECCV 2024

ICML 2024arXiv:2406.03470

#3988

SpikeZIP-TF: Conversion is All You Need for Transformer-based SNN

kang you, Zekai Xu, Chen Nie et al.

ECCV 2024arXiv:2405.18483

#3989

Towards Open Domain Text-Driven Synthesis of Multi-Person Motions

Shan Mengyi, Lu Dong, Yutao Han et al.

CVPR 2024arXiv:2403.17537

#3990

NeRF-HuGS: Improved Neural Radiance Fields in Non-static Scenes Using Heuristics-Guided Segmentation

Jiahao Chen, Yipeng Qin, Lingjie Liu et al.

AAAI 2024paperarXiv:2402.00033

#3991

LF-ViT: Reducing Spatial Redundancy in Vision Transformer for Efficient Image Recognition

Youbing Hu, Yun Cheng, Anqi Lu et al.

AAAI 2024paperarXiv:2401.00167

#3992

Leveraging Partial Symmetry for Multi-Agent Reinforcement Learning

Xin Yu, Rongye Shi, Pu Feng et al.

ECCV 2024arXiv:2311.17891

#3993

A Graph-Based Approach for Category-Agnostic Pose Estimation

Or Hirschorn, Shai Avidan

ICML 2024arXiv:2305.07583

#3994

MoMo: Momentum Models for Adaptive Learning Rates

Fabian Schaipp, Ruben Ohana, Michael Eickenberg et al.

ECCV 2024arXiv:2312.02135

#3995

Fast View Synthesis of Casual Videos with Soup-of-Planes

Yao-Chih Lee, Zhoutong Zhang, Kevin Blackburn-Matzen et al.

ECCV 2024arXiv:2407.07554

#3996

Beat-It: Beat-Synchronized Multi-Condition 3D Dance Generation

Zikai Huang, Xuemiao Xu, Cheng Xu et al.

AAAI 2024paperarXiv:2303.05105

#3997

MaskDiff: Modeling Mask Distribution with Diffusion Probabilistic Model for Few-Shot Instance Segmentation

Authors: Minh-Quan Le, Tam Nguyen, Trung-Nghia Le et al.

ICLR 2024arXiv:2310.02902

#3998

Searching for High-Value Molecules Using Reinforcement Learning and Transformers

Raj Ghugare, Santiago Miret, Adriana Hugessen et al.

ICML 2024arXiv:2405.13360

#3999

How to Trace Latent Generative Model Generated Images without Artificial Watermark?

Zhenting Wang, Vikash Sehwag, Chen Chen et al.

CVPR 2024arXiv:2403.17387

#4000

Decoupled Pseudo-labeling for Semi-Supervised Monocular 3D Object Detection

Jiacheng Zhang, Jiaming Li, Xiangru Lin et al.