Most Cited 2024 &quot;kv cache eviction&quot; Papers

ECCV 2024arXiv:2405.15700

#3002

Trackastra: Transformer-based cell tracking for live-cell microscopy

Benjamin Gallusser, Weigert Martin

CVPR 2024arXiv:2406.08381

#3003

LaneCPP: Continuous 3D Lane Detection using Physical Priors

Maximilian Pittner, Joel Janai, Alexandru Paul Condurache

#3004

DREAM: Dual Structured Exploration with Mixup for Open-set Graph Domain Adaption

Nan Yin, Mengzhu Wang, Mengzhu Wang et al.

ICLR 2024

AAAI 2024paperarXiv:2312.13716

#3005

Critic-Guided Decision Transformer for Offline Reinforcement Learning

Yuanfu Wang, Chao Yang, Ying Wen et al.

ECCV 2024arXiv:2404.05680

#3006

SphereHead: Stable 3D Full-head Synthesis with Spherical Tri-plane Representation

Heyuan Li, Ce Chen, Tianhao Shi et al.

CVPR 2024arXiv:2402.19302

#3007

DiffAssemble: A Unified Graph-Diffusion Model for 2D and 3D Reassembly

Gianluca Scarpellini, Stefano Fiorini, Francesco Giuliari et al.

ICML 2024arXiv:2405.09771

#3008

Harmonizing Generalization and Personalization in Federated Prompt Learning

Tianyu Cui, Hongxia Li, Jingya Wang et al.

ICLR 2024spotlightarXiv:2311.10049

#3009

Inherently Interpretable Time Series Classification via Multiple Instance Learning

Joseph Early, Gavin Cheung, Kurt Cutajar et al.

AAAI 2024paperarXiv:2312.11143

#3010

Learning Domain-Independent Heuristics for Grounded and Lifted Planning

ECCV 2024arXiv:2407.10738

#3011

AccDiffusion: An Accurate Method for Higher-Resolution Image Generation

Zhihang Lin, Mingbao Lin, Meng Zhao et al.

CVPR 2024arXiv:2404.04072

#3012

Label Propagation for Zero-shot Classification with Vision-Language Models

Vladan Stojnić, Yannis Kalantidis, Giorgos Tolias

AAAI 2024paperarXiv:2308.10529

#3013

SeqGPT: An Out-of-the-Box Large Language Model for Open Domain Sequence Understanding

Tianyu Yu, Chengyue Jiang, Chao Lou et al.

ICLR 2024arXiv:2307.14023

#3014

Are Transformers with One Layer Self-Attention Using Low-Rank Weight Matrices Universal Approximators?

Tokio Kajitsuka, Issei Sato

CVPR 2024highlightarXiv:2311.18829

#3015

MicroCinema: A Divide-and-Conquer Approach for Text-to-Video Generation

Yanhui Wang, Jianmin Bao, Wenming Weng et al.

ECCV 2024arXiv:2312.04424

#3016

Cascade-Zero123: One Image to Highly Consistent 3D with Self-Prompted Nearby Views

Yabo Chen, Jiemin Fang, Yuyang Huang et al.

ICML 2024arXiv:2405.06708

#3017

LangCell: Language-Cell Pre-training for Cell Identity Understanding

Suyuan Zhao, Jiahuan Zhang, Yushuai Wu et al.

AAAI 2024paperarXiv:2312.12828

#3018

TagCLIP: A Local-to-Global Framework to Enhance Open-Vocabulary Multi-Label Classification of CLIP without Training

Yuqi Lin, Minghao Chen, Kaipeng Zhang et al.

CVPR 2024arXiv:2403.18978

#3019

TextCraftor: Your Text Encoder Can be Image Quality Controller

Yanyu Li, Xian Liu, Anil Kag et al.

AAAI 2024paperarXiv:2312.06330

#3020

Navigating Open Set Scenarios for Skeleton-Based Action Recognition

Kunyu Peng, Cheng Yin, Junwei Zheng et al.

ECCV 2024arXiv:2403.11561

#3021

Learning Unified Reference Representation for Unsupervised Multi-class Anomaly Detection

Liren He, Zhengkai Jiang, Jinlong Peng et al.

CVPR 2024arXiv:2311.14402

#3022

TEA: Test-time Energy Adaptation

Yige Yuan, Bingbing Xu, Liang Hou et al.

AAAI 2024paperarXiv:2403.06363

#3023

Say Anything with Any Style

Shuai Tan, Bin Ji, Yu Ding et al.

ICML 2024arXiv:2402.01620

#3024

MAGDi: Structured Distillation of Multi-Agent Interaction Graphs Improves Reasoning in Smaller Language Models

Justin Chih-Yao Chen, Swarnadeep Saha, Elias Stengel-Eskin et al.

ECCV 2024arXiv:2407.12511

#3025

Fast Context-Based Low-Light Image Enhancement via Neural Implicit Representations

Tomáš Chobola, Yu Liu, Hanyi Zhang et al.

AAAI 2024paperarXiv:2305.09381

#3026

AMD: Autoregressive Motion Diffusion

Bo Han, Hao Peng, Minjing Dong et al.

ICLR 2024arXiv:2402.04754

#3027

Towards Aligned Layout Generation via Diffusion Model with Aesthetic Constraints

Jian Chen, Ruiyi Zhang, Yufan Zhou et al.

ICLR 2024spotlightarXiv:2401.08920

#3028

Idempotence and Perceptual Image Compression

Tongda Xu, Ziran Zhu, Dailan He et al.

CVPR 2024arXiv:2403.09140

#3029

Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior

Chen Cheng, Xiaofeng Yang, Fan Yang et al.

ICLR 2024arXiv:2309.04344

#3030

Zero-Shot Robustification of Zero-Shot Models

Dyah Adila, Changho Shin, Linrong Cai et al.

ECCV 2024arXiv:2407.03575

#3031

DGR-MIL: Exploring Diverse Global Representation in Multiple Instance Learning for Whole Slide Image Classification

Wenhui Zhu, Xiwen Chen, Peijie Qiu et al.

AAAI 2024paperarXiv:2312.11792

#3032

Cooper: Coordinating Specialized Agents towards a Complex Dialogue Goal

Yi Cheng, Wenge Liu, Jian Wang et al.

CVPR 2024arXiv:2312.03703

#3033

Skeleton-in-Context: Unified Skeleton Sequence Modeling with In-Context Learning

Xinshun Wang, Zhongbin Fang, Xia Li et al.

ICLR 2024arXiv:2310.02233

#3034

Generalized Schrödinger Bridge Matching

Guan-Horng Liu, Yaron Lipman, Maximilian Nickel et al.

ECCV 2024arXiv:2407.12427

#3035

GeneralAD: Anomaly Detection Across Domains by Attending to Distorted Features

Luc Sträter, Mohammadreza Salehi, Efstratios Gavves et al.

ICML 2024arXiv:2406.03287

#3036

SpikeLM: Towards General Spike-Driven Language Modeling via Elastic Bi-Spiking Mechanisms

Xingrun Xing, Zheng Zhang, Ziyi Ni et al.

AAAI 2024paperarXiv:2312.09059

#3037

Auto-Prox: Training-Free Vision Transformer Architecture Search via Automatic Proxy Discovery

Zimian Wei, Peijie Dong, Zheng Hui et al.

ICML 2024arXiv:2405.04950

#3038

VisionGraph: Leveraging Large Multimodal Models for Graph Theory Problems in Visual Context

yunxin li, Baotian Hu, Haoyuan Shi et al.

CVPR 2024arXiv:2311.18363

#3039

Each Test Image Deserves A Specific Prompt: Continual Test-Time Adaptation for 2D Medical Image Segmentation

Ziyang Chen, Yongsheng Pan, Yiwen Ye et al.

ECCV 2024arXiv:2407.04049

#3040

Occupancy as Set of Points

Yiang Shi, Tianheng Cheng, Qian Zhang et al.

ECCV 2024arXiv:2406.07471

#3041

OphNet: A Large-Scale Video Benchmark for Ophthalmic Surgical Workflow Understanding

Ming Hu, Peng Xia, Lin Wang et al.

ECCV 2024arXiv:2407.11351

#3042

Learning Modality-agnostic Representation for Semantic Segmentation from Any Modalities

Xu Zheng, Yuanhuiyi Lyu, LIN WANG

AAAI 2024paperarXiv:2212.05758

#3043

BEV-MAE: Bird’s Eye View Masked Autoencoders for Point Cloud Pre-training in Autonomous Driving Scenarios

ZhiWei Lin, Yongtao Wang, Shengxiang Qi et al.

CVPR 2024arXiv:2312.03050

#3044

HIG: Hierarchical Interlacement Graph Approach to Scene Graph Generation in Video Understanding

Trong-Thuan Nguyen, Pha Nguyen, Khoa Luu

ICML 2024arXiv:2406.14785

#3045

Understanding Finetuning for Factual Knowledge Extraction

Gaurav Ghosal, Tatsunori Hashimoto, Aditi Raghunathan

ECCV 2024arXiv:2407.04948

#3046

Zero-shot Object Counting with Good Exemplars

Huilin Zhu, Jingling Yuan, Zhengwei Yang et al.

ICLR 2024arXiv:2304.06094

#3047

Energy-guided Entropic Neural Optimal Transport

Petr Mokrov, Alexander Korotin, Alexander Kolesov et al.

CVPR 2024arXiv:2312.04963

#3048

Text-to-3D Generation with Bidirectional Diffusion using both 2D and 3D priors

Lihe Ding, Shaocong Dong, Zhanpeng Huang et al.

#3049

DC-NAS: Divide-and-Conquer Neural Architecture Search for Multi-Modal Classification

Xinyan Liang, Pinhan Fu, Qian Guo et al.

CVPR 2024arXiv:2403.12011

#3050

HOIDiffusion: Generating Realistic 3D Hand-Object Interaction Data

Mengqi Zhang, Yang Fu, Zheng Ding et al.

CVPR 2024arXiv:2406.05478

#3051

Revisiting Non-Autoregressive Transformers for Efficient Image Synthesis

Zanlin Ni, Yulin Wang, Renping Zhou et al.

ICLR 2024spotlightarXiv:2302.00456

#3052

Analyzing Feed-Forward Blocks in Transformers through the Lens of Attention Maps

Goro Kobayashi, Tatsuki Kuribayashi, Sho Yokoi et al.

ICLR 2024arXiv:2403.15441

#3053

Unified Generative Modeling of 3D Molecules with Bayesian Flow Networks

Yuxuan Song, Jingjing Gong, Hao Zhou et al.

ECCV 2024arXiv:2408.01946

#3054

Masked Angle-Aware Autoencoder for Remote Sensing Images

Zhihao Li, Biao Hou, Siteng Ma et al.

ECCV 2024arXiv:2403.09577

#3055

The Nerfect Match: Exploring NeRF Features for Visual Localization

Qunjie Zhou, Maxim Maximov, Or Litany et al.

ECCV 2024arXiv:2409.17143

#3056

Attention Prompting on Image for Large Vision-Language Models

Runpeng Yu, Weihao Yu, Xinchao Wang

ICLR 2024arXiv:2401.13505

#3057

Generative Human Motion Stylization in Latent Space

chuan guo, Yuxuan Mu, Xinxin Zuo et al.

#3058

Automatic Radiology Reports Generation via Memory Alignment Network

Hongyu Shen, Mingtao Pei, Juncai Liu et al.

ECCV 2024arXiv:2407.08414

#3059

MeshAvatar: Learning High-quality Triangular Human Avatars from Multi-view Videos

Yushuo Chen, Zerong Zheng, Zhe Li et al.

#3060

Language-Driven Physics-Based Scene Synthesis and Editing via Feature Splatting

Ri-Zhao Qiu, Ge Yang, Weijia Zeng et al.

ECCV 2024

ICLR 2024arXiv:2312.03414

#3061

Compressed Context Memory for Online Language Model Interaction

Jang-Hyun Kim, Junyoung Yeom, Sangdoo Yun et al.

CVPR 2024highlightarXiv:2401.10786

#3062

Sat2Scene: 3D Urban Scene Generation from Satellite Images with Diffusion

Zuoyue Li, Zhenqiang Li, Zhaopeng Cui et al.

ECCV 2024arXiv:2403.12002

#3063

DreamMotion: Space-Time Self-Similar Score Distillation for Zero-Shot Video Editing

Hyeonho Jeong, Jinho Chang, GEON YEONG PARK et al.

ICLR 2024oralarXiv:2311.12996

#3064

RLIF: Interactive Imitation Learning as Reinforcement Learning

Jianlan Luo, Perry Dong, Yuexiang Zhai et al.

ECCV 2024arXiv:2403.12658

#3065

Tuning-Free Image Customization with Image and Text Guidance

Pengzhi Li, Qiang Nie, Ying Chen et al.

ICLR 2024arXiv:2310.08381

#3066

AutoVP: An Automated Visual Prompting Framework and Benchmark

Hsi-Ai Tsao, Lei Hsiung, Pin-Yu Chen et al.

ICLR 2024arXiv:2311.03351

#3067

Uni-O4: Unifying Online and Offline Deep Reinforcement Learning with Multi-Step On-Policy Optimization

Kun LEI, Zhengmao He, Chenhao Lu et al.

CVPR 2024arXiv:2403.09914

#3068

ProMark: Proactive Diffusion Watermarking for Causal Attribution

Vishal Asnani, John Collomosse, Tu Bui et al.

ICLR 2024arXiv:2310.07418

#3069

Revisiting Plasticity in Visual Reinforcement Learning: Data, Modules and Training Stages

Guozheng Ma, Lu Li, Sen Zhang et al.

CVPR 2024arXiv:2402.18447

#3070

Prompt-Driven Dynamic Object-Centric Learning for Single Domain Generalization

Deng Li, Aming Wu, Yaowei Wang et al.

ECCV 2024arXiv:2405.04299

#3071

ViewFormer: Exploring Spatiotemporal Modeling for Multi-View 3D Occupancy Perception via View-Guided Transformers

Jinke Li, Xiao He, Chonghua Zhou et al.

CVPR 2024arXiv:2312.11666

#3072

Text-Conditioned Generative Model of 3D Strand-based Human Hairstyles

Vanessa Sklyarova, Egor Zakharov, Otmar Hilliges et al.

ICLR 2024arXiv:2205.00359

#3073

Adapting and Evaluating Influence-Estimation Methods for Gradient-Boosted Decision Trees

Jonathan Brophy, Zayd Hammoudeh, Daniel Lowd

ICLR 2024arXiv:2306.13924

#3074

Structuring Representation Geometry with Rotationally Equivariant Contrastive Learning

Sharut Gupta, Joshua Robinson, Derek Lim et al.

CVPR 2024arXiv:2404.00741

#3075

Rethinking Interactive Image Segmentation with Low Latency High Quality and Diverse Prompts

Qin Liu, Jaemin Cho, Mohit Bansal et al.

AAAI 2024paperarXiv:2306.12755

#3076

Beyond OOD State Actions: Supported Cross-Domain Offline Reinforcement Learning

Jinxin Liu, Ziqi Zhang, Zhenyu Wei et al.

AAAI 2024paperarXiv:2312.12236

#3077

Generalization Analysis of Machine Learning Algorithms via the Worst-Case Data-Generating Probability Measure

Xinying Zou, Samir Perlaza, Inaki Esnaola et al.

#3078

Dual Self-Paced Cross-Modal Hashing

Yuan Sun, Jian Dai, Zhenwen Ren et al.

ICML 2024arXiv:2011.14439

#3079

Scaling Down Deep Learning with MNIST-1D

Sam Greydanus, Dmitry Kobak

AAAI 2024paperarXiv:2312.12816

#3080

Object-Aware Adaptive-Positivity Learning for Audio-Visual Question Answering

Zhangbin Li, Jinxing Zhou, Dan Guo et al.

ICLR 2024arXiv:2311.11202

#3081

Unmasking and Improving Data Credibility: A Study with Datasets for Training Harmless Language Models

Zhaowei Zhu, Jialu Wang, Hao Cheng et al.

ICLR 2024arXiv:2310.03320

#3082

BioBridge: Bridging Biomedical Foundation Models via Knowledge Graphs

Zifeng Wang, Zichen Wang, Balasubramaniam Srinivasan et al.

ICLR 2024spotlightarXiv:2404.01220

#3083

Entity-Centric Reinforcement Learning for Object Manipulation from Pixels

Dan Haramati, Tal Daniel, Aviv Tamar

CVPR 2024arXiv:2404.03924

#3084

Learning Correlation Structures for Vision Transformers

Manjin Kim, Paul Hongsuck Seo, Cordelia Schmid et al.

CVPR 2024arXiv:2404.05559

#3085

TIM: A Time Interval Machine for Audio-Visual Action Recognition

Jacob Chalk, Jaesung Huh, Evangelos Kazakos et al.

ICLR 2024arXiv:2310.03262

#3086

Predicting Emergent Abilities with Infinite Resolution Evaluation

Shengding Hu, Xin Liu, Xu Han et al.

ICLR 2024arXiv:2401.15604

#3087

Neural Network-Based Score Estimation in Diffusion Models: Optimization and Generalization

Yinbin Han, Meisam Razaviyayn, Renyuan Xu

AAAI 2024paperarXiv:2310.15646

#3088

Mean Teacher DETR with Masked Feature Alignment: A Robust Domain Adaptive Detection Transformer Framework

Weixi Weng, Chun Yuan

#3089

Dispel Darkness for Better Fusion: A Controllable Visual Enhancer based on Cross-modal Conditional Adversarial Learning

HAO ZHANG, Linfeng Tang, Xinyu Xiang et al.

ICML 2024arXiv:2311.09656

#3090

Structured Chemistry Reasoning with Large Language Models

Siru Ouyang, Zhuosheng Zhang, Bing Yan et al.

AAAI 2024paperarXiv:2312.15665

#3091

A Multi-Modal Contrastive Diffusion Model for Therapeutic Peptide Generation

Yongkang Wang, Xuan Liu, Feng Huang et al.

ICLR 2024arXiv:2208.05395

#3092

A Sublinear Adversarial Training Algorithm

Yeqi Gao, Lianke Qin, Zhao Song et al.

ICLR 2024oralarXiv:2310.08587

#3093

Pseudo-Generalized Dynamic View Synthesis from a Video

Xiaoming Zhao, R Colburn, Fangchang Ma et al.

ICML 2024spotlightarXiv:2402.04764

#3094

Code as Reward: Empowering Reinforcement Learning with VLMs

David Venuto, Mohammad Sami Nur Islam, Martin Klissarov et al.

ICLR 2024arXiv:2403.10834

#3095

SF(DA)$^2$: Source-free Domain Adaptation Through the Lens of Data Augmentation

Uiwon Hwang, Jonghyun Lee, Juhyeon Shin et al.

AAAI 2024paperarXiv:2402.14335

#3096

HyperFast: Instant Classification for Tabular Data

David Bonet, Daniel Mas Montserrat, Xavier Giró-i-Nieto et al.

CVPR 2024arXiv:2303.16198

#3097

Multi-modal Learning for Geospatial Vegetation Forecasting

Vitus Benson, Claire Robin, Christian Requena-Mesa et al.

ICML 2024arXiv:2402.04858

#3098

CodeIt: Self-Improving Language Models with Prioritized Hindsight Replay

Natasha Butt, Blazej Manczak, Auke Wiggers et al.

ICLR 2024arXiv:2304.14614

#3099

Fusion Is Not Enough: Single Modal Attacks on Fusion Models for 3D Object Detection

Zhiyuan Cheng, Hongjun Choi, Shiwei Feng et al.

#3100

Distribution-aware Knowledge Prototyping for Non-exemplar Lifelong Person Re-identification

Kunlun Xu, Xu Zou, Yuxin Peng et al.

ICLR 2024arXiv:2312.08531

#3101

Revisiting the Last-Iterate Convergence of Stochastic Gradient Methods

Zijian Liu, Zhengyuan Zhou

CVPR 2024highlightarXiv:2404.04050

#3102

No Time to Train: Empowering Non-Parametric Networks for Few-shot 3D Scene Segmentation

Xiangyang Zhu, Renrui Zhang, Bowei He et al.

AAAI 2024paperarXiv:2401.01232

#3103

Motif-Aware Riemannian Graph Neural Network with Generative-Contrastive Learning

Li Sun, Zhenhao Huang, Zixi Wang et al.

CVPR 2024highlightarXiv:2209.11964

#3104

Strong Transferable Adversarial Attacks via Ensembled Asymptotically Normal Distribution Learning

Zhengwei Fang, Rui Wang, Tao Huang et al.

CVPR 2024arXiv:2306.15612

#3105

Adaptive Multi-Modal Cross-Entropy Loss for Stereo Matching

Peng Xu, Zhiyu Xiang, Chengyu Qiao et al.

ICML 2024arXiv:2310.01651

#3106

Fool Your (Vision and) Language Model with Embarrassingly Simple Permutations

Yongshuo Zong, Tingyang Yu, Ruchika Chavhan et al.

ICML 2024arXiv:2410.11112

#3107

Differentiable Weightless Neural Networks

Alan Bacellar, Zachary Susskind, Mauricio Breternitz Jr et al.

ICLR 2024arXiv:2310.08872

#3108

R&B: Region and Boundary Aware Zero-shot Grounded Text-to-image Generation

Jiayu Xiao, Henglei Lv, Henglei Lv et al.

CVPR 2024arXiv:2404.01518

#3109

Temporally Consistent Unbalanced Optimal Transport for Unsupervised Action Segmentation

Ming Xu, Stephen Gould

ECCV 2024arXiv:2401.00391

#3110

Safe-Sim: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries

WEI-JER Chang, Francesco Pittaluga, Masayoshi TOMIZUKA et al.

ICML 2024oralarXiv:2405.02501

#3111

PICLe: Eliciting Diverse Behaviors from Large Language Models with Persona In-Context Learning

Hyeong Kyu Choi, Sharon Li

ICLR 2024arXiv:2312.11529

#3112

Efficient and Scalable Graph Generation through Iterative Local Expansion

Andreas Bergmeister, Karolis Martinkus, Nathanaël Perraudin et al.

CVPR 2024arXiv:2401.06614

#3113

Motion2VecSets: 4D Latent Vector Set Diffusion for Non-rigid Shape Reconstruction and Tracking

Wei Cao, Chang Luo, Biao Zhang et al.

AAAI 2024paperarXiv:2305.03731

#3114

Working Memory Capacity of ChatGPT: An Empirical Study

Dongyu Gong, Xingchen Wan, Dingmin Wang

#3115

Blind Image Quality Assessment Based on Geometric Order Learning

Nyeong-Ho Shin, Seon-Ho Lee, Chang-Su Kim

CVPR 2024arXiv:2312.12480

#3116

Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation

Jiaming Liu, Ran Xu, Senqiao Yang et al.

ICLR 2024arXiv:2402.04823

#3117

How Realistic Is Your Synthetic Data? Constraining Deep Generative Models for Tabular Data

Mihaela Stoian, Salijona Dyrmishi, Maxime Cordy et al.

ICLR 2024arXiv:2401.12975

#3118

HAZARD Challenge: Embodied Decision Making in Dynamically Changing Environments

Qinhong Zhou, Sunli Chen, Yisong Wang et al.

CVPR 2024arXiv:2403.11074

#3119

Audio-Visual Segmentation via Unlabeled Frame Exploitation

Jinxiang Liu, Yikun Liu, Ferenas et al.

CVPR 2024arXiv:2308.14316

#3120

UniPT: Universal Parallel Tuning for Transfer Learning with Efficient Parameter and Memory

Haiwen Diao, Bo Wan, Ying Zhang et al.

ICLR 2024arXiv:2310.03420

#3121

FreeReg: Image-to-Point Cloud Registration Leveraging Pretrained Diffusion Models and Monocular Depth Estimators

Haiping Wang, Yuan Liu, Bing WANG et al.

CVPR 2024arXiv:2405.13194

#3122

KPConvX: Modernizing Kernel Point Convolution with Kernel Attention

Hugues Thomas, Yao-Hung Hubert Tsai, Timothy Barfoot et al.

ICML 2024arXiv:2406.04802

#3123

Predictive Dynamic Fusion

Bing Cao, Yinan Xia, Yi Ding et al.

ICLR 2024arXiv:2402.01935

#3124

CODE REPRESENTATION LEARNING AT SCALE

Dejiao Zhang, Wasi Ahmad, Ming Tan et al.

#3125

eTag: Class-Incremental Learning via Embedding Distillation and Task-Oriented Generation

Libo Huang, Yan Zeng, Chuanguang Yang et al.

ECCV 2024arXiv:2407.21635

#3126

MART: MultiscAle Relational Transformer Networks for Multi-agent Trajectory Prediction

Seongju Lee, Junseok Lee, Yeonguk Yu et al.

#3127

Small Model Can Self-Correct

Haixia Han, Jiaqing Liang, Jie Shi et al.

ICLR 2024oralarXiv:2401.11237

#3128

Closing the Gap between TD Learning and Supervised Learning - A Generalisation Point of View.

Raj Ghugare, Matthieu Geist, Glen Berseth et al.

ICML 2024arXiv:2402.13914

#3129

Position: Explain to Question not to Justify

Przemyslaw Biecek, Wojciech Samek

CVPR 2024highlightarXiv:2406.04542

#3130

M&M VTO: Multi-Garment Virtual Try-On and Editing

Luyang Zhu, Yingwei Li, Nan Liu et al.

ICML 2024arXiv:2405.19586

#3131

SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation

Junjie Zhang, Chenjia Bai, Haoran He et al.

AAAI 2024paperarXiv:2312.12263

#3132

FedDiv: Collaborative Noise Filtering for Federated Learning with Noisy Labels

Authors: Jichang Li, Guanbin Li, Hui Cheng et al.

ICML 2024arXiv:2402.01107

#3133

Simulation of Graph Algorithms with Looped Transformers

Artur Back de Luca, Kimon Fountoulakis

AAAI 2024paperarXiv:2312.10686

#3134

Out-of-Distribution Detection in Long-Tailed Recognition with Calibrated Outlier Class Learning

Wenjun Miao, Guansong Pang, Xiao Bai et al.

ICLR 2024arXiv:2310.05055

#3135

FairTune: Optimizing Parameter Efficient Fine Tuning for Fairness in Medical Image Analysis

Raman Dutt, Ondrej Bohdal, Sotirios Tsaftaris et al.

ECCV 2024arXiv:2403.09857

#3136

Few-shot Class Incremental Learning with Attention-Aware Self-Adaptive Prompt

Chenxi Liu, Zhenyi Wang, Tianyi Xiong et al.

CVPR 2024arXiv:2404.06913

#3137

Sparse Global Matching for Video Frame Interpolation with Large Motion

Chunxu Liu, Guozhen Zhang, Rui Zhao et al.

ICML 2024arXiv:2404.16795

#3138

In-Context Freeze-Thaw Bayesian Optimization for Hyperparameter Optimization

Herilalaina Rakotoarison, Steven Adriaensen, Neeratyoy Mallik et al.

ICML 2024arXiv:2309.04332

#3139

Graph Neural Networks Use Graphs When They Shouldn't

Maya Bechler-Speicher, Ido Amos, Ran Gilad-Bachrach et al.

ICML 2024arXiv:2406.16449

#3140

Evaluating and Analyzing Relationship Hallucinations in Large Vision-Language Models

Mingrui Wu, Jiayi Ji, Oucheng Huang et al.

ECCV 2024arXiv:2311.17921

#3141

Do text-free diffusion models learn discriminative visual representations?

Soumik Mukhopadhyay, Matthew Gwilliam, Yosuke Yamaguchi et al.

ICML 2024arXiv:2402.02446

#3142

LQER: Low-Rank Quantization Error Reconstruction for LLMs

Cheng Zhang, Jianyi Cheng, George Constantinides et al.

CVPR 2024arXiv:2403.10191

#3143

Generative Region-Language Pretraining for Open-Ended Object Detection

Chuang Lin, Yi Jiang, Lizhen Qu et al.

ECCV 2024arXiv:2408.10760

#3144

SAM-COD: SAM-guided Unified Framework for Weakly-Supervised Camouflaged Object Detection

Huafeng Chen, Pengxu Wei, Guangqian Guo et al.

ECCV 2024arXiv:2407.02040

#3145

ScaleDreamer: Scalable Text-to-3D Synthesis with Asynchronous Score Distillation

Zhiyuan MA, Yuxiang WEI, Yabin Zhang et al.

CVPR 2024arXiv:2403.16385

#3146

Synthesize Step-by-Step: Tools Templates and LLMs as Data Generators for Reasoning-Based Chart VQA

Zhuowan Li, Bhavan Jasani, Peng Tang et al.

ECCV 2024arXiv:2408.02859

#3147

Multistain Pretraining for Slide Representation Learning in Pathology

Guillaume Jaume, Anurag J Vaidya, Andrew Zhang et al.

ICLR 2024arXiv:2309.14563

#3148

Towards a statistical theory of data selection under weak supervision

Germain Kolossov, Andrea Montanari, Pulkit Tandon

ICLR 2024oralarXiv:2310.20141

#3149

Contrastive Difference Predictive Coding

Chongyi Zheng, Ruslan Salakhutdinov, Benjamin Eysenbach

ECCV 2024arXiv:2403.04437

#3150

StableDrag: Stable Dragging for Point-based Image Editing

Yutao Cui, Xiaotong Zhao, Guozhen Zhang et al.

CVPR 2024highlightarXiv:2312.13016

#3151

DiffPortrait3D: Controllable Diffusion for Zero-Shot Portrait View Synthesis

Yuming Gu, Hongyi Xu, You Xie et al.

ECCV 2024arXiv:2407.08813

#3152

FairDomain: Achieving Fairness in Cross-Domain Medical Image Segmentation and Classification

Yu Tian, Congcong Wen, Min Shi et al.

ICLR 2024arXiv:2310.03575

#3153

Analysis of Learning a Flow-based Generative Model from Limited Sample Complexity

Hugo Cui, Florent Krzakala, Eric Vanden-Eijnden et al.

ECCV 2024arXiv:2407.11588

#3154

Progressive Pretext Task Learning for Human Trajectory Prediction

Xiaotong Lin, Tianming Liang, Jian-Huang Lai et al.

ICML 2024oralarXiv:2406.09130

#3155

Time-Series Forecasting for Out-of-Distribution Generalization Using Invariant Learning

Haoxin Liu, Harshavardhan Kamarthi, Lingkai Kong et al.

CVPR 2024arXiv:2403.04700

#3156

Delving into the Trajectory Long-tail Distribution for Muti-object Tracking

Sijia Chen, En Yu, Jinyang Li et al.

ICLR 2024arXiv:2402.02355

#3157

SYMBOL: Generating Flexible Black-Box Optimizers through Symbolic Equation Learning

Jiacheng Chen, Zeyuan Ma, Hongshu Guo et al.

ECCV 2024arXiv:2403.18819

#3158

Benchmarking Object Detectors with COCO: A New Path Forward

Shweta Singh, Aayan Yadav, Jitesh Jain et al.

CVPR 2024arXiv:2404.02790

#3159

MULAN: A Multi Layer Annotated Dataset for Controllable Text-to-Image Generation

Petru-Daniel Tudosiu, Yongxin Yang, Shifeng Zhang et al.

CVPR 2024arXiv:2311.05698

#3160

Mirasol3B: A Multimodal Autoregressive Model for Time-Aligned and Contextual Modalities

AJ Piergiovanni, Isaac Noble, Dahun Kim et al.

CVPR 2024arXiv:2405.04953

#3161

Supervised Anomaly Detection for Complex Industrial Images

Aimira Baitieva, David Hurych, Victor Besnier et al.

ECCV 2024arXiv:2312.13308

#3162

SWinGS: Sliding Windows for Dynamic 3D Gaussian Splatting

Richard Shaw, Michal Nazarczuk, Song Jifei et al.

CVPR 2024arXiv:2403.18360

#3163

Learning CNN on ViT: A Hybrid Model to Explicitly Class-specific Boundaries for Domain Adaptation

Ba Hung Ngo, Nhat-Tuong Do-Tran, Tuan-Ngoc Nguyen et al.

ECCV 2024arXiv:2404.00288

#3164

Seeing the Unseen: A Frequency Prompt Guided Transformer for Image Restoration

shihao zhou, Jinshan Pan, Jinglei Shi et al.

#3165

Improved baselines for vision-language pre-training

Jakob Verbeek, Enrico Fini, Michal Drozdzal et al.

ICLR 2024

ICML 2024arXiv:2406.02958

#3166

PrE-Text: Training Language Models on Private Federated Data in the Age of LLMs

Charlie Hou, Akshat Shrivastava, Hongyuan Zhan et al.

CVPR 2024arXiv:2308.07891

#3167

Link-Context Learning for Multimodal LLMs

Yan Tai, Weichen Fan, Zhao Zhang et al.

ICML 2024arXiv:2311.09215

#3168

ConvNet vs Transformer, Supervised vs CLIP: Beyond ImageNet Accuracy

Kirill Vishniakov, Zhiqiang Shen, Zhuang Liu

ICLR 2024spotlightarXiv:2311.00233

#3169

Instructive Decoding: Instruction-Tuned Large Language Models are Self-Refiner from Noisy Instructions

Taehyeon Kim, JOONKEE KIM, Gihun Lee et al.

#3170

Zero Bubble (Almost) Pipeline Parallelism

Penghui Qi, Xinyi Wan, Guangxing Huang et al.

ICLR 2024

ICML 2024arXiv:2406.00645

#3171

FuRL: Visual-Language Models as Fuzzy Rewards for Reinforcement Learning

Yuwei Fu, Haichao Zhang, di wu et al.

ECCV 2024arXiv:2310.16305

#3172

Dolfin: Diffusion Layout Transformers without Autoencoder

Yilin Wang, Zeyuan Chen, Liangjun Zhong et al.

ICLR 2024arXiv:2309.13850

#3173

Statistical Perspective of Top-K Sparse Softmax Gating Mixture of Experts

Huy Nguyen, Pedram Akbarian Saravi, Fanqi Yan et al.

CVPR 2024arXiv:2312.09249

#3174

ZeroRF: Fast Sparse View 360° Reconstruction with Zero Pretraining

Ruoxi Shi, Xinyue Wei, Cheng Wang et al.

ICLR 2024spotlightarXiv:2311.04193

#3175

Selective Visual Representations Improve Convergence and Generalization for Embodied AI

Ainaz Eftekhar, Kuo-Hao Zeng, Jiafei Duan et al.

ICML 2024arXiv:2310.02905

#3176

Use Your INSTINCT: INSTruction optimization for LLMs usIng Neural bandits Coupled with Transformers

Xiaoqiang Lin, Zhaoxuan Wu, Zhongxiang Dai et al.

AAAI 2024paperarXiv:2312.12585

#3177

BadRL: Sparse Targeted Backdoor Attack against Reinforcement Learning

Jing Cui, Yufei Han, Yuzhe Ma et al.

ECCV 2024arXiv:2403.09625

#3178

Make-Your-3D: Fast and Consistent Subject-Driven 3D Content Generation

Fangfu Liu, Hanyang Wang, Weiliang Chen et al.

AAAI 2024paperarXiv:2306.02689

#3179

Equity-Transformer: Solving NP-Hard Min-Max Routing Problems as Sequential Generation with Equity Context

Jiwoo Son, Minsu Kim, Sanghyeok Choi et al.

ICLR 2024arXiv:2403.14148

#3180

Efficient Video Diffusion Models via Content-Frame Motion-Latent Decomposition

Sihyun Yu, Weili Nie, De-An Huang et al.

CVPR 2024arXiv:2403.18920

#3181

CPR: Retrieval Augmented Generation for Copyright Protection

Aditya Golatkar, Alessandro Achille, Luca Zancato et al.

ICML 2024arXiv:2312.12275

#3182

Emergence of In-Context Reinforcement Learning from Noise Distillation

Ilya Zisman, Vladislav Kurenkov, Alexander Nikulin et al.

ICML 2024arXiv:2206.02972

#3183

Decomposed Linear Dynamical Systems (dLDS) for learning the latent components of neural dynamics

Noga Mudrik, Yenho Chen, Eva Yezerets et al.

#3184

2382 SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-Form Layout-to-Image Generation

Chengyou Jia, Minnan Luo, Zhuohang Dang et al.

ICLR 2024arXiv:2310.02156

#3185

Probabilistically Rewired Message-Passing Neural Networks

Chendi Qian, Andrei Manolache, Kareem Ahmed et al.

#3186

Boosting Spike Camera Image Reconstruction from a Perspective of Dealing with Spike Fluctuations

Rui Zhao, Ruiqin Xiong, Jing Zhao et al.

ICLR 2024arXiv:2310.00647

#3187

Beyond task performance: evaluating and reducing the flaws of large multimodal models with in-context-learning

Mustafa Shukor, Alexandre Rame, Corentin Dancette et al.

ICLR 2024spotlightarXiv:2310.12955

#3188

Towards Robust Offline Reinforcement Learning under Diverse Data Corruption

Rui Yang, Han Zhong, Jiawei Xu et al.

ECCV 2024arXiv:2310.20436

#3189

SignAvatars: A Large-scale 3D Sign Language Holistic Motion Dataset and Benchmark

Zhengdi Yu, Shaoli Huang, yongkang cheng et al.

CVPR 2024arXiv:2403.15679

#3190

DS-NeRV: Implicit Neural Video Representation with Decomposed Static and Dynamic Codes

Hao Yan, Zhihui Ke, Xiaobo Zhou et al.

AAAI 2024paperarXiv:2401.06159

#3191

FRED: Towards a Full Rotation-Equivariance in Aerial Image Object Detection

Chanho Lee, Jinsu Son, Hyounguk Shon et al.

ICLR 2024oralarXiv:2310.11053

#3192

DENEVIL: TOWARDS DECIPHERING AND NAVIGATING THE ETHICAL VALUES OF LARGE LANGUAGE MODELS VIA INSTRUCTION LEARNING

Shitong Duan, Xiaoyuan Yi, Peng Zhang et al.

AAAI 2024paperarXiv:2309.05915

#3193

ACT: Empowering Decision Transformer with Dynamic Programming via Advantage Conditioning

Chen-Xiao Gao, Chenyang Wu, Mingjun Cao et al.

ICML 2024arXiv:2405.05646

#3194

Outlier-robust Kalman Filtering through Generalised Bayes

Gerardo Duran-Martin, Matias Altamirano, Alex Shestopaloff et al.

ECCV 2024arXiv:2404.01197

#3195

Getting it Right: Improving Spatial Consistency in Text-to-Image Models

Agneet Chatterjee, Gabriela Ben Melech Stan, Estelle Guez Aflalo et al.

ICLR 2024arXiv:2310.18515

#3196

Learning to design protein-protein interactions with enhanced generalization

Anton Bushuiev, Roman Bushuiev, Petr Kouba et al.

CVPR 2024arXiv:2403.03077

#3197

MiKASA: Multi-Key-Anchor & Scene-Aware Transformer for 3D Visual Grounding

Chun-Peng Chang, Shaoxiang Wang, Alain Pagani et al.

AAAI 2024paperarXiv:2312.06578

#3198

Multi-Class Support Vector Machine with Maximizing Minimum Margin

Feiping Nie, Zhezheng Hao, Rong Wang

CVPR 2024highlightarXiv:2312.06462

#3199

Cooperation Does Matter: Exploring Multi-Order Bilateral Relations for Audio-Visual Segmentation

Qi Yang, Xing Nie, Tong Li et al.

#3200

Text-Based Occluded Person Re-identification via Multi-Granularity Contrastive Consistency Learning

Xinyi Wu, Wentao Ma, Dan Guo et al.