Most Cited 2024 "view-invariant motion" Papers

12,324 papers found • Page 12 of 62

Filters:Most Cited 2024 view-invariant motion Clear all

Conference

AAAI 2025 (3,028)COLM 2025 (418)CVPR 2025 (2,873)ICCV 2025 (2,701)ICLR 2025 (3,827)ICML 2025 (3,340)ISMAR 2025 (229)NEURIPS 2025 (5,858)AAAI 2024 (2,289)CVPR 2024 (2,716)ECCV 2024 (2,387)ICLR 2024 (2,297)ICML 2024 (2,635)

Paper Type

poster (24,624)paper (8,558)oral (1,594)spotlight (1,421)highlight (975)

#2201

FinePOSE: Fine-Grained Prompt-Driven 3D Human Pose Estimation via Diffusion Models

Jinglin Xu, Yijie Guo, Yuxin Peng

CVPR 2024highlightarXiv:2405.05216

citations

#2202

Multimodal Prototyping for cancer survival prediction

Andrew Song, Richard Chen, Guillaume Jaume et al.

ICML 2024arXiv:2407.00224

citations

#2203

Devignet: High-Resolution Vignetting Removal via a Dual Aggregated Fusion Transformer with Adaptive Channel Expansion

Shenghong Luo, Xuhang Chen, Weiwen Chen et al.

AAAI 2024paperarXiv:2308.13739

citations

#2204

TransFusion -- A Transparency-Based Diffusion Model for Anomaly Detection

Matic Fučka, Vitjan Zavrtanik, Danijel Skocaj

ECCV 2024arXiv:2311.09999

citations

#2205

ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification

Jiangbo Shi, Chen Li, Tieliang Gong et al.

CVPR 2024arXiv:2502.08391

citations

#2206

FlashFFTConv: Efficient Convolutions for Long Sequences with Tensor Cores

Dan Fu, Hermann Kumbong, Eric Nguyen et al.

ICLR 2024arXiv:2311.05908

citations

#2207

Revisiting Single Image Reflection Removal In the Wild

Yurui Zhu, Bo Li, Xueyang Fu et al.

CVPR 2024arXiv:2311.17320

citations

#2208

Translate Meanings, Not Just Words: IdiomKB’s Role in Optimizing Idiomatic Translation with Language Models

Shuang Li, Jiangjie Chen, Siyu Yuan et al.

AAAI 2024paperarXiv:2308.13961

citations

#2209

Generalized Neural Collapse for a Large Number of Classes

Jiachen Jiang, Jinxin Zhou, Peng Wang et al.

ICML 2024arXiv:2310.05351

citations

#2210

Taming Mode Collapse in Score Distillation for Text-to-3D Generation

Peihao Wang, Dejia Xu, Zhiwen Fan et al.

CVPR 2024arXiv:2401.00909

citations

#2211

NoiseCLR: A Contrastive Learning Approach for Unsupervised Discovery of Interpretable Directions in Diffusion Models

Yusuf Dalva, Pinar Yanardag

CVPR 2024arXiv:2312.05390

citations

#2212

Fourier Transporter: Bi-Equivariant Robotic Manipulation in 3D

Haojie Huang, Owen Howell, Dian Wang et al.

ICLR 2024arXiv:2401.12046

citations

#2213

XKD: Cross-Modal Knowledge Distillation with Domain Alignment for Video Representation Learning

Pritam Sarkar, Ali Etemad

AAAI 2024paperarXiv:2211.13929

citations

#2214

AiOS: All-in-One-Stage Expressive Human Pose and Shape Estimation

Qingping SUN, Yanjun Wang, Ailing Zeng et al.

CVPR 2024arXiv:2403.17934

citations

#2215

Gradient Reweighting: Towards Imbalanced Class-Incremental Learning

Jiangpeng He

CVPR 2024arXiv:2402.18528

citations

#2216

Learning Occupancy for Monocular 3D Object Detection

Liang Peng, Junkai Xu, Haoran Cheng et al.

CVPR 2024arXiv:2305.15694

citations

#2217

Controllable Mind Visual Diffusion Model

Bohan Zeng, Shanglin Li, Xuhui Liu et al.

AAAI 2024paperarXiv:2305.10135

citations

#2218

Decoupling Common and Unique Representations for Multimodal Self-supervised Learning

Yi Wang, Conrad M Albrecht, Nassim Ait Ali Braham et al.

ECCV 2024arXiv:2309.05300

citations

#2219

TAIL: Task-specific Adapters for Imitation Learning with Large Pretrained Models

Zuxin Liu, Jesse Zhang, Kavosh Asadi et al.

ICLR 2024arXiv:2310.05905

citations

#2220

DuPL: Dual Student with Trustworthy Progressive Learning for Robust Weakly Supervised Semantic Segmentation

Yuanchen Wu, Xichen Ye, KequanYang et al.

CVPR 2024arXiv:2403.11184

citations

#2221

AirPhyNet: Harnessing Physics-Guided Neural Networks for Air Quality Prediction

Kethmi Hirushini Hettige, Jiahao Ji, Shili Xiang et al.

ICLR 2024oralarXiv:2402.03784

citations

#2222

Enhancing Video Super-Resolution via Implicit Resampling-based Alignment

Kai Xu, Ziwei Yu, Xin Wang et al.

CVPR 2024highlightarXiv:2305.00163

citations

#2223

Incremental Residual Concept Bottleneck Models

Chenming Shang, Shiji Zhou, Hengyuan Zhang et al.

CVPR 2024arXiv:2404.08978

citations

#2224

Text-Driven Image Editing via Learnable Regions

Yuanze Lin, Yi-Wen Chen, Yi-Hsuan Tsai et al.

CVPR 2024arXiv:2311.16432

citations

#2225

HIR-Diff: Unsupervised Hyperspectral Image Restoration Via Improved Diffusion Models

Li Pang, Xiangyu Rui, Long Cui et al.

CVPR 2024arXiv:2402.15865

citations

#2226

Unbiased Faster R-CNN for Single-source Domain Generalized Object Detection

Yajing Liu, Shijun Zhou, Xiyao Liu et al.

CVPR 2024highlightarXiv:2405.15225

citations

#2227

Unleashing Unlabeled Data: A Paradigm for Cross-View Geo-Localization

Guopeng Li, Ming Qian, Gui-Song Xia

CVPR 2024arXiv:2403.14198

citations

#2228

6DGS: 6D Pose Estimation from a Single Image and a 3D Gaussian Splatting Model

Matteo Bortolon, Theodoros Tsesmelis, Stuart James et al.

ECCV 2024arXiv:2407.15484

citations

#2229

Towards Continual Knowledge Graph Embedding via Incremental Distillation

Jiajun Liu, Ke Wenjun, Peng Wang et al.

AAAI 2024paperarXiv:2405.04453

citations

#2230

Variance-reduced Zeroth-Order Methods for Fine-Tuning Language Models

Tanmay Gautam, Youngsuk Park, Hao Zhou et al.

ICML 2024arXiv:2404.08080

citations

#2231

RealCustom: Narrowing Real Text Word for Real-Time Open-Domain Text-to-Image Customization

Mengqi Huang, Zhendong Mao, Mingcong Liu et al.

CVPR 2024arXiv:2403.00483

citations

#2232

Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception

Junwen He, Yifan Wang, Lijun Wang et al.

CVPR 2024highlightarXiv:2403.02969

citations

#2233

SpaRP: Fast 3D Object Reconstruction and Pose Estimation from Sparse Views

Chao Xu, Ang Li, Linghao Chen et al.

ECCV 2024arXiv:2408.10195

citations

#2234

SemiVL: Semi-Supervised Semantic Segmentation with Vision-Language Guidance

Lukas Hoyer, David Tan, Muhammad Ferjad Naeem et al.

ECCV 2024arXiv:2311.16241

citations

#2235

Depth-aware Test-Time Training for Zero-shot Video Object Segmentation

Weihuang Liu, Xi Shen, Haolun Li et al.

CVPR 2024arXiv:2403.04258

citations

#2236

Elastic Feature Consolidation For Cold Start Exemplar-Free Incremental Learning

Simone Magistri, Tomaso Trinci, Albin Soutif--Cormerais et al.

ICLR 2024arXiv:2402.03917

citations

#2237

Rethinking Channel Dependence for Multivariate Time Series Forecasting: Learning from Leading Indicators

Lifan Zhao, Yanyan Shen

ICLR 2024arXiv:2401.17548

citations

#2238

Complete and Efficient Graph Transformers for Crystal Material Property Prediction

Keqiang Yan, Cong Fu, Xiaofeng Qian et al.

ICLR 2024arXiv:2403.11857

citations

#2239

STanHop: Sparse Tandem Hopfield Model for Memory-Enhanced Time Series Prediction

Yu-Hsuan Wu, Jerry Hu, Weijian Li et al.

ICLR 2024oralarXiv:2312.17346

citations

#2240

V-DETR: DETR with Vertex Relative Position Encoding for 3D Object Detection

Yichao Shen, Zigang Geng, YUHUI YUAN et al.

ICLR 2024arXiv:2308.04409

citations

#2241

Scalable AI Safety via Doubly-Efficient Debate

Jonah Brown-Cohen, Geoffrey Irving, Georgios Piliouras

ICML 2024arXiv:2311.14125

citations

#2242

HomoFormer: Homogenized Transformer for Image Shadow Removal

Jie Xiao, Xueyang Fu, Yurui Zhu et al.

CVPR 2024

citations

#2243

When Do Prompting and Prefix-Tuning Work? A Theory of Capabilities and Limitations

Aleksandar Petrov, Philip Torr, Adel Bibi

ICLR 2024arXiv:2310.19698

citations

#2244

OmniVec2 - A Novel Transformer based Network for Large Scale Multimodal and Multitask Learning

Siddharth Srivastava, Gaurav Sharma

CVPR 2024arXiv:2507.13364

citations

#2245

Copyright Traps for Large Language Models

Matthieu Meeus, Igor Shilov, Manuel Faysse et al.

ICML 2024arXiv:2402.09363

citations

#2246

Revisiting the Role of Language Priors in Vision-Language Models

Zhiqiu Lin, Xinyue Chen, Deepak Pathak et al.

ICML 2024arXiv:2306.01879

citations

#2247

Modeling Caption Diversity in Contrastive Vision-Language Pretraining

Samuel Lavoie, Polina Kirichenko, Mark Ibrahim et al.

ICML 2024arXiv:2405.00740

citations

#2248

GLACE: Global Local Accelerated Coordinate Encoding

Fangjinhua Wang, Xudong Jiang, Silvano Galliani et al.

CVPR 2024arXiv:2406.04340

citations

#2249

Communication-Efficient Federated Learning with Accelerated Client Gradient

Geeho Kim, Jinkyu Kim, Bohyung Han

CVPR 2024arXiv:2201.03172

citations

#2250

MuxServe: Flexible Spatial-Temporal Multiplexing for Multiple LLM Serving

Jiangfei Duan, Runyu Lu, Haojie Duanmu et al.

ICML 2024oralarXiv:2404.02015

citations

#2251

ZeroShape: Regression-based Zero-shot Shape Reconstruction

Zixuan Huang, Stefan Stojanov, Anh Thai et al.

CVPR 2024arXiv:2312.14198

citations

#2252

STEM: Unleashing the Power of Embeddings for Multi-Task Recommendation

Liangcai Su, Junwei Pan, Ximei Wang et al.

AAAI 2024paperarXiv:2308.13537

citations

#2253

BT-Adapter: Video Conversation is Feasible Without Video Instruction Tuning

Ruyang Liu, Chen Li, Yixiao Ge et al.

CVPR 2024arXiv:2309.15785

citations

#2254

Graph Generation with Diffusion Mixture

Jaehyeong Jo, Dongki Kim, Sung Ju Hwang

ICML 2024arXiv:2302.03596

citations

#2255

AutoEval-Video: An Automatic Benchmark for Assessing Large Vision Language Models in Open-Ended Video Question Answering

Xiuyuan Chen, Yuan Lin, Yuchen Zhang et al.

ECCV 2024arXiv:2311.14906

citations

#2256

Portrait4D: Learning One-Shot 4D Head Avatar Synthesis using Synthetic Data

Yu Deng, Duomin Wang, Xiaohang Ren et al.

CVPR 2024arXiv:2311.18729

citations

#2257

No Prejudice! Fair Federated Graph Neural Networks for Personalized Recommendation

Nimesh Agrawal, Anuj Sirohi, Sandeep Kumar et al.

AAAI 2024paperarXiv:2312.10080

citations

#2258

GalLop: Learning global and local prompts for vision-language models

Marc Lafon, Elias Ramzi, Clément Rambour et al.

ECCV 2024arXiv:2407.01400

citations

#2259

Conformal prediction for multi-dimensional time series by ellipsoidal sets

Chen Xu, Hanyang Jiang, Yao Xie

ICML 2024spotlightarXiv:2403.03850

citations

#2260

DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception

Yibo Wang, Ruiyuan Gao, Kai Chen et al.

CVPR 2024arXiv:2403.13304

citations

#2261

Scissorhands: Scrub Data Influence via Connection Sensitivity in Networks

Jing Wu, Mehrtash Harandi

ECCV 2024arXiv:2401.06187

citations

#2262

Learning Diffusion Texture Priors for Image Restoration

Tian Ye, Sixiang Chen, Wenhao Chai et al.

CVPR 2024highlight

citations

#2263

PolyGCL: GRAPH CONTRASTIVE LEARNING via Learnable Spectral Polynomial Filters

Jingyu Chen, Runlin Lei, Zhewei Wei

ICLR 2024spotlight

citations

#2264

The Benefits of Reusing Batches for Gradient Descent in Two-Layer Networks: Breaking the Curse of Information and Leap Exponents

Yatin Dandi, Emanuele Troiani, Luca Arnaboldi et al.

ICML 2024arXiv:2402.03220

citations

#2265

Approximating the Shapley Value without Marginal Contributions

Patrick Kolpaczki, Viktor Bengs, Maximilian Muschalik et al.

AAAI 2024paperarXiv:2302.00736

citations

#2266

EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models

Koichi Namekata, Amirmojtaba Sabour, Sanja Fidler et al.

ICLR 2024arXiv:2401.11739

citations

#2267

Visual Anagrams: Generating Multi-View Optical Illusions with Diffusion Models

Daniel Geng, Inbum Park, Andrew Owens

CVPR 2024arXiv:2311.17919

citations

#2268

SmartRefine: A Scenario-Adaptive Refinement Framework for Efficient Motion Prediction

Yang Zhou, Hao Shao, Letian Wang et al.

CVPR 2024arXiv:2403.11492

citations

#2269

Benign Overfitting and Grokking in ReLU Networks for XOR Cluster Data

Zhiwei Xu, Yutong Wang, Spencer Frei et al.

ICLR 2024arXiv:2310.02541

citations

#2270

Spherical Linear Interpolation and Text-Anchoring for Zero-shot Composed Image Retrieval

Young Kyun Jang, Dat B Huynh, Ashish Shah et al.

ECCV 2024arXiv:2405.00571

citations

#2271

MgNO: Efficient Parameterization of Linear Operators via Multigrid

Juncai He, Xinliang Liu, Jinchao Xu

ICLR 2024arXiv:2310.19809

citations

#2272

Score-Guided Diffusion for 3D Human Recovery

Anastasis Stathopoulos, Ligong Han, Dimitris N. Metaxas

CVPR 2024arXiv:2403.09623

citations

#2273

PanoDiffusion: 360-degree Panorama Outpainting via Diffusion

Tianhao Wu, Chuanxia Zheng, Tat-Jen Cham

ICLR 2024arXiv:2307.03177

citations

#2274

Can Protective Perturbation Safeguard Personal Data from Being Exploited by Stable Diffusion?

Zhengyue Zhao, Jinhao Duan, Kaidi Xu et al.

CVPR 2024arXiv:2312.00084

citations

#2275

PINNACLE: PINN Adaptive ColLocation and Experimental points selection

Gregory Kang Ruey Lau, Apivich Hemachandra, See-Kiong Ng et al.

ICLR 2024spotlightarXiv:2404.07662

citations

#2276

Is This the Subspace You Are Looking for? An Interpretability Illusion for Subspace Activation Patching

Aleksandar Makelov, Georg Lange, Atticus Geiger et al.

ICLR 2024arXiv:2311.17030

citations

#2277

Enabling Efficient Equivariant Operations in the Fourier Basis via Gaunt Tensor Products

Shengjie Luo, Tianlang Chen, Aditi Krishnapriyan

ICLR 2024spotlightarXiv:2401.10216

citations

#2278

Mitigating Motion Blur in Neural Radiance Fields with Events and Frames

Marco Cannici, Davide Scaramuzza

CVPR 2024arXiv:2403.19780

citations

#2279

Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning?

Khashayar Gatmiry, Nikunj Saunshi, Sashank J. Reddi et al.

ICML 2024arXiv:2410.08292

citations

#2280

Enhancing Visual Document Understanding with Contrastive Learning in Large Visual-Language Models

Xin Li, Yunfei Wu, Xinghua Jiang et al.

CVPR 2024arXiv:2402.19014

citations

#2281

DiffAM: Diffusion-based Adversarial Makeup Transfer for Facial Privacy Protection

Yuhao Sun, Lingyun Yu, Hongtao Xie et al.

CVPR 2024arXiv:2405.09882

citations

#2282

TopoMLP: A Simple yet Strong Pipeline for Driving Topology Reasoning

Dongming Wu, Jiahao Chang, Fan Jia et al.

ICLR 2024arXiv:2310.06753

citations

#2283

Wear-Any-Way: Manipulable Virtual Try-on via Sparse Correspondence Alignment

Mengting Chen, Xi Chen, Zhonghua Zhai et al.

ECCV 2024arXiv:2403.12965

citations

#2284

DreamControl: Control-Based Text-to-3D Generation with 3D Self-Prior

Tianyu Huang, Yihan Zeng, Zhilu Zhang et al.

CVPR 2024arXiv:2312.06439

citations

#2285

DAMSDet: Dynamic Adaptive Multispectral Detection Transformer with Competitive Query Selection and Adaptive Feature Fusion

Junjie Guo, Chenqiang Gao, Fangcen liu et al.

ECCV 2024arXiv:2403.00326

citations

#2286

GROOT: Learning to Follow Instructions by Watching Gameplay Videos

Shaofei Cai, Bowei Zhang, Zihao Wang et al.

ICLR 2024spotlightarXiv:2310.08235

citations

#2287

Anomaly Heterogeneity Learning for Open-set Supervised Anomaly Detection

Jiawen Zhu, Choubo Ding, Yu Tian et al.

CVPR 2024arXiv:2310.12790

citations

#2288

Multi-Architecture Multi-Expert Diffusion Models

Yunsung Lee, Jin-Young Kim, Hyojun Go et al.

AAAI 2024paperarXiv:2306.04990

citations

#2289

SMooDi: Stylized Motion Diffusion Model

Lei Zhong, Yiming Xie, Varun Jampani et al.

ECCV 2024arXiv:2407.12783

citations

#2290

VicTR: Video-conditioned Text Representations for Activity Recognition

Kumara Kahatapitiya, Anurag Arnab, Arsha Nagrani et al.

CVPR 2024arXiv:2304.02560

citations

#2291

SlowTrack: Increasing the Latency of Camera-Based Perception in Autonomous Driving Using Adversarial Examples

Chen Ma, Ningfei Wang, Qi Alfred Chen et al.

AAAI 2024paperarXiv:2312.09520

citations

#2292

Subgoal-based Demonstration Learning for Formal Theorem Proving

Xueliang Zhao, Wenda Li, Lingpeng Kong

ICML 2024arXiv:2305.16366

citations

#2293

Transformer-Based No-Reference Image Quality Assessment via Supervised Contrastive Learning

Jinsong Shi, Pan Gao, Jie Qin

AAAI 2024paperarXiv:2312.06995

citations

#2294

TESTAM: A Time-Enhanced Spatio-Temporal Attention Model with Mixture of Experts

Hyunwook Lee, Sungahn Ko

ICLR 2024oralarXiv:2403.02600

citations

#2295

Multi-granularity Correspondence Learning from Long-term Noisy Videos

Yijie Lin, Jie Zhang, Zhenyu Huang et al.

ICLR 2024oralarXiv:2401.16702

citations

#2296

Rethinking the Spatial Inconsistency in Classifier-Free Diffusion Guidance

Dazhong Shen, Guanglu Song, Zeyue Xue et al.

CVPR 2024arXiv:2404.05384

citations

#2297

U-mixer: An Unet-Mixer Architecture with Stationarity Correction for Time Series Forecasting

Xiang Ma, Xuemei Li, Lexin Fang et al.

AAAI 2024paperarXiv:2401.02236

citations

#2298

Solving Motion Planning Tasks with a Scalable Generative Model

Yihan Hu, Siqi Chai, Zhening Yang et al.

ECCV 2024arXiv:2407.02797

citations

#2299

Weighted Ensemble Models Are Strong Continual Learners

Imad Eddine Marouf, Subhankar Roy, Enzo Tartaglione et al.

ECCV 2024arXiv:2312.08977

citations

#2300

How to Configure Good In-Context Sequence for Visual Question Answering

Li Li, Jiawei Peng, huiyi chen et al.

CVPR 2024arXiv:2312.01571

citations

#2301

TRIP: Temporal Residual Learning with Image Noise Prior for Image-to-Video Diffusion Models

Zhongwei Zhang, Fuchen Long, Yingwei Pan et al.

CVPR 2024arXiv:2403.17005

citations

#2302

Transformers Learn Nonlinear Features In Context: Nonconvex Mean-field Dynamics on the Attention Landscape

Juno Kim, Taiji Suzuki

ICML 2024arXiv:2402.01258

citations

#2303

Prompt Highlighter: Interactive Control for Multi-Modal LLMs

Yuechen Zhang, Shengju Qian, Bohao Peng et al.

CVPR 2024arXiv:2312.04302

citations

#2304

Diagnosing and Re-learning for Balanced Multimodal Learning

Yake Wei, Siwei Li, Ruoxuan Feng et al.

ECCV 2024arXiv:2407.09705

citations

#2305

Teach LLMs to Phish: Stealing Private Information from Language Models

Ashwinee Panda, Christopher Choquette-Choo, Zhengming Zhang et al.

ICLR 2024arXiv:2403.00871

citations

#2306

CLEX: Continuous Length Extrapolation for Large Language Models

Guanzheng Chen, Xin Li, Zaiqiao Meng et al.

ICLR 2024arXiv:2310.16450

citations

#2307

Scaling Diffusion Models to Real-World 3D LiDAR Scene Completion

Lucas Nunes, Rodrigo Marcuzzi, Benedikt Mersch et al.

CVPR 2024arXiv:2403.13470

citations

#2308

UnO: Unsupervised Occupancy Fields for Perception and Forecasting

Ben Agro, Quinlan Sykora, Sergio Casas et al.

CVPR 2024arXiv:2406.08691

citations

#2309

Rethinking Reverse Distillation for Multi-Modal Anomaly Detection

Zhihao Gu, Jiangning Zhang, Liang Liu et al.

AAAI 2024paper

citations

#2310

PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback

Souradip Chakraborty, Amrit Bedi, Alec Koppel et al.

ICLR 2024arXiv:2308.02585

citations

#2311

Grokking as a First Order Phase Transition in Two Layer Networks

Noa Rubin, Inbar Seroussi, Zohar Ringel

ICLR 2024arXiv:2310.03789

citations

#2312

R3D-AD: Reconstruction via Diffusion for 3D Anomaly Detection

Zheyuan Zhou, Wang Le, Naiyu Fang et al.

ECCV 2024arXiv:2407.10862

citations

#2313

Content-Adaptive Non-Local Convolution for Remote Sensing Pansharpening

Yule Duan, Xiao Wu, Haoyu Deng et al.

CVPR 2024arXiv:2404.07543

citations

#2314

CARZero: Cross-Attention Alignment for Radiology Zero-Shot Classification

Haoran Lai, Qingsong Yao, Zihang Jiang et al.

CVPR 2024arXiv:2402.17417

citations

#2315

Federated Adaptive Prompt Tuning for Multi-Domain Collaborative Learning

Shangchao Su, Mingzhao Yang, Bin Li et al.

AAAI 2024paperarXiv:2211.07864

citations

#2316

Adaptive Fusion of Single-View and Multi-View Depth for Autonomous Driving

JunDa Cheng, Wei Yin, Kaixuan Wang et al.

CVPR 2024arXiv:2403.07535

citations

#2317

MCL-NER: Cross-Lingual Named Entity Recognition via Multi-View Contrastive Learning

Authors: Ying Mo, Jian Yang, Jiahao Liu et al.

AAAI 2024paperarXiv:2308.09073

citations

#2318

Multi-view Aggregation Network for Dichotomous Image Segmentation

Qian Yu, Xiaoqi Zhao, Youwei Pang et al.

CVPR 2024highlightarXiv:2404.07445

citations

#2319

Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D Prior

Fangfu Liu, Diankun Wu, Yi Wei et al.

CVPR 2024arXiv:2312.06655

citations

#2320

Latent Space Editing in Transformer-Based Flow Matching

Vincent Tao Hu, Wei Zhang, Meng Tang et al.

AAAI 2024paperarXiv:2312.10825

citations

#2321

Hypergraph-enhanced Dual Semi-supervised Graph Classification

Wei Ju, Zhengyang Mao, Siyu Yi et al.

ICML 2024arXiv:2405.04773

citations

#2322

Smooth Tchebycheff Scalarization for Multi-Objective Optimization

Xi Lin, Xiaoyuan Zhang, Zhiyuan Yang et al.

ICML 2024arXiv:2402.19078

citations

#2323

Prompting Segmentation with Sound Is Generalizable Audio-Visual Source Localizer

Yaoting Wang, Liu Weisong, Guangyao Li et al.

AAAI 2024paperarXiv:2309.07929

citations

#2324

AdaRevD: Adaptive Patch Exiting Reversible Decoder Pushes the Limit of Image Deblurring

Xintian Mao, Xiwen Gao, Yan Wang

CVPR 2024arXiv:2406.09135

citations

#2325

Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model

Zhicai Wang, Longhui Wei, Tan Wang et al.

CVPR 2024arXiv:2403.19600

citations

#2326

Towards Foundational Models for Molecular Learning on Large-Scale Multi-Task Datasets

Dominique Beaini, Shenyang(Andy) Huang, Joao Cunha et al.

ICLR 2024arXiv:2310.04292

citations

#2327

Unsupervised Universal Image Segmentation

XuDong Wang, Dantong Niu, Xinyang Han et al.

CVPR 2024arXiv:2312.17243

citations

#2328

Dynamic Prompt Optimizing for Text-to-Image Generation

Wenyi Mo, Tianyu Zhang, Yalong Bai et al.

CVPR 2024arXiv:2404.04095

citations

#2329

PaSCo: Urban 3D Panoptic Scene Completion with Uncertainty Awareness

Anh-Quan Cao, Angela Dai, Raoul de Charette

CVPR 2024arXiv:2312.02158

citations

#2330

GenZI: Zero-Shot 3D Human-Scene Interaction Generation

Lei Li, Angela Dai

CVPR 2024arXiv:2311.17737

citations

#2331

MoPE-CLIP: Structured Pruning for Efficient Vision-Language Models with Module-wise Pruning Error Metric

Haokun Lin, Haoli Bai, Zhili Liu et al.

CVPR 2024arXiv:2403.07839

citations

#2332

Multi-Modal Latent Space Learning for Chain-of-Thought Reasoning in Language Models

Liqi He, Zuchao Li, Xiantao Cai et al.

AAAI 2024paperarXiv:2312.08762

citations

#2333

MBR and QE Finetuning: Training-time Distillation of the Best and Most Expensive Decoding Methods

Mara Finkelstein, Markus Freitag

ICLR 2024arXiv:2309.10966

citations

#2334

Skip-Attention: Improving Vision Transformers by Paying Less Attention

Shashank Venkataramanan, Amir Ghodrati, Yuki Asano et al.

ICLR 2024arXiv:2301.02240

citations

#2335

MathAttack: Attacking Large Language Models towards Math Solving Ability

Zihao Zhou, Qiufeng Wang, Mingyu Jin et al.

AAAI 2024paperarXiv:2309.01686

citations

#2336

HeadStudio: Text to Animatable Head Avatars with 3D Gaussian Splatting

Zhenglin Zhou, Fan Ma, Hehe Fan et al.

ECCV 2024arXiv:2402.06149

citations

#2337

Partitioning Message Passing for Graph Fraud Detection

Wei Zhuo, Zemin Liu, Bryan Hooi et al.

ICLR 2024arXiv:2412.00020

citations

#2338

FreeMotion: A Unified Framework for Number-free Text-to-Motion Synthesis

Ke Fan, Junshu Tang, Weijian Cao et al.

ECCV 2024arXiv:2405.15763

citations

#2339

Contrastive Mean-Shift Learning for Generalized Category Discovery

Sua Choi, Dahyun Kang, Minsu Cho

CVPR 2024arXiv:2404.09451

citations

#2340

SafeDreamer: Safe Reinforcement Learning with World Models

Weidong Huang, Jiaming Ji, Chunhe Xia et al.

ICLR 2024arXiv:2307.07176

citations

#2341

Deep Variational Incomplete Multi-View Clustering: Exploring Shared Clustering Structures

Gehui Xu, Jie Wen, Chengliang Liu et al.

AAAI 2024paper

citations

#2342

Potential Based Diffusion Motion Planning

Yunhao Luo, Chen Sun, Josh Tenenbaum et al.

ICML 2024arXiv:2407.06169

citations

#2343

MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation

Hanzhe Hu, Zhizhuo Zhou, Varun Jampani et al.

CVPR 2024arXiv:2404.03656

citations

#2344

VideoCutLER: Surprisingly Simple Unsupervised Video Instance Segmentation

XuDong Wang, Ishan Misra, Ziyun Zeng et al.

CVPR 2024arXiv:2308.14710

citations

#2345

MixDQ: Memory-Efficient Few-Step Text-to-Image Diffusion Models with Metric-Decoupled Mixed Precision Quantization

Zhao Tianchen, Xuefei Ning, Tongcheng Fang et al.

ECCV 2024arXiv:2405.17873

citations

#2346

GoMVS: Geometrically Consistent Cost Aggregation for Multi-View Stereo

Jiang Wu, Rui Li, Haofei Xu et al.

CVPR 2024arXiv:2404.07992

citations

#2347

On the Trajectory Regularity of ODE-based Diffusion Sampling

Defang Chen, Zhenyu Zhou, Can Wang et al.

ICML 2024arXiv:2405.11326

citations

#2348

Don't trust your eyes: on the (un)reliability of feature visualizations

Robert Geirhos, Roland S. Zimmermann, Blair Bilodeau et al.

ICML 2024arXiv:2306.04719

citations

#2349

Generative Sliced MMD Flows with Riesz Kernels

Johannes Hertrich, Christian Wald, Fabian Altekrüger et al.

ICLR 2024arXiv:2305.11463

citations

#2350

FedSelect: Personalized Federated Learning with Customized Selection of Parameters for Fine-Tuning

Rishub Tamirisa, Chulin Xie, Wenxuan Bao et al.

CVPR 2024arXiv:2404.02478

citations

#2351

Time Weaver: A Conditional Time Series Generation Model

Sai Shankar Narasimhan, Shubhankar Agarwal, Oguzhan Akcin et al.

ICML 2024spotlightarXiv:2403.02682

citations

#2352

MetaCloak: Preventing Unauthorized Subject-driven Text-to-image Diffusion-based Synthesis via Meta-learning

Yixin Liu, Chenrui Fan, Yutong Dai et al.

CVPR 2024arXiv:2311.13127

citations

#2353

ADA-Track: End-to-End Multi-Camera 3D Multi-Object Tracking with Alternating Detection and Association

Shuxiao Ding, Lukas Schneider, Marius Cordts et al.

CVPR 2024arXiv:2405.08909

citations

#2354

A Computational Framework for Solving Wasserstein Lagrangian Flows

Kirill Neklyudov, Rob Brekelmans, Alexander Tong et al.

ICML 2024arXiv:2310.10649

citations

#2355

Diving into Underwater: Segment Anything Model Guided Underwater Salient Instance Segmentation and A Large-scale Dataset

Shijie Lian, Ziyi Zhang, Hua Li et al.

ICML 2024arXiv:2406.06039

citations

#2356

Exploiting Label Skews in Federated Learning with Model Concatenation

Yiqun Diao, Qinbin Li, Bingsheng He

AAAI 2024paperarXiv:2312.06290

citations

#2357

Robust Node Classification on Graph Data with Graph and Label Noise

Yonghua Zhu, Lei Feng, Zhenyun Deng et al.

AAAI 2024paper

citations

#2358

RobustSAM: Segment Anything Robustly on Degraded Images

Wei-Ting Chen, Yu Jiet Vong, Sy-Yen Kuo et al.

CVPR 2024highlightarXiv:2406.09627

citations

#2359

Alternate Diverse Teaching for Semi-supervised Medical Image Segmentation

Zhen Zhao, Zicheng Wang, Dian Yu et al.

ECCV 2024arXiv:2311.17325

citations

#2360

SegPoint: Segment Any Point Cloud via Large Language Model

Shuting He, Henghui Ding, Xudong Jiang et al.

ECCV 2024arXiv:2407.13761

citations

#2361

Omni6DPose: A Benchmark and Model for Universal 6D Object Pose Estimation and Tracking

Jiyao Zhang, Weiyao Huang, Bo Peng et al.

ECCV 2024arXiv:2406.04316

citations

#2362

ElasticDiffusion: Training-free Arbitrary Size Image Generation through Global-Local Content Separation

Moayed Haji Ali, Guha Balakrishnan, Vicente Ordonez

CVPR 2024arXiv:2311.18822

citations

#2363

DifFlow3D: Toward Robust Uncertainty-Aware Scene Flow Estimation with Iterative Diffusion-Based Refinement

Jiuming Liu, Guangming Wang, Weicai Ye et al.

CVPR 2024

citations

#2364

Fully Hyperbolic Convolutional Neural Networks for Computer Vision

Ahmad Bdeir, Kristian Schwethelm, Niels Landwehr

ICLR 2024arXiv:2303.15919

citations

#2365

Making RL with Preference-based Feedback Efficient via Randomization

Runzhe Wu, Wen Sun

ICLR 2024arXiv:2310.14554

citations

#2366

Multicalibration for Confidence Scoring in LLMs

Gianluca Detommaso, Martin A Bertran, Riccardo Fogliato et al.

ICML 2024arXiv:2404.04689

citations

#2367

FairRAG: Fair Human Generation via Fair Retrieval Augmentation

Robik Shrestha, Yang Zou, Qiuyu Chen et al.

CVPR 2024arXiv:2403.19964

citations

#2368

Is ImageNet worth 1 video? Learning strong image encoders from 1 long unlabelled video

Shashank Venkataramanan, Mamshad Nayeem Rizve, Joao Carreira et al.

ICLR 2024arXiv:2310.08584

citations

#2369

Convolutional Prompting meets Language Models for Continual Learning

Anurag Roy, Riddhiman Moulick, Vinay Verma et al.

CVPR 2024arXiv:2403.20317

citations

#2370

Video Question Answering with Procedural Programs

Rohan Choudhury, Koichiro Niinuma, Kris Kitani et al.

ECCV 2024arXiv:2312.00937

citations

#2371

Generalization to New Sequential Decision Making Tasks with In-Context Learning

Sharath Chandra Raparthy, Eric Hambro, Robert Kirk et al.

ICML 2024arXiv:2312.03801

citations

#2372

OpenESS: Event-based Semantic Scene Understanding with Open Vocabularies

Lingdong Kong, Youquan Liu, Lai Xing Ng et al.

CVPR 2024highlightarXiv:2405.05259

citations

#2373

Action Scene Graphs for Long-Form Understanding of Egocentric Videos

Ivan Rodin, Antonino Furnari, Kyle Min et al.

CVPR 2024arXiv:2312.03391

citations

#2374

An Information-Theoretic Analysis of In-Context Learning

Hong Jun Jeon, Jason Lee, Qi Lei et al.

ICML 2024arXiv:2401.15530

citations

#2375

Efficient Exploration for LLMs

Vikranth Dwaracherla, Seyed Mohammad Asghari, Botao Hao et al.

ICML 2024arXiv:2402.00396

citations

#2376

Disentangled Prompt Representation for Domain Generalization

De Cheng, Zhipeng Xu, XINYANG JIANG et al.

CVPR 2024

citations

#2377

Compositional Text-to-Image Generation with Dense Blob Representations

Weili Nie, Sifei Liu, Morteza Mardani et al.

ICML 2024arXiv:2405.08246

citations

#2378

Towards Accurate Post-training Quantization for Diffusion Models

Changyuan Wang, Ziwei Wang, Xiuwei Xu et al.

CVPR 2024highlightarXiv:2305.18723

citations

#2379

Parallel Vertex Diffusion for Unified Visual Grounding

Authors: Zesen Cheng, Kehan Li, Peng Jin et al.

AAAI 2024paperarXiv:2303.07216

citations

#2380

MEVG : Multi-event Video Generation with Text-to-Video Models

Gyeongrok Oh, Jaehwan Jeong, Sieun Kim et al.

ECCV 2024arXiv:2312.04086

citations

#2381

Goldfish: Vision-Language Understanding of Arbitrarily Long Videos

Kirolos Ataallah, Xiaoqian Shen, Eslam mohamed abdelrahman et al.

ECCV 2024arXiv:2407.12679

citations

#2382

Adversarial Robustness Limits via Scaling-Law and Human-Alignment Studies

Brian Bartoldson, James Diffenderfer, Konstantinos Parasyris et al.

ICML 2024arXiv:2404.09349

citations

#2383

Question Aware Vision Transformer for Multimodal Reasoning

Roy Ganz, Yair Kittenplon, Aviad Aberdam et al.

CVPR 2024highlightarXiv:2402.05472

citations

#2384

SUGAR: Pre-training 3D Visual Representations for Robotics

Shizhe Chen, Ricardo Garcia Pinel, Ivan Laptev et al.

CVPR 2024arXiv:2404.01491

citations

#2385

Adv-Diffusion: Imperceptible Adversarial Face Identity Attack via Latent Diffusion Model

Decheng Liu, Xijun Wang, Chunlei Peng et al.

AAAI 2024paperarXiv:2312.11285

citations

#2386

SAM-PARSER: Fine-Tuning SAM Efficiently by Parameter Space Reconstruction

Zelin Peng, Zhengqin Xu, Zhilin Zeng et al.

AAAI 2024paperarXiv:2308.14604

citations

#2387

SimAC: A Simple Anti-Customization Method for Protecting Face Privacy against Text-to-Image Synthesis of Diffusion Models

Feifei Wang, Zhentao Tan, Tianyi Wei et al.

CVPR 2024arXiv:2312.07865

citations

#2388

When Model Meets New Normals: Test-Time Adaptation for Unsupervised Time-Series Anomaly Detection

AAAI 2024paperarXiv:2312.11976

citations

#2389

DVLO: Deep Visual-LiDAR Odometry with Local-to-Global Feature Fusion and Bi-Directional Structure Alignment

Jiuming Liu, Dong Zhuo, Zhiheng Feng et al.

ECCV 2024arXiv:2403.18274

citations

#2390

Amodal Completion via Progressive Mixed Context Diffusion

Katherine Xu, Lingzhi Zhang, Jianbo Shi

CVPR 2024highlightarXiv:2312.15540

citations

#2391

On the Generalization of Stochastic Gradient Descent with Momentum

Ali Ramezani-Kebrya, Kimon Antonakopoulos, Volkan Cevher et al.

ICML 2024arXiv:1809.04564

citations

#2392

Fairy: Fast Parallelized Instruction-Guided Video-to-Video Synthesis

Bichen Wu, Ching-Yao Chuang, Xiaoyan Wang et al.

CVPR 2024arXiv:2312.13834

citations

#2393

Privacy-Preserving Instructions for Aligning Large Language Models

Da Yu, Peter Kairouz, Sewoong Oh et al.

ICML 2024arXiv:2402.13659

citations

#2394

Collaborative Vision-Text Representation Optimizing for Open-Vocabulary Segmentation

Siyu Jiao, hongguang Zhu, Yunchao Wei et al.

ECCV 2024arXiv:2408.00744

citations

#2395

Tokenize Anything via Prompting

Ting Pan, Lulu Tang, Xinlong Wang et al.

ECCV 2024arXiv:2312.09128

citations

#2396

Hide in Thicket: Generating Imperceptible and Rational Adversarial Perturbations on 3D Point Clouds

Tianrui Lou, Xiaojun Jia, Jindong Gu et al.

CVPR 2024arXiv:2403.05247

citations

#2397

Pyramid Diffusion for Fine 3D Large Scene Generation

Yuheng Liu, Xinke Li, Xueting Li et al.

ECCV 2024arXiv:2311.12085

citations

#2398

FunQA: Towards Surprising Video Comprehension

Binzhu Xie, Sicheng Zhang, Zitang Zhou et al.

ECCV 2024arXiv:2306.14899

citations

#2399

DragVideo: Interactive Drag-style Video Editing

Yufan Deng, Ruida Wang, Yuhao ZHANG et al.

ECCV 2024arXiv:2312.02216

citations

#2400

Robust Emotion Recognition in Context Debiasing

Dingkang Yang, Kun Yang, Mingcheng Li et al.

CVPR 2024arXiv:2403.05963

citations

← Previous

1...10 11 12 13 14...62