Most Cited 2024 &quot;orlicz space&quot; Papers

ICLR 2024arXiv:2303.01418

#202

Human Motion Diffusion as a Generative Prior

Yonatan Shafir, Guy Tevet, Roy Kapon et al.

331

ICLR 2024arXiv:2309.17400

#203

Directly Fine-Tuning Diffusion Models on Differentiable Rewards

Kevin Clark, Paul Vicol, Kevin Swersky et al.

330

ICML 2024arXiv:2312.06635

#204

Gated Linear Attention Transformers with Hardware-Efficient Training

Songlin Yang, Bailin Wang, Yikang Shen et al.

329

ICLR 2024arXiv:2309.06657

#205

Statistical Rejection Sampling Improves Preference Optimization

Tianqi Liu, Yao Zhao, Rishabh Joshi et al.

329

CVPR 2024arXiv:2312.13150

#206

Splatter Image: Ultra-Fast Single-View 3D Reconstruction

Stanislaw Szymanowicz, Christian Rupprecht, Andrea Vedaldi

328

CVPR 2024highlightarXiv:2311.12198

#207

PhysGaussian: Physics-Integrated 3D Gaussians for Generative Dynamics

Tianyi Xie, Zeshun Zong, Yuxing Qiu et al.

328

CVPR 2024arXiv:2311.16498

#208

MagicAnimate: Temporally Consistent Human Image Animation using Diffusion Model

Zhongcong Xu, Jianfeng Zhang, Jun Hao Liew et al.

327

ICLR 2024arXiv:2310.16789

#209

Detecting Pretraining Data from Large Language Models

Weijia Shi, Anirudh Ajith, Mengzhou Xia et al.

327

CVPR 2024arXiv:2312.04461

#210

PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding

Zhen Li, Mingdeng Cao, Xintao Wang et al.

327

ICLR 2024arXiv:2307.12856

#211

A Real-World WebAgent with Planning, Long Context Understanding, and Program Synthesis

Izzeddin Gur, Hiroki Furuta, Austin Huang et al.

325

ECCV 2024arXiv:2403.12008

#212

SV3D: Novel Multi-view Synthesis and 3D Generation from a Single Image using Latent Video Diffusion

Vikram Voleti, Chun-Han Yao, Mark Boss et al.

323

ICLR 2024arXiv:2309.06380

#213

InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation

Xingchao Liu, Xiwen Zhang, Jianzhu Ma et al.

323

ICLR 2024spotlightarXiv:2311.01378

#214

Vision-Language Foundation Models as Effective Robot Imitators

Xinghang Li, Minghuan Liu, Hanbo Zhang et al.

320

ICML 2024spotlightarXiv:2402.01622

#215

TravelPlanner: A Benchmark for Real-World Planning with Language Agents

Jian Xie, Kai Zhang, Jiangjie Chen et al.

319

CVPR 2024arXiv:2311.15826

#216

GeoChat: Grounded Large Vision-Language Model for Remote Sensing

Kartik Kuckreja, Muhammad Sohail Danish, Muzammal Naseer et al.

319

CVPR 2024highlightarXiv:2306.14435

#217

DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing

Yujun Shi, Chuhui Xue, Jun Hao Liew et al.

314

ICLR 2024arXiv:2310.01558

#218

Making Retrieval-Augmented Language Models Robust to Irrelevant Context

Ori Yoran, Tomer Wolfson, Ori Ram et al.

314

ICLR 2024arXiv:2309.11235

#219

OpenChat: Advancing Open-source Language Models with Mixed-Quality Data

Guan Wang, Sijie Cheng, Xianyuan Zhan et al.

313

CVPR 2024highlightarXiv:2403.18913

#220

UniDepth: Universal Monocular Metric Depth Estimation

Luigi Piccinelli, Yung-Hsu Yang, Christos Sakaridis et al.

312

CVPR 2024arXiv:2303.04761

#221

Video-P2P: Video Editing with Cross-attention Control

Shaoteng Liu, Yuechen Zhang, Wenbo Li et al.

312

ICML 2024arXiv:2312.11456

#222

Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-constraint

Wei Xiong, Hanze Dong, Chenlu Ye et al.

312

CVPR 2024arXiv:2312.14937

#223

SC-GS: Sparse-Controlled Gaussian Splatting for Editable Dynamic Scenes

Yihua Huang, Yangtian Sun, Ziyi Yang et al.

311

CVPR 2024arXiv:2312.16812

#224

Spacetime Gaussian Feature Splatting for Real-Time Dynamic View Synthesis

Zhan Li, Zhang Chen, Zhong Li et al.

309

ICLR 2024spotlightarXiv:2310.16828

#225

TD-MPC2: Scalable, Robust World Models for Continuous Control

Nicklas Hansen, Hao Su, Xiaolong Wang

308

ICLR 2024arXiv:2401.15024

#226

SliceGPT: Compress Large Language Models by Deleting Rows and Columns

Saleh Ashkboos, Maximilian Croci, Marcelo Gennari do Nascimento et al.

307

ICLR 2024arXiv:2310.18961

#227

AnomalyCLIP: Object-agnostic Prompt Learning for Zero-shot Anomaly Detection

Qihang Zhou, Guansong Pang, Yu Tian et al.

306

ICML 2024arXiv:2403.03100

#228

NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models

Zeqian Ju, Yuancheng Wang, Kai Shen et al.

306

ICML 2024arXiv:2311.12871

#229

An Embodied Generalist Agent in 3D World

Jiangyong Huang, Silong Yong, Xiaojian Ma et al.

305

ICML 2024arXiv:2309.17179

#230

AlphaZero-Like Tree-Search can Guide Large Language Model Decoding and Training

Ziyu Wan, Xidong Feng, Muning Wen et al.

304

ICLR 2024arXiv:2305.03048

#231

Personalize Segment Anything Model with One Shot

Renrui Zhang, Zhengkai Jiang, Ziyu Guo et al.

301

CVPR 2024arXiv:2312.00063

#232

MoMask: Generative Masked Modeling of 3D Human Motions

chuan guo, Yuxuan Mu, Muhammad Gohar Javed et al.

300

ECCV 2024arXiv:2312.00451

#233

FSGS: Real-Time Few-shot View Synthesis using Gaussian Splatting

Zehao Zhu, Zhiwen Fan, Yifan Jiang et al.

297

ICLR 2024arXiv:2309.03883

#234

DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models

Yung-Sung Chuang, Yujia Xie, Hongyin Luo et al.

296

ECCV 2024arXiv:2308.16911

#235

PointLLM: Empowering Large Language Models to Understand Point Clouds

Runsen Xu, Xiaolong Wang, Tai Wang et al.

295

CVPR 2024highlightarXiv:2401.09603

#236

Rethinking FID: Towards a Better Evaluation Metric for Image Generation

Sadeep Jayasumana, Srikumar Ramalingam, Andreas Veit et al.

294

CVPR 2024arXiv:2312.02981

#237

ReconFusion: 3D Reconstruction with Diffusion Priors

Rundi Wu, Ben Mildenhall, Philipp Henzler et al.

293

AAAI 2024paperarXiv:2305.10250

#238

MemoryBank: Enhancing Large Language Models with Long-Term Memory

Wanjun Zhong, Lianghong Guo, Qiqi Gao et al.

290

CVPR 2024arXiv:2311.07885

#239

One-2-3-45++: Fast Single Image to 3D Objects with Consistent Multi-View Generation and 3D Diffusion

Minghua Liu, Ruoxi Shi, Linghao Chen et al.

288

ECCV 2024arXiv:2403.15378

#240

Long-CLIP: Unlocking the Long-Text Capability of CLIP

Beichen Zhang, Pan Zhang, Xiaoyi Dong et al.

287

ICLR 2024spotlightarXiv:2309.11499

#241

DreamLLM: Synergistic Multimodal Comprehension and Creation

Runpei Dong, chunrui han, Yuang Peng et al.

287

ICLR 2024arXiv:2310.06452

#242

Understanding the Effects of RLHF on LLM Generalisation and Diversity

Robert Kirk, Ishita Mediratta, Christoforos Nalmpantis et al.

287

AAAI 2024paperarXiv:2304.01186

#243

Follow Your Pose: Pose-Guided Text-to-Video Generation Using Pose-Free Videos

Yue Ma, Yingqing HE, Xiaodong Cun et al.

284

ICLR 2024spotlightarXiv:2310.12508

#244

SalUn: Empowering Machine Unlearning via Gradient-based Weight Saliency in Both Image Classification and Generation

Chongyu Fan, Jiancheng Liu, Yihua Zhang et al.

284

ECCV 2024arXiv:2308.15070

#245

DiffBIR: Toward Blind Image Restoration with Generative Diffusion Prior

Xinqi Lin, Jingwen He, Ziyan Chen et al.

283

AAAI 2024paperarXiv:2305.16986

#246

NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large Language Models

Gengze Zhou, Yicong Hong, Qi Wu

283

CVPR 2024highlightarXiv:2311.11284

#247

LucidDreamer: Towards High-Fidelity Text-to-3D Generation via Interval Score Matching

Yixun Liang, Xin Yang, Jiantao Lin et al.

282

ICML 2024arXiv:2402.04788

#248

MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark

Dongping Chen, Ruoxi Chen, Shilin Zhang et al.

281

CVPR 2024arXiv:2303.16900

#249

InceptionNeXt: When Inception Meets ConvNeXt

Weihao Yu, Pan Zhou, Shuicheng Yan et al.

280

CVPR 2024highlightarXiv:2312.17172

#250

Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision Language Audio and Action

Jiasen Lu, Christopher Clark, Sangho Lee et al.

280

CVPR 2024arXiv:2312.00858

#251

DeepCache: Accelerating Diffusion Models for Free

Xinyin Ma, Gongfan Fang, Xinchao Wang

279

CVPR 2024arXiv:2311.17132

#252

TransNeXt: Robust Foveal Visual Perception for Vision Transformers

Dai Shi

279

ICLR 2024arXiv:2306.17439

#253

Provable Robust Watermarking for AI-Generated Text

Xuandong Zhao, Prabhanjan Ananth, Lei Li et al.

279

ICML 2024arXiv:2402.13753

#254

LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens

Yiran Ding, Li Lyna Zhang, Chengruidong Zhang et al.

ICLR 2024arXiv:2306.03091

#255

RepoBench: Benchmarking Repository-Level Code Auto-Completion Systems

Tianyang Liu, Canwen Xu, Julian McAuley

CVPR 2024arXiv:2312.09147

#256

Triplane Meets Gaussian Splatting: Fast and Generalizable Single-View 3D Reconstruction with Transformers

Zi-Xin Zou, Zhipeng Yu, Yuan-Chen Guo et al.

ECCV 2024arXiv:2312.06662

#257

Photorealistic Video Generation with Diffusion Models

Agrim Gupta, Lijun Yu, Kihyuk Sohn et al.

CVPR 2024arXiv:2312.16256

#258

DL3DV-10K: A Large-Scale Scene Dataset for Deep Learning-based 3D Vision

Lu Ling, Yichen Sheng, Zhi Tu et al.

277

ICLR 2024arXiv:2310.11454

#259

VeRA: Vector-based Random Matrix Adaptation

Dawid Kopiczko, Tijmen Blankevoort, Yuki Asano

276

ICLR 2024arXiv:2310.00754

#260

Analyzing and Mitigating Object Hallucination in Large Vision-Language Models

Yiyang Zhou, Chenhang Cui, Jaehong Yoon et al.

275

ICLR 2024arXiv:2312.01552

#261

The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context Learning

Bill Yuchen Lin, Abhilasha Ravichander, Ximing Lu et al.

274

AAAI 2024paperarXiv:2301.11798

#262

MedSegDiff-V2: Diffusion-based Medical Image Segmentation with Transformer

Junde Wu, Wei Ji, Huazhu Fu et al.

274

CVPR 2024arXiv:2311.16518

#263

SeeSR: Towards Semantics-Aware Real-World Image Super-Resolution

Rongyuan Wu, Tao Yang, Lingchen Sun et al.

274

ICLR 2024arXiv:2307.02485

#264

Building Cooperative Embodied Agents Modularly with Large Language Models

Hongxin Zhang, Weihua Du, Jiaming Shan et al.

273

ICLR 2024arXiv:2310.07641

#265

Evaluating Large Language Models at Evaluating Instruction Following

Zhiyuan Zeng, Jiatong Yu, Tianyu Gao et al.

273

ICLR 2024arXiv:2309.17452

#266

ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving

Zhibin Gou, Zhihong Shao, Yeyun Gong et al.

272

ICML 2024arXiv:2306.07629

#267

SqueezeLLM: Dense-and-Sparse Quantization

Sehoon Kim, Coleman Hooper, Amir Gholaminejad et al.

272

AAAI 2024paperarXiv:2305.14836

#268

NuScenes-QA: A Multi-Modal Visual Question Answering Benchmark for Autonomous Driving

Tianwen Qian, Jingjing Chen, Linhai Zhuo et al.

271

ICLR 2024arXiv:2310.05130

#269

Fast-DetectGPT: Efficient Zero-Shot Detection of Machine-Generated Text via Conditional Probability Curvature

Guangsheng Bao, Yanbin Zhao, Zhiyang Teng et al.

269

ECCV 2024arXiv:2311.10709

#270

Factorizing Text-to-Video Generation by Explicit Image Conditioning

Rohit Girdhar, Mannat Singh, Andrew Brown et al.

266

AAAI 2024paperarXiv:2308.06394

#271

Detecting and Preventing Hallucinations in Large Vision Language Models

Anisha Gunjal, Jihan Yin, Erhan Bas

264

ECCV 2024arXiv:2403.14621

#272

GRM: Large Gaussian Reconstruction Model for Efficient 3D Reconstruction and Generation

Yinghao Xu, Zifan Shi, Wang Yifan et al.

264

ICLR 2024arXiv:2306.12059

#273

EquiformerV2: Improved Equivariant Transformer for Scaling to Higher-Degree Representations

Yi-Lun Liao, Brandon Wood, Abhishek Das et al.

263

ICLR 2024arXiv:2305.17126

#274

Large Language Models as Tool Makers

Tianle Cai, Xuezhi Wang, Tengyu Ma et al.

263

ICLR 2024spotlightarXiv:2308.08165

#275

Stochastic Controlled Averaging for Federated Learning with Communication Compression

Xinmeng Huang, Ping Li, Xiaoyun Li

262

ICLR 2024spotlightarXiv:2305.13300

#276

Adaptive Chameleon or Stubborn Sloth: Revealing the Behavior of Large Language Models in Knowledge Conflicts

Jian Xie, Kai Zhang, Jiangjie Chen et al.

261

ICLR 2024arXiv:2309.10691

#277

MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language Feedback

Xingyao Wang, Zihan Wang, Jiateng Liu et al.

260

ICML 2024arXiv:2402.07865

#278

Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models

Siddharth Karamcheti, Suraj Nair, Ashwin Balakrishna et al.

258

ICLR 2024arXiv:2209.00626

#279

The Alignment Problem from a Deep Learning Perspective

Richard Ngo, Lawrence Chan, Sören Mindermann

258

CVPR 2024arXiv:2312.05251

#280

Reconstructing Hands in 3D with Transformers

Georgios Pavlakos, Dandan Shan, Ilija Radosavovic et al.

258

ICML 2024arXiv:2402.02057

#281

Break the Sequential Dependency of LLM Inference Using Lookahead Decoding

Yichao Fu, Peter Bailis, Ion Stoica et al.

257

CVPR 2024highlightarXiv:2311.18445

#282

VTimeLLM: Empower LLM to Grasp Video Moments

Bin Huang, Xin Wang, Hong Chen et al.

257

CVPR 2024arXiv:2305.18565

#283

On Scaling Up a Multilingual Vision and Language Model

Xi Chen, Josip Djolonga, Piotr Padlewski et al.

256

CVPR 2024arXiv:2311.17918

#284

Driving into the Future: Multiview Visual Forecasting and Planning with World Model for Autonomous Driving

Yuqi Wang, Jiawei He, Lue Fan et al.

255

ICML 2024arXiv:2404.10719

#285

Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study

Shusheng Xu, Wei Fu, Jiaxuan Gao et al.

253

AAAI 2024paperarXiv:2308.15366

#286

AnomalyGPT: Detecting Industrial Anomalies Using Large Vision-Language Models

Zhaopeng Gu, Bingke Zhu, Guibo Zhu et al.

252

CVPR 2024arXiv:2312.07488

#287

LMDrive: Closed-Loop End-to-End Driving with Large Language Models

Hao Shao, Yuxuan Hu, Letian Wang et al.

251

ICLR 2024oralarXiv:2310.02207

#288

Language Models Represent Space and Time

Wes Gurnee, Max Tegmark

251

ECCV 2024arXiv:2404.19702

#289

GS-LRM: Large Reconstruction Model for 3D Gaussian Splatting

Kai Zhang, Sai Bi, Hao Tan et al.

250

CVPR 2024highlightarXiv:2311.10089

#290

Emu Edit: Precise Image Editing via Recognition and Generation Tasks

Shelly Sheynin, Adam Polyak, Uriel Singer et al.

250

ECCV 2024arXiv:2403.09611

#291

MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

Brandon McKinzie, Zhe Gan, Jean-Philippe Fauconnier et al.

250

ICLR 2024arXiv:2311.08401

#292

Fine-Tuning Language Models for Factuality

Katherine Tian, Eric Mitchell, Huaxiu Yao et al.

249

ECCV 2024arXiv:2308.14469

#293

Pixel-Aware Stable Diffusion for Realistic Image Super-Resolution and Personalized Stylization

Tao Yang, Rongyuan Wu, Peiran Ren et al.

249

ICML 2024arXiv:2406.10774

#294

QUEST: Query-Aware Sparsity for Efficient Long-Context LLM Inference

Jiaming Tang, Yilong Zhao, Kan Zhu et al.

ICLR 2024arXiv:2309.13788

#295

Can LLM-Generated Misinformation Be Detected?

Canyu Chen, Kai Shu

CVPR 2024arXiv:2310.11440

#296

EvalCrafter: Benchmarking and Evaluating Large Video Generation Models

Yaofang Liu, Xiaodong Cun, Xuebo Liu et al.

CVPR 2024arXiv:2305.15404

#297

RoMa: Robust Dense Feature Matching

Johan Edstedt, Qiyu Sun, Georg Bökman et al.

ICLR 2024arXiv:2312.13139

#298

Unleashing Large-Scale Video Generative Pre-training for Visual Robot Manipulation

Hongtao Wu, Ya Jing, Chilam Cheang et al.

CVPR 2024arXiv:2304.06140

#299

An Edit Friendly DDPM Noise Space: Inversion and Manipulations

Inbar Huberman-Spiegelglas, Vladimir Kulikov, Tomer Michaeli

247

CVPR 2024arXiv:2310.08529

#300

GaussianDreamer: Fast Generation from Text to 3D Gaussians by Bridging 2D and 3D Diffusion Models

Taoran Yi, Jiemin Fang, Junjie Wang et al.

246

CVPR 2024highlightarXiv:2312.00863

#301

EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment Anything

Yunyang Xiong, Balakrishnan Varadarajan, Lemeng Wu et al.

246

CVPR 2024arXiv:2312.10115

#302

SkySense: A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery

Xin Guo, Jiangwei Lao, Bo Dang et al.

244

ICML 2024spotlightarXiv:2309.14316

#303

Physics of Language Models: Part 3.1, Knowledge Storage and Extraction

Zeyuan Allen-Zhu, Yuanzhi Li

244

CVPR 2024arXiv:2311.15599

#304

UniRepLKNet: A Universal Perception Large-Kernel ConvNet for Audio Video Point Cloud Time-Series and Image Recognition

Xiaohan Ding, Yiyuan Zhang, Yixiao Ge et al.

243

CVPR 2024arXiv:2403.06912

#305

DNGaussian: Optimizing Sparse-View 3D Gaussian Radiance Fields with Global-Local Depth Normalization

Jiahe Li, Jiawei Zhang, Xiao Bai et al.

242

ICLR 2024arXiv:2307.01850

#306

Self-Consuming Generative Models Go MAD

Sina Alemohammad, Josue Casco-Rodriguez, Lorenzo Luzi et al.

241

ICLR 2024arXiv:2305.14342

#307

Sophia: A Scalable Stochastic Second-order Optimizer for Language Model Pre-training

Hong Liu, Zhiyuan Li, David Hall et al.

241

ICML 2024arXiv:2402.04396

#308

QuIP$\#$: Even Better LLM Quantization with Hadamard Incoherence and Lattice Codebooks

Albert Tseng, Jerry Chee, Qingyao Sun et al.

241

AAAI 2024paperarXiv:2308.11730

#309

Knowledge Graph Prompting for Multi-Document Question Answering

Yu Wang, Nedim Lipka, Ryan A. Rossi et al.

240

ICLR 2024spotlightarXiv:2310.11667

#310

SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents

Xuhui Zhou, Hao Zhu, Leena Mathur et al.

ECCV 2024arXiv:2309.09777

#311

DriveDreamer: Towards Real-world-driven World Models for Autonomous Driving

Xiaofeng Wang, Zheng Zhu, Guan Huang et al.

ECCV 2024arXiv:2403.14781

#312

Champ: Controllable and Consistent Human Image Animation with 3D Parametric Guidance

Shenhao Zhu, Junming Chen, Zuozhuo Dai et al.

ICLR 2024spotlightarXiv:2309.14181

#313

Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level Vision

Haoning Wu, Zicheng Zhang, Erli Zhang et al.

CVPR 2024highlightarXiv:2312.02069

#314

GaussianAvatars: Photorealistic Head Avatars with Rigged 3D Gaussians

Shenhan Qian, Tobias Kirschstein, Liam Schoneveld et al.

238

ICLR 2024arXiv:2402.17193

#315

When Scaling Meets LLM Finetuning: The Effect of Data, Model and Finetuning Method

Biao Zhang, Zhongtao Liu, Colin Cherry et al.

238

CVPR 2024arXiv:2401.13627

#316

SaProt: Protein Language Modeling with Structure-aware Vocabulary

Jin Su, Chenchen Han, Yuyang Zhou et al.

Scaling Up to Excellence: Practicing Model Scaling for Photo-Realistic Image Restoration In the Wild

Fanghua Yu, Jinjin Gu, Zheyuan Li et al.

237

ICLR 2024arXiv:2306.00107

#318

MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training

Yizhi Li, Ruibin Yuan, Ge Zhang et al.

237

ECCV 2024arXiv:2403.15377

#319

InternVideo2: Scaling Foundation Models for Multimodal Video Understanding

Yi Wang, Kunchang Li, Xinhao Li et al.

236

ICLR 2024arXiv:2309.12307

#320

LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models

Yukang Chen, Shengju Qian, Haotian Tang et al.

235

ICLR 2024spotlightarXiv:2307.14539

#321

Jailbreak in pieces: Compositional Adversarial Attacks on Multi-Modal Language Models

Erfan Shayegani, Yue Dong, Nael Abu-Ghazaleh

235

CVPR 2024arXiv:2312.00785

#322

Sequential Modeling Enables Scalable Learning for Large Vision Models

Yutong Bai, Xinyang Geng, Karttikeya Mangalam et al.

235

ICML 2024arXiv:2402.04997

#323

Omni-Kernel Network for Image Restoration

Yuning Cui, Wenqi Ren, Alois Knoll

Generative Flows on Discrete State-Spaces: Enabling Multimodal Flows with Applications to Protein Co-Design

Andrew Campbell, Jason Yim, Regina Barzilay et al.

234

ICML 2024arXiv:2403.09631

#325

3D-VLA: A 3D Vision-Language-Action Generative World Model

Haoyu Zhen, Xiaowen Qiu, Peihao Chen et al.

233

CVPR 2024arXiv:2307.06949

#326

HyperDreamBooth: HyperNetworks for Fast Personalization of Text-to-Image Models

Nataniel Ruiz, Yuanzhen Li, Varun Jampani et al.

232

ICML 2024arXiv:2404.19737

#327

Better & Faster Large Language Models via Multi-token Prediction

Fabian Gloeckle, Badr Youbi Idrissi, Baptiste Roziere et al.

232

CVPR 2024arXiv:2311.17977

#328

GaussianShader: 3D Gaussian Splatting with Shading Functions for Reflective Surfaces

Yingwenqi Jiang, Jiadong Tu, Yuan Liu et al.

232

ECCV 2024arXiv:2403.10517

#329

VideoAgent: Long-form Video Understanding with Large Language Model as Agent

Xiaohan Wang, Yuhui Zhang, Orr Zohar et al.

231

ECCV 2024arXiv:2307.04767

#330

Segment and Recognize Anything at Any Granularity

Feng Li, Hao Zhang, Peize Sun et al.

230

ECCV 2024arXiv:2403.12013

#331

GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image

Xiao Fu, Wei Yin, Mu Hu et al.

230

CVPR 2024arXiv:2312.02133

#332

OpenEQA: Embodied Question Answering in the Era of Foundation Models

Arjun Majumdar, Anurag Ajay, Xiaohan Zhang et al.

Style Aligned Image Generation via Shared Attention

Amir Hertz, Andrey Voynov, Shlomi Fruchter et al.

230

ICLR 2024spotlightarXiv:2311.09217

#334

DMV3D: Denoising Multi-view Diffusion Using 3D Large Reconstruction Model

Yinghao Xu, Hao Tan, Fujun Luan et al.

227

CVPR 2024arXiv:2309.11497

#335

FreeU: Free Lunch in Diffusion U-Net

Chenyang Si, Ziqi Huang, Yuming Jiang et al.

227

ICLR 2024spotlightarXiv:2405.18765

#336

Large Brain Model for Learning Generic Representations with Tremendous EEG Data in BCI

Wei-Bang Jiang, Liming Zhao, Bao-liang Lu

226

CVPR 2024arXiv:2311.14760

#337

SinSR: Diffusion-Based Image Super-Resolution in a Single Step

Yufei Wang, Wenhan Yang, Xinyuan Chen et al.

226

CVPR 2024arXiv:2403.06135

#338

MACE: Mass Concept Erasure in Diffusion Models

Shilin Lu, Zilan Wang, Leyang Li et al.

226

ICLR 2024oralarXiv:2310.04948

#339

TEMPO: Prompt-based Generative Pre-trained Transformer for Time Series Forecasting

Defu Cao, Furong Jia, Sercan Arik et al.

225

ICML 2024arXiv:2401.12070

#340

Spotting LLMs With Binoculars: Zero-Shot Detection of Machine-Generated Text

Abhimanyu Hans, Avi Schwarzschild, Valeriia Cherepanova et al.

225

CVPR 2024highlightarXiv:2312.09008

#341

Style Injection in Diffusion: A Training-free Approach for Adapting Large-scale Diffusion Models for Style Transfer

Jiwoo Chung, Sangeek Hyun, Jae-Pil Heo

225

ICLR 2024arXiv:2402.12875

#342

Chain of Thought Empowers Transformers to Solve Inherently Serial Problems

Zhiyuan Li, Hong Liu, Denny Zhou et al.

ICLR 2024arXiv:2305.10790

#343

Listen, Think, and Understand

Yuan Gong, Hongyin Luo, Alexander Liu et al.

ICML 2024arXiv:2401.03065

#344

CRUXEval: A Benchmark for Code Reasoning, Understanding and Execution

Alex Gu, Baptiste Roziere, Hugh Leather et al.

ICLR 2024arXiv:2402.03744

#345

INSIDE: LLMs' Internal States Retain the Power of Hallucination Detection

Chao Chen, Kai Liu, Ze Chen et al.

ICML 2024arXiv:2311.06668

#346

In-context Vectors: Making In Context Learning More Effective and Controllable Through Latent Space Steering

Sheng Liu, Haotian Ye, Lei Xing et al.

ECCV 2024arXiv:2402.17485

#347

EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions

Linrui Tian, Qi Wang, Bang Zhang et al.

223

ICLR 2024arXiv:2309.17425

#348

PixArt-Sigma: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation

Junsong Chen, Chongjian GE, Enze Xie et al.

Data Filtering Networks

Alex Fang, Albin Madappally Jose, Amit Jain et al.

222

CVPR 2024arXiv:2401.02436

#350

Compressed 3D Gaussian Splatting for Accelerated Novel View Synthesis

Simon Niedermayr, Josef Stumpfegger, rüdiger westermann

222

ICLR 2024arXiv:2309.16292

#351

RECOMP: Improving Retrieval-Augmented LMs with Context Compression and Selective Augmentation

Fangyuan Xu, Weijia Shi, Eunsol Choi

DiLu: A Knowledge-Driven Approach to Autonomous Driving with Large Language Models

Licheng Wen, DAOCHENG FU, Xin Li et al.

222

ICLR 2024spotlightarXiv:2310.00149

#353

One For All: Towards Training One Graph Model For All Classification Tasks

Hao Liu, Jiarui Feng, Lecheng Kong et al.

221

CVPR 2024arXiv:2405.06880

#354

EMCAD: Efficient Multi-scale Convolutional Attention Decoding for Medical Image Segmentation

Md Mostafijur Rahman, Mustafa Munir, Radu Marculescu

221

CVPR 2024arXiv:2402.17427

#355

VastGaussian: Vast 3D Gaussians for Large Scene Reconstruction

Jiaqi Lin, Zhihao Li, Xiao Tang et al.

219

ECCV 2024arXiv:2403.05034

#356

CRM: Single Image to 3D Textured Mesh with Convolutional Reconstruction Model

Zhengyi Wang, Yikai Wang, Yifei Chen et al.

219

ICLR 2024arXiv:2306.13649

#357

On-Policy Distillation of Language Models: Learning from Self-Generated Mistakes

Rishabh Agarwal, Nino Vieillard, Yongchao Zhou et al.

218

ICLR 2024arXiv:2310.02601

#358

MagicDrive: Street View Generation with Diverse 3D Geometry Control

Ruiyuan Gao, Kai Chen, Enze Xie et al.

218

ICLR 2024spotlightarXiv:2309.16671

#359

Demystifying CLIP Data

Hu Xu, Saining Xie, Xiaoqing Tan et al.

216

ICML 2024arXiv:2402.14650

#360

GaussianPro: 3D Gaussian Splatting with Progressive Propagation

Kai Cheng, Xiaoxiao Long, Kaizhi Yang et al.

215

CVPR 2024highlightarXiv:2311.15475

#361

MeshGPT: Generating Triangle Meshes with Decoder-Only Transformers

Yawar Siddiqui, Antonio Alliegro, Alexey Artemov et al.

214

ICLR 2024arXiv:2310.13724

#362

Habitat 3.0: A Co-Habitat for Humans, Avatars, and Robots

Xavier Puig, Eric Undersander, Andrew Szot et al.

214

ICML 2024arXiv:2310.01377

#363

ULTRAFEEDBACK: Boosting Language Models with Scaled AI Feedback

Ganqu Cui, Lifan Yuan, Ning Ding et al.

214

ICLR 2024arXiv:2305.04391

#364

A Variational Perspective on Solving Inverse Problems with Diffusion Models

Morteza Mardani, Jiaming Song, Jan Kautz et al.

213

ECCV 2024arXiv:2312.08874

#365

Agent Attention: On the Integration of Softmax and Linear Attention

Dongchen Han, Tianzhu Ye, Yizeng Han et al.

212

ICLR 2024spotlightarXiv:2307.03756

#366

FITS: Modeling Time Series with $10k$ Parameters

Zhijian Xu, Ailing Zeng, Qiang Xu

212

ICML 2024arXiv:2402.06782

#367

Debating with More Persuasive LLMs Leads to More Truthful Answers

Akbir Khan, John Hughes, Dan Valentine et al.

212

ICLR 2024arXiv:2310.01352

#368

RA-DIT: Retrieval-Augmented Dual Instruction Tuning

Victoria Lin, Xilun Chen, Mingda Chen et al.

210

AAAI 2024paperarXiv:2308.03549

#369

Zhongjing: Enhancing the Chinese Medical Capabilities of Large Language Model through Expert Feedback and Real-World Multi-Turn Dialogue

Songhua Yang, Hanjie Zhao, Senbin Zhu et al.

210

ICLR 2024arXiv:2401.04398

#370

Chain-of-Table: Evolving Tables in the Reasoning Chain for Table Understanding

Zilong Wang, Hao Zhang, Chun-Liang Li et al.

209

CVPR 2024arXiv:2311.13231

#371

Using Human Feedback to Fine-tune Diffusion Models without Any Reward Model

Kai Yang, Jian Tao, Jiafei Lyu et al.

209

ICLR 2024spotlightarXiv:2307.02421

#372

DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models

Chong Mou, Xintao Wang, Jiechong Song et al.

209

ICLR 2024spotlightarXiv:2308.00951

#373

From Sparse to Soft Mixtures of Experts

Joan Puigcerver, Carlos Riquelme Ruiz, Basil Mustafa et al.

ICLR 2024spotlightarXiv:2309.15817

#374

Identifying the Risks of LM Agents with an LM-Emulated Sandbox

Yangjun Ruan, Honghua Dong, Andrew Wang et al.

ICLR 2024arXiv:2404.14618

#375

Hybrid LLM: Cost-Efficient and Quality-Aware Query Routing

Dujian Ding, Ankur Mallick, Chi Wang et al.

ICLR 2024oralarXiv:2310.20700

#376

SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction

Xinyuan Chen, Yaohui Wang, Lingjun Zhang et al.

ICML 2024arXiv:2312.02120

#377

Magicoder: Empowering Code Generation with OSS-Instruct

Yuxiang Wei, Zhe Wang, Jiawei Liu et al.

CVPR 2024highlightarXiv:2312.06742

#378

Honeybee: Locality-enhanced Projector for Multimodal LLM

Junbum Cha, Woo-Young Kang, Jonghwan Mun et al.

CVPR 2024arXiv:2312.09228

#379

3DGS-Avatar: Animatable Avatars via Deformable 3D Gaussian Splatting

Zhiyin Qian, Shaofei Wang, Marko Mihajlovic et al.

207

ICLR 2024arXiv:2310.17623

#380

Proving Test Set Contamination in Black-Box Language Models

Yonatan Oren, Nicole Meister, Niladri Chatterji et al.

203

ICLR 2024oralarXiv:2311.02077

#381

EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision

Jiawei Yang, Boris Ivanovic, Or Litany et al.

203

ICLR 2024spotlightarXiv:2208.02814

#382

Conformal Risk Control

Anastasios Angelopoulos, Stephen Bates, Adam Fisch et al.

203

ICLR 2024arXiv:2310.16427

#383

PromptAgent: Strategic Planning with Language Models Enables Expert-level Prompt Optimization

Xinyuan Wang, Chenxi Li, Zhen Wang et al.

202

ICLR 2024arXiv:2310.08659

#384

LoftQ: LoRA-Fine-Tuning-aware Quantization for Large Language Models

Yixiao Li, Yifan Yu, Chen Liang et al.

202

CVPR 2024arXiv:2312.03700

#385

OneLLM: One Framework to Align All Modalities with Language

Jiaming Han, Kaixiong Gong, Yiyuan Zhang et al.

201

ICLR 2024arXiv:2310.06474

#386

Multilingual Jailbreak Challenges in Large Language Models

Yue Deng, Wenxuan Zhang, Sinno Pan et al.

201

CVPR 2024highlightarXiv:2312.07504

#387

COLMAP-Free 3D Gaussian Splatting

Yang Fu, Sifei Liu, Amey Kulkarni et al.

201

ICLR 2024arXiv:2308.08241

#388

TEST: Text Prototype Aligned Embedding to Activate LLM's Ability for Time Series

Chenxi Sun, Hongyan Li, Yaliang Li et al.

ECCV 2024arXiv:2311.05437

#389

LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents

Shilong Liu, Hao Cheng, Haotian Liu et al.

ICLR 2024arXiv:2310.02226

#390

Think before you speak: Training Language Models With Pause Tokens

Sachin Goyal, Ziwei Ji, Ankit Singh Rawat et al.

ICML 2024arXiv:2401.11708

#391

Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs

Ling Yang, Zhaochen Yu, Chenlin Meng et al.

ICML 2024arXiv:2402.04825

#392

Fast Timing-Conditioned Latent Audio Diffusion

Zach Evans, CJ Carr, Josiah Taylor et al.

199

ECCV 2024arXiv:2311.17600

#393

MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large Language Models

Xin Liu, Yichen Zhu, Jindong Gu et al.

199

ICLR 2024arXiv:2310.09656

#394

Mixed-Type Tabular Data Synthesis with Score-based Diffusion in Latent Space

Hengrui Zhang, Jiani Zhang, Zhengyuan Shen et al.

199

ICLR 2024arXiv:2308.07921

#395

Solving Challenging Math Word Problems Using GPT-4 Code Interpreter with Code-based Self-Verification

Aojun Zhou, Ke Wang, Zimu Lu et al.

198

CVPR 2024arXiv:2305.08275

#396

ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding

Le Xue, Ning Yu, Shu Zhang et al.

198

ICLR 2024arXiv:2307.07697

#397

Think-on-Graph: Deep and Responsible Reasoning of Large Language Model on Knowledge Graph

Jiashuo Sun, Chengjin Xu, Lumingyuan Tang et al.

198

CVPR 2024arXiv:2312.02228

#398

PixelLM: Pixel Reasoning with Large Multimodal Model

Zhongwei Ren, Zhicheng Huang, Yunchao Wei et al.

197

ICLR 2024arXiv:2310.15213

#399

Function Vectors in Large Language Models

Eric Todd, Millicent Li, Arnab Sen Sharma et al.

197

CVPR 2024arXiv:2312.02134

#400

GaussianAvatar: Towards Realistic Human Avatar Modeling from a Single Video via Animatable 3D Gaussians

Liangxiao Hu, Hongwen Zhang, Yuxiang Zhang et al.

197