Image Captioning

CVPR 2024arXiv:2304.03411

#3

InstantBooth: Personalized Text-to-Image Generation without Test-Time Finetuning

Jing Shi, Wei Xiong, Zhe Lin et al.

369

CVPR 2024arXiv:2402.19479

#4

Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers

Tsai-Shien Chen, Aliaksandr Siarohin, Willi Menapace et al.

341

AAAI 2024arXiv:2304.01186

#5

Follow Your Pose: Pose-Guided Text-to-Video Generation Using Pose-Free Videos

Yue Ma, Yingqing HE, Xiaodong Cun et al.

pose-guided generationtext-to-video generationcharacter video synthesispose-controllable generation+4

276

CVPR 2024arXiv:2403.16387

#6

Text-IF: Leveraging Semantic Text Guidance for Degradation-Aware and Interactive Image Fusion

Xunpeng Yi, Han Xu, HAO ZHANG et al.

123

CVPR 2024arXiv:2402.05408

#7

MIGC: Multi-Instance Generation Controller for Text-to-Image Synthesis

Dewei Zhou, You Li, Fan Ma et al.

109

ICLR 2025arXiv:2410.03051

#8

AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark

Wenhao Chai, Enxin Song, Yilun Du et al.

video detailed captioninglarge multimodal modeltoken merging strategytemporal modeling+4

97

CVPR 2024arXiv:2311.17049

#9

MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training

Pavan Kumar Anasosalu Vasu, Hadi Pouransari, Fartash Faghri et al.

84

CVPR 2024arXiv:2402.13250

#10

Video ReCap: Recursive Captioning of Hour-Long Videos

Md Mohaiminul Islam, Vu Bao Ngan Ho, Xitong Yang et al.

82

CVPR 2024arXiv:2405.14705

#11

Learning Multi-Dimensional Human Preference for Text-to-Image Generation

Sixian Zhang, Bohan Wang, Junqiang Wu et al.

76

ECCV 2024arXiv:2403.17007

#12

Language-Image Pre-training with Long Captions

Kecheng Zheng, Yifei Zhang, Wei Wu et al.

63

AAAI 2024arXiv:2312.10381

#13

VeCLIP: Improving CLIP Training via Visual-enriched Captions

Zhengfeng Lai, Haotian Zhang, Bowen Zhang et al.

SECap: Speech Emotion Captioning with Large Language Model

Yaoxun Xu, Hangting Chen, Jianwei Yu et al.

speech emotion captioninglarge language modelsaudio feature extractionmutual information learning+4

56

CVPR 2024arXiv:2405.04940

#15

Harnessing the Power of MLLMs for Transferable Text-to-Image Person ReID

Wentao Tan, Changxing Ding, Jiayu Jiang et al.

55

CVPR 2024arXiv:2312.15770

#16

A Recipe for Scaling up Text-to-Video Generation with Text-free Videos

Xiang Wang, Shiwei Zhang, Hangjie Yuan et al.

53

ICCV 2025arXiv:2504.16072

#17

Describe Anything: Detailed Localized Image and Video Captioning

Long Lian, Yifan Ding, Yunhao Ge et al.

49

CVPR 2024arXiv:2407.06187

#18

JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation

Yu Zeng, Vishal M. Patel, Haochen Wang et al.

47

AAAI 2025arXiv:2404.14239

#19

MultiBooth: Towards Generating All Your Concepts in an Image from Text

Chenyang Zhu, Kai Li, Yue Ma et al.

46

ICLR 2024arXiv:2307.03132

#20

T-MARS: Improving Visual Representations by Circumventing Text Feature Learning

Pratyush Maini, Sachin Goyal, Zachary Lipton et al.

41

CVPR 2024arXiv:2404.19752

#21

Visual Fact Checker: Enabling High-Fidelity Detailed Caption Generation

Yunhao Ge, Xiaohui Zeng, Jacob Huffman et al.

33

CVPR 2025arXiv:2406.10210

#22

Make It Count: Text-to-Image Generation with an Accurate Number of Objects

Lital Binyamin, Yoad Tewel, Hilit Segev et al.

text-to-image generationdiffusion modelsobject countinginstance identity+3

32

AAAI 2025arXiv:2407.00737

#23

LLM4GEN: Leveraging Semantic Representation of LLMs for Text-to-Image Generation

Mushui Liu, Yuhang Ma, Zhen Yang et al.

31

ECCV 2024arXiv:2404.07984

#24

View Selection for 3D Captioning via Diffusion Ranking

Tiange Luo, Justin Johnson, Honglak Lee

29

AAAI 2025arXiv:2412.10460

#25

Enriching Multimodal Sentiment Analysis Through Textual Emotional Descriptions of Visual-Audio Content

Sheng Wu, Dongxiao He, Xiaobao Wang et al.

28

CVPR 2024arXiv:2311.10111

#26

VideoCon: Robust Video-Language Alignment via Contrast Captions

Hritik Bansal, Yonatan Bitton, Idan Szpektor et al.

28

CVPR 2024arXiv:2311.15841

#27

Learning Disentangled Identifiers for Action-Customized Text-to-Image Generation

Siteng Huang, Biao Gong, Yutong Feng et al.

23

CVPR 2024arXiv:2404.02755

#28

DIBS: Enhancing Dense Video Captioning with Unlabeled Videos via Pseudo Boundary Enrichment and Online Refinement

Hao Wu, Huabin Liu, Yu Qiao et al.

20

CVPR 2024arXiv:2311.17048

#29

Zero-shot Referring Expression Comprehension via Structural Similarity Between Images and Captions

Zeyu Han, Fangrui Zhu, Qianru Lao et al.

20

AAAI 2024arXiv:2312.08865

#30

Improving Cross-Modal Alignment with Synthetic Pairs for Text-Only Image Captioning

Zhiyue Liu, Jinyuan Liu, Fanrong Ma

cross-modal alignmenttext-only image captioningsynthetic image-text pairsclip embedding space+3

20

CVPR 2024arXiv:2404.04231

#31

STIV: Scalable Text and Image Conditioned Video Generation

Zongyu Lin, Wei Liu, Chen Chen et al.

SmartControl: Enhancing ControlNet for Handling Rough Visual Conditions

XIAOYU LIU, Yuxiang WEI, Ming LIU et al.

Image-Text Co-Decomposition for Text-Supervised Semantic Segmentation

Ji-Jia Wu, Andy Chia-Hao Chang, Chieh-Yu Chuang et al.

19

CVPR 2025arXiv:2411.18499

#34

OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation

Pengfei Zhou, Xiaopeng Peng, Jiajun Song et al.

18

CVPR 2024arXiv:2406.11820

#35

Benchmarking Large Vision-Language Models via Directed Scene Graph for Comprehensive Image Captioning

Fan Lu, Wei Wu, Kecheng Zheng et al.

Composing Object Relations and Attributes for Image-Text Matching

Khoi Pham, Chuong Huynh, Ser-Nam Lim et al.

18

CVPR 2025arXiv:2411.15411

#37

FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity

Hang Hua, Qing Liu, Lingzhi Zhang et al.

vision-language modelscompositional image captioningfine-grained image understandingsegmentation mask alignment+4

17

ECCV 2024arXiv:2312.03766

#38

Mismatch Quest: Visual and Textual Feedback for Image-Text Misalignment

Brian Gordon, Yonatan Bitton, Yonatan Shafir et al.

image-text alignmentmisalignment explanationvisual groundingvision language models+3

17

ICLR 2025arXiv:2503.07906

#39

Painting with Words: Elevating Detailed Image Captioning with Benchmark and Alignment Learning

Qinghao Ye, Xianhan Zeng, Fu Li et al.

15

AAAI 2024arXiv:2301.05997

#40

Exploiting Auxiliary Caption for Video Grounding

Hongxiang Li, Meng Cao, Xuxin Cheng et al.

video groundingdense video captioningcross-modal contrastive learningsemantic relation projection+3

CVPR 2024arXiv:2404.05016

#41

Hyperbolic Learning with Synthetic Captions for Open-World Detection

Fanjie Kong, Yanbei Chen, Jiarui Cai et al.

ICCV 2025arXiv:2502.01720

#42

Generating Multi-Image Synthetic Data for Text-to-Image Customization

Nupur Kumari, Xi Yin, Jun-Yan Zhu et al.

CVPR 2024arXiv:2312.03045

#43

Customization Assistant for Text-to-Image Generation

Yufan Zhou, Ruiyi Zhang, Jiuxiang Gu et al.

ICLR 2024arXiv:2303.13455

#44

CoBIT: A Contrastive Bi-directional Image-Text Generation Model

Haoxuan You, Xiaoyue Guo, Zhecan Wang et al.

AAAI 2024arXiv:2312.15162

#45

Cycle-Consistency Learning for Captioning and Grounding

Ning Wang, Jiajun Deng, Mingbo Jia

visual groundingimage captioningcyclic-consistent learningsemi-weakly supervised training+3

13

ECCV 2024arXiv:2407.20341

#46

BRIDGE: Bridging Gaps in Image Captioning Evaluation with Stronger Visual Cues

Sara Sarto, Marcella Cornia, Lorenzo Baraldi et al.

12

CVPR 2025arXiv:2406.10462

#47

CoMM: A Coherent Interleaved Image-Text Dataset for Multimodal Understanding and Generation

Wei Chen, Lin Li, Yongqi Yang et al.

multimodal large language modelsinterleaved image-text generationmultimodal in-context learningnarrative coherence+4

12

CVPR 2025arXiv:2501.07647

#48

BlobGEN-Vid: Compositional Text-to-Video Generation with Blob Video Representations

Weixi Feng, Chao Liu, Sifei Liu et al.

11

CVPR 2025arXiv:2409.03643

#49

Image Over Text: Transforming Formula Recognition Evaluation with Character Detection Matching

Bin Wang, Fan Wu, Linke Ouyang et al.

formula recognitionevaluation metricscharacter detection matchinglatex rendering+3

11

AAAI 2025arXiv:2412.11193

#50

Light-T2M: A Lightweight and Fast Model for Text-to-motion Generation

Ling-An Zeng, Guohong Huang, Gaojie Wu et al.

10

AAAI 2024arXiv:2402.19119

#51

VIXEN: Visual Text Comparison Network for Image Difference Captioning

Alexander Black, Jing Shi, Yifei Fan et al.

image difference captioningvisual text comparisonpairwise image featuressoft prompt construction+4

9

CVPR 2025arXiv:2503.20672

#52

PreciseCam: Precise Camera Control for Text-to-Image Generation

Edurne Bernal-Berdun, Ana Serrano, Belen Masia et al.

BizGen: Advancing Article-level Visual Text Rendering for Infographics Generation

Yuyang Peng, Shishi Xiao, Keming Wu et al.

visual text renderinginfographics generationlayout-guided attentionbusiness content generation+4

8

CVPR 2025arXiv:2412.02071

#54

COCONut-PanCap: Joint Panoptic Segmentation and Grounded Captions for Fine-Grained Understanding and Generation

Xueqing Deng, Linjie Yang, Qihang Yu et al.

Progress-Aware Video Frame Captioning

Zihui Xue, Joungbin An, Xitong Yang et al.

ECCV 2024arXiv:2410.00905

#56

Removing Distributional Discrepancies in Captions Improves Image-Text Alignment

Mu Cai, Haotian Liu, Yuheng Li et al.

CVPR 2024arXiv:2406.01843

#57

L-MAGIC: Language Model Assisted Generation of Images with Coherence

zhipeng cai, Matthias Mueller, Reiner Birkl et al.

AAAI 2025arXiv:2409.13407

#58

Instruction-guided Multi-Granularity Segmentation and Captioning with Large Multimodal Model

Xu Yuan, Li Zhou, Zenghui Sun et al.

CVPR 2024arXiv:2412.13081

#59

Prompt Augmentation for Self-supervised Text-guided Image Manipulation

Rumeysa Bodur, Binod Bhattarai, Tae-Kyun Kim

6

ICCV 2025arXiv:2412.05243

#60

CompCap: Improving Multimodal Large Language Models with Composite Captions

Xiaohui Chen, Satya Narayan Shukla, Mahmoud Azab et al.

multimodal large language modelscomposite image understandingvision-language alignmentsynthetic data generation+3

6

ICCV 2025arXiv:2507.10095

#61

Fix-CLIP: Dual-Branch Hierarchical Contrastive Learning via Synthetic Captions for Better Understanding of Long Text

Bingchao Wang, Zhiwei Ning, Jianyu Ding et al.

contrastive learninglong-text retrievalvision-language alignmentsynthetic caption generation+4

5

AAAI 2025arXiv:2505.18594

#62

Modeling Thousands of Human Annotators for Generalizable Text-to-Image Person Re-identification

Jiayu Jiang, Changxing Ding, Wentao Tan et al.

EvdCLIP: Improving Vision-Language Retrieval with Entity Visual Descriptions from Large Language Models

GuangHao Meng, Sunan He, Jinpeng Wang et al.

5

AAAI 2025arXiv:2412.11375

#64

Text and Image Are Mutually Beneficial: Enhancing Training-Free Few-Shot Classification with CLIP

Yayuan Li, Jintao Guo, Lei Qi et al.

ECCV 2024arXiv:2311.14920

#65

HiCM²: Hierarchical Compact Memory Modeling for Dense Video Captioning

Minkuk Kim, Hyeon Bae Kim, Jinyoung Moon et al.

DECap: Towards Generalized Explicit Caption Editing via Diffusion Mechanism

Zhen Wang, Xinyun Jiang, Jun Xiao et al.

explicit caption editingdiffusion modelsdenoising processcaption generation+3

ICCV 2025arXiv:2503.15283

#67

TF-TI2I: Training-Free Text-and-Image-to-Image Generation via Multi-Modal Implicit-Context Learning In Text-to-Image Models

Teng-Fang Hsiao, Bo-Kai Ruan, Yi-Lun Wu et al.

CVPR 2025arXiv:2506.08210

#68

A Comprehensive Study of Decoder-Only LLMs for Text-to-Image Generation

Andrew Z Wang, Songwei Ge, Tero Karras et al.

text-to-image generationdecoder-only llmsdiffusion modelstext encoders+3

ECCV 2024arXiv:2407.12642

#69

MultiGen: Zero-shot Image Generation from Multi-modal Prompts

Zhi-Fan Wu, Lianghua Huang, Wei Wang et al.

Zero-shot Text-guided Infinite Image Synthesis with LLM guidance

Soyeong Kwon, TAEGYEONG LEE, Taehwan Kim

zero-shot learningtext-guided image synthesisdiffusion modelslarge language models+4

ICCV 2025arXiv:2508.06125

#71

SC-Captioner: Improving Image Captioning with Self-Correction by Reinforcement Learning

Lin Zhang, Xianfang Zeng, Kangcong Li et al.

ICCV 2025arXiv:2504.01020

#72

Shot-by-Shot: Film-Grammar-Aware Training-Free Audio Description Generation

Junyu Xie, Tengda Han, Max Bain et al.

ICCV 2025arXiv:2506.13298

#73

Fair Generation without Unfair Distortions: Debiasing Text-to-Image Generation with Entanglement-Free Attention

Jeonghoon Park, Juyoung Lee, Chaeyeon Chung et al.

CVPR 2025arXiv:2501.06481

#74

Focus-N-Fix: Region-Aware Fine-Tuning for Text-to-Image Generation

Xiaoying Xing, Avinab Saha, Junfeng He et al.

text-to-image generationreward model fine-tuningregion-aware fine-tuninghuman preference alignment+4

CVPR 2025arXiv:2407.03314

#75

BACON: Improving Clarity of Image Captions via Bag-of-Concept Graphs

Zhantao Yang, Ruili Feng, Keyu Yan et al.

AAAI 2025arXiv:2411.09449

#76

Adaptive Markup Language Generation for Contextually-Grounded Visual Document Understanding

Han Xiao, yina xie, Guanxin tan et al.

Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models

Chutian Meng, Fan Ma, Jiaxu Miao et al.

NeurIPS 2025arXiv:2502.14914

#78

Zero-Shot Image Captioning with Multi-type Entity Representations

Delong Zeng, Ying Shen, Man Lin et al.

CAPability: A Comprehensive Visual Caption Benchmark for Evaluating Both Correctness and Thoroughness

Zhihang Liu, Chen-Wei Xie, Bin Wen et al.

CVPR 2025arXiv:2505.20764

#80

Describe, Don’t Dictate: Semantic Image Editing with Natural Language Intent

En Ci, Shanyan Guan, Yanhao Ge et al.

ConText-CIR: Learning from Concepts in Text for Composed Image Retrieval

Eric Xing, Pranavi Kolouju, Robert Pless et al.

2

ECCV 2024arXiv:2501.00437

#82

Unleashing Text-to-Image Diffusion Prior for Zero-Shot Image Captioning

Jianjie Luo, Jingwen Chen, Yehao Li et al.

2

CVPR 2025arXiv:2503.18637

#83

PhyS-EdiT: Physics-aware Semantic Image Editing with Text Description

Ziqi Cai, Shuchen Weng, Yifei Xia et al.

Unbiasing through Textual Descriptions: Mitigating Representation Bias in Video Benchmarks

Nina Shvetsova, Arsha Nagrani, Bernt Schiele et al.

ICCV 2025arXiv:2504.08531

#85

Embodied Image Captioning: Self-supervised Learning Agents for Spatially Coherent Image Descriptions

Tommaso Galliena, Tommaso Apicella, Stefano Rosa et al.

AAAI 2025arXiv:2512.01975

#86

Type-R: Automatically Retouching Typos for Text-to-Image Generation

Wataru Shimoda, Naoto Inoue, Daichi Haraguchi et al.

SGDiff: Scene Graph Guided Diffusion Model for Image Collaborative SegCaptioning

Xu Zhang, Jin Yuan, Hanwang Zhang et al.

AAAI 2025arXiv:2412.13543

#88

Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning

Yunbin Tu, Liang Li, Li Su et al.

ICML 2025arXiv:2404.11824

#89

TextCenGen: Attention-Guided Text-Centric Background Adaptation for Text-to-Image Generation

Tianyi Liang, Jiangqi Liu, Yifei Huang et al.

ICLR 2024arXiv:2310.04420

#90

Localizing and Editing Knowledge In Text-to-Image Generative Models

Samyadeep Basu, Nanxuan Zhao, Vlad Morariu et al.

BrainSCUBA: Fine-Grained Natural Language Captions of Visual Cortex Selectivity

Andrew Luo, Maggie Henderson, Michael Tarr et al.

CVPR 2024arXiv:2402.18091

#92

MAGICK: A Large-scale Captioned Dataset from Matting Generated Images using Chroma Keying

Ryan Burgert, Brian Price, Jason Kuen et al.

Alt-Text with Context: Improving Accessibility for Images on Twitter

Nikita Srivatsan, Sofia Samaniego, Omar Florez et al.

Fine-Grained Captioning of Long Videos through Scene Graph Consolidation

Sanghyeok Chu, Seonguk Seo, Bohyung Han

Polos: Multimodal Metric Learning from Human Feedback for Image Captioning

Yuiga Wada, Kanta Kaneda, Daichi Saito et al.

ICLR 2024arXiv:2303.05657

#96

LEDITS++: Limitless Image Editing using Text-to-Image Models

Manuel Brack, Felix Friedrich, Katharina Kornmeier et al.

Tag2Text: Guiding Vision-Language Model via Image Tagging

Xinyu Huang, Youcai Zhang, Jinyu Ma et al.

CVPR 2024arXiv:2402.08654

#98

EVCap: Retrieval-Augmented Image Captioning with External Visual-Name Memory for Open-World Comprehension

Jiaxuan Li, Duc Minh Vo, Akihiro Sugimoto et al.

Learning Continuous 3D Words for Text-to-Image Generation

Ta-Ying Cheng, Matheus Gadelha, Thibault Groueix et al.

#100

A Picture is Worth More Than 77 Text Tokens: Evaluating CLIP-Style Models on Dense Captions

Jack Urbanek, Florian Bordes, Pietro Astolfi et al.

CVPR 2024