🧬Language Models

Text Generation

Generating coherent text outputs

100 papers5,956 total citations

Compare with other topics

Feb '24 — Jan '26339 papers

Top Conferences

CVPR: 36 ICLR: 19 AAAI: 17 ECCV: 10 ICCV: 7 NeurIPS: 6

Top Papers

#1

Scaling Autoregressive Models for Content-Rich Text-to-Image Generation

Xin Li, Jing Yu Koh, Alexander Ku et al.

CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer

Zhuoyi Yang, Jiayan Teng, Wendi Zheng et al.

ControlVideo: Training-free Controllable Text-to-video Generation

Yabo Zhang, Yuxiang Wei, Dongsheng jiang et al.

StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text

Roberto Henschel, Levon Khachatryan, Hayk Poghosyan et al.

AnyText: Multilingual Visual Text Generation and Editing

Yuxiang Tuo, Wangmeng Xiang, Jun-Yan He et al.

MIGC: Multi-Instance Generation Controller for Text-to-Image Synthesis

Dewei Zhou, You Li, Fan Ma et al.

Freeze-Omni: A Smart and Low Latency Speech-to-speech Dialogue Model with Frozen LLM

Xiong Wang, Yangze Li, Chaoyou Fu et al.

Learning Multi-Dimensional Human Preference for Text-to-Image Generation

Sixian Zhang, Bohan Wang, Junqiang Wu et al.

Paint-it: Text-to-Texture Synthesis via Deep Convolutional Texture Map Optimization and Physically-Based Rendering

Kim Youwang, Tae-Hyun Oh, Gerard Pons-Moll

Mega-TTS 2: Boosting Prompting Mechanisms for Zero-Shot Speech Synthesis

Ziyue Jiang, Jinglin Liu, Yi Ren et al.

Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation

Fanqing Meng, Jiaqi Liao, Xinyu Tan et al.

ChatTime: A Unified Multimodal Time Series Foundation Model Bridging Numerical and Textual Data

Chengsen Wang, Qi Qi, Jingyu Wang et al.

From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations

Evonne Ng, Javier Romero, Timur Bagautdinov et al.

PromptTTS 2: Describing and Generating Voices with Text Prompt

Yichong Leng, ZHifang Guo, Kai Shen et al.

Let's Think Outside the Box: Exploring Leap-of-Thought in Large Language Models with Creative Humor Generation

Shanshan Zhong, Zhongzhan Huang, Shanghua Gao et al.

TC4D: Trajectory-Conditioned Text-to-4D Generation

Sherwin Bahmani, Xian Liu, Wang Yifan et al.

ECCV 2024arXiv:2403.17920

text-to-4d generationtrajectory-conditioned generationdynamic 3d scenesneural representations+4

64

citations

#17

Text Is MASS: Modeling as Stochastic Embedding for Text-Video Retrieval

Jiamian Wang, Guohao Sun, Pichao Wang et al.

DiffSHEG: A Diffusion-Based Approach for Real-Time Speech-driven Holistic 3D Expression and Gesture Generation

Junming Chen, Yunfei Liu, Jianan Wang et al.

Text2HOI: Text-guided 3D Motion Generation for Hand-Object Interaction

Junuk Cha, Jihyeon Kim, Jae Shin Yoon et al.

Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation

Zhiwu Qing, Shiwei Zhang, Jiayu Wang et al.

Watermarking Conditional Text Generation for AI Detection: Unveiling Challenges and a Semantic-Aware Watermark Remedy

Yu Fu, Deyi Xiong, Yue Dong

AAAI 2024arXiv:2307.13808

watermarking text generationai detectionconditional text generationsemantic-aware watermarking+4

54

citations

#22

A Recipe for Scaling up Text-to-Video Generation with Text-free Videos

Xiang Wang, Shiwei Zhang, Hangjie Yuan et al.

GVGEN: Text-to-3D Generation with Volumetric Representation

Xianglong He, Junyi Chen, Sida Peng et al.

ECCV 2024arXiv:2403.12957

3d gaussian splattingvolumetric representationtext-to-3d generationdiffusion-based framework+3

51

citations

#24

Consistent3D: Towards Consistent High-Fidelity Text-to-3D Generation with Deterministic Sampling Prior

Zike Wu, Pan Zhou, YI Xuanyu et al.

UDiffText: A Unified Framework for High-quality Text Synthesis in Arbitrary Images via Character-aware Diffusion Models

Yiming Zhao, Zhouhui Lian

Style2Talker: High-Resolution Talking Head Generation with Emotion Style and Art Style

Shuai Tan, Bin Ji, Ye Pan

AAAI 2024arXiv:2403.06365

talking head generationemotion style transferart style transferaudio-driven animation+4

43

citations

#27

ParCo: Part-Coordinating Text-to-Motion Synthesis

Qiran Zou, Shangyuan Yuan, Shian Du et al.

Few-Shot Detection of Machine-Generated Text using Style Representations

Rafael Rivera Soto, Kailin Koch, Aleem Khan et al.

BAMM: Bidirectional Autoregressive Motion Model

Ekkasit Pinyoanuntapong, Muhammad Usama Saleem, Pu Wang et al.

TestGenEval: A Real World Unit Test Generation and Test Completion Benchmark

Kush Jain, Gabriel Synnaeve, Baptiste Roziere

Agents' Room: Narrative Generation through Multi-step Collaboration

Fantine Huot, Reinald Kim Amplayo, Jennimaria Palomaki et al.

DartControl: A Diffusion-Based Autoregressive Motion Model for Real-Time Text-Driven Motion Control

Kaifeng Zhao, Gen Li, Siyu Tang

Control4D: Efficient 4D Portrait Editing with Text

Ruizhi Shao, Jingxiang Sun, Cheng Peng et al.

FreeMotion: A Unified Framework for Number-free Text-to-Motion Synthesis

Ke Fan, Junshu Tang, Weijian Cao et al.

MAGIC: Generating Self-Correction Guideline for In-Context Text-to-SQL

Arian Askari, Christian Poelitz, Xinye Tang

Make It Count: Text-to-Image Generation with an Accurate Number of Objects

Lital Binyamin, Yoad Tewel, Hilit Segev et al.

AI as Humanity’s Salieri: Quantifying Linguistic Creativity of Language Models via Systematic Attribution of Machine Text against Web Text

Ximing Lu, Melanie Sclar, Skyler Hallinan et al.

ICLR 2025arXiv:2410.04265

linguistic creativity quantificationmachine text detectionlarge language modelsweb text attribution+3

32

citations

#38

Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs

Qi Wu, Yubo Zhao, Yifan Wang et al.

ICLR 2025arXiv:2405.17013

human motion generationconversational frameworkmotion editingmotion understanding+4

30

citations

#39

One-Prompt-One-Story: Free-Lunch Consistent Text-to-Image Generation Using a Single Prompt

Tao Liu, Kai Wang, Senmao Li et al.

StarVector: Generating Scalable Vector Graphics Code from Images and Text

Juan Rodriguez, Abhay Puri, Shubham Agarwal et al.

CVPR 2025arXiv:2312.11556

svg generationmultimodal language modelsimage vectorizationvector graphics code+4

30

citations

#41

Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation

Zhe Kong, Feng Gao, Yong Zhang et al.

NeurIPS 2025arXiv:2505.22647

audio-driven human animationtalking head generationtalking body generationmulti-person video generation+3

30

citations

#42

Text-Conditioned Generative Model of 3D Strand-based Human Hairstyles

Vanessa Sklyarova, Egor Zakharov, Otmar Hilliges et al.

XVerse: Consistent Multi-Subject Control of Identity and Semantic Attributes via DiT Modulation

Bowen Chen, Brynn zhao, Haomiao Sun et al.

EgoGen: An Egocentric Synthetic Data Generator

Gen Li, Kaifeng Zhao, Siwei Zhang et al.

Tailored Visions: Enhancing Text-to-Image Generation with Personalized Prompt Rewriting

Zijie Chen, Lichao Zhang, Fangsheng Weng et al.

Learning Disentangled Identifiers for Action-Customized Text-to-Image Generation

Siteng Huang, Biao Gong, Yutong Feng et al.

GlyphDraw2: Automatic Generation of Complex Glyph Posters with Diffusion Models and Large Language Models

Jian Ma, Yonglin Deng, Chen Chen et al.

StyleTokenizer: Defining Image Style by a Single Instance for Controlling Diffusion Models

Wen Li, Muyuan Fang, Cheng Zou et al.

3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation

Songchun Zhang, Yibo Zhang, Quan Zheng et al.

FonTS: Text Rendering With Typography and Style Controls

Wenda SHI, Yiren Song, Dengming Zhang et al.

PosterMaker: Towards High-Quality Product Poster Generation with Accurate Text Rendering

Yifan Gao, Zihang Lin, Chuanbin Liu et al.

SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation

Zihan Liu, Shuangrui Ding, Zhixiong Zhang et al.

Grid Diffusion Models for Text-to-Video Generation

Taegyeong Lee, Soyeong Kwon, Taehwan Kim

Towards Open Domain Text-Driven Synthesis of Multi-Person Motions

Shan Mengyi, Lu Dong, Yutao Han et al.

STIV: Scalable Text and Image Conditioned Video Generation

Zongyu Lin, Wei Liu, Chen Chen et al.

InstructAvatar: Text-Guided Emotion and Motion Control for Avatar Generation

Yuchi Wang, Junliang Guo, Jianhong Bai et al.

MoonCast: High-Quality Zero-Shot Podcast Generation

Zeqian Ju, Dongchao Yang, Shen Kai et al.

NeurIPS 2025arXiv:2503.14345

zero-shot generationtext-to-speech synthesislong-context audio modelingpodcast generation+3

18

citations

#58

FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio

Chao Xu, Yang Liu, Jiazheng Xing et al.

Diverse Person: Customize Your Own Dataset for Text-Based Person Search

Zifan Song, Guosheng Hu, Cairong Zhao

OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation

Pengfei Zhou, Xiaopeng Peng, Jiajun Song et al.

De-Diffusion Makes Text a Strong Cross-Modal Interface

Chen Wei, Chenxi Liu, Siyuan Qiao et al.

Customization Assistant for Text-to-Image Generation

Yufan Zhou, Ruiyi Zhang, Jiuxiang Gu et al.

MERGE: Fast Private Text Generation

Zi Liang, Pinghui Wang, Ruofei Zhang et al.

AAAI 2024arXiv:2305.15769

private inferencetransformer-based modelsnatural language generationcloud model deployment+4

14

citations

#64

Generating Multi-Image Synthetic Data for Text-to-Image Customization

Nupur Kumari, Xi Yin, Jun-Yan Zhu et al.

Roll the dice & look before you leap: Going beyond the creative limits of next-token prediction

Vaishnavh Nagarajan, Chen Wu, Charles Ding et al.

Generative Photography: Scene-Consistent Camera Control for Realistic Text-to-Image Synthesis

Yu Yuan, Xijun Wang, Yichen Sheng et al.

CVPR 2025arXiv:2412.02168

text-to-image synthesiscamera controlscene consistencydimensionality lifting+3

13

citations

#67

UniMuMo: Unified Text, Music, and Motion Generation

Han Yang, Kun Su, Yutong Zhang et al.

VinTAGe: Joint Video and Text Conditioning for Holistic Audio Generation

Saksham Singh Kushwaha, Yapeng Tian

How to Synthesize Text Data without Model Collapse?

Xuekai Zhu, Daixuan Cheng, Hengli Li et al.

DiffusionPen: Towards Controlling the Style of Handwritten Text Generation

KONSTANTINA NIKOLAIDOU, George Retsinas, Giorgos Sfikas et al.

BizGen: Advancing Article-level Visual Text Rendering for Infographics Generation

Yuyang Peng, Shishi Xiao, Keming Wu et al.

CVPR 2025arXiv:2503.20672

visual text renderinginfographics generationlayout-guided attentionbusiness content generation+4

10

citations

#72

Light-T2M: A Lightweight and Fast Model for Text-to-motion Generation

Ling-An Zeng, Guohong Huang, Gaojie Wu et al.

CAD-Coder: Text-to-CAD Generation with Chain-of-Thought and Geometric Reward

Yandong Guan, Xilin Wang, XiMing Xing et al.

DeepCalliFont: Few-Shot Chinese Calligraphy Font Synthesis by Integrating Dual-Modality Generative Models

Yitian Liu, Zhouhui Lian

AAAI 2024arXiv:2312.10314

few-shot font generationchinese calligraphy synthesisdual-modality generative modelsglyph image synthesis+4

9

citations

#75

EmergentTTS-Eval: Evaluating TTS Models on Complex Prosodic, Expressiveness, and Linguistic Challenges Using Model-as-a-Judge

Ruskin Raj Manku, Yuzhi Tang, Xingjian Shi et al.

DreamText: High Fidelity Scene Text Synthesis

Yibin Wang, Weizhong Zhang, honghui xu et al.

A Unified and Interpretable Emotion Representation and Expression Generation

Reni Paskaleva, Mykyta Holubakha, Andela Ilic et al.

C3Net: Compound Conditioned ControlNet for Multimodal Content Generation

Juntao Zhang, Yuehuai LIU, Yu-Wing Tai et al.

FixTalk: Taming Identity Leakage for High-Quality Talking Head Generation in Extreme Cases

Shuai Tan, Bill Gong, Bin Ji et al.

CriSPO: Multi-Aspect Critique-Suggestion-guided Automatic Prompt Optimization for Text Generation

Han He, Qianchu Liu, Lei Xu et al.

TextField3D: Towards Enhancing Open-Vocabulary 3D Generation with Noisy Text Fields

Tianyu Huang, Yihan Zeng, Bowen Dong et al.

ROUTE: Robust Multitask Tuning and Collaboration for Text-to-SQL

Yang Qin, Chao Chen, Zhihang Fu et al.

Plan, Posture and Go: Towards Open-vocabulary Text-to-Motion Generation

Jinpeng Liu, Wenxun Dai, Chunyu Wang et al.

Generating Physically Stable and Buildable Brick Structures from Text

Ava Pun, Kangle Deng, Ruixuan Liu et al.

ICCV 2025arXiv:2505.05469

text-to-3d generationbrick assembly modelingphysical stability validationautoregressive language models+3

8

citations

#85

SIG: Speaker Identification in Literature via Prompt-Based Generation

Zhenlin Su, Liyan Xu, Jin Xu et al.

AAAI 2024arXiv:2312.14590

speaker identificationprompt-based generationliterary analysisout-of-domain inference+3

8

citations

#86

AMO Sampler: Enhancing Text Rendering with Overshooting

Xixi Hu, Keyang Xu, Bo Liu et al.

CVPR 2025arXiv:2411.19415

text-to-image generationtext renderingrectified flow modelsovershooting sampler+3

8

citations

#87

GenesisTex2: Stable, Consistent and High-Quality Text-to-Texture Generation

Jiawei Lu, YingPeng Zhang, Zengjun Zhao et al.

Generating Illustrated Instructions

Sachit Menon, Ishan Misra, Rohit Girdhar

Hand1000: Generating Realistic Hands from Text with Only 1,000 Images

Haozhuo Zhang, Bin Zhu, Yu Cao et al.

YOLO-Count: Differentiable Object Counting for Text-to-Image Generation

Guanning Zeng, Xiang Zhang, Zirui Wang et al.

Error Norm Truncation: Robust Training in the Presence of Data Noise for Text Generation Models

Tianjian Li, Haoran Xu, Philipp Koehn et al.

BBScore: A Brownian Bridge Based Metric for Assessing Text Coherence

Zhecheng Sheng, Tianhao Zhang, Chen Jiang et al.

AAAI 2024arXiv:2312.16893

text coherence assessmentbrownian bridge theoryneural coherence modelingreference-free metric+4

6

citations

#93

Decoupling Layout from Glyph in Online Chinese Handwriting Generation

Minsi Ren, Yan-Ming Zhang, yi chen

Lay2Story: Extending Diffusion Transformers for Layout-Togglable Story Generation

Ao Ma, Jiasong Feng, Ke Cao et al.

Storynizor: Consistent Story Generation via Inter-Frame Synchronized and Shuffled ID Injection

Yuhang Ma, Wenting Xu, Chaoyi Zhao et al.

MetaDesigner: Advancing Artistic Typography through AI-Driven, User-Centric, and Multilingual WordArt Synthesis

Jun-Yan He, Zhi-Qi Cheng, Chenyang Li et al.

AniMo: Species-Aware Model for Text-Driven Animal Motion Generation

Xuan Wang, Kai Ruan, Xing Zhang et al.

LaTexBlend: Scaling Multi-concept Customized Generation with Latent Textual Blending

Jian Jin, Zhenbo Yu, Yang Shen et al.

Bayesian WeakS-to-Strong from Text Classification to Generation

Ziyun Cui, Ziyang Zhang, Guangzhi Sun et al.

Prot2Text-V2: Protein Function Prediction with Multimodal Contrastive Alignment

Xiao Fei, Michail Chatzianastasis, Sarah Carneiro et al.

NeurIPS 2025

4

citations

Text Generation

Top Conferences

Related Topics (Language Models)

Top Papers

Scaling Autoregressive Models for Content-Rich Text-to-Image Generation

CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer

ControlVideo: Training-free Controllable Text-to-video Generation

StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text

AnyText: Multilingual Visual Text Generation and Editing

MIGC: Multi-Instance Generation Controller for Text-to-Image Synthesis

Freeze-Omni: A Smart and Low Latency Speech-to-speech Dialogue Model with Frozen LLM

Learning Multi-Dimensional Human Preference for Text-to-Image Generation

Paint-it: Text-to-Texture Synthesis via Deep Convolutional Texture Map Optimization and Physically-Based Rendering

Mega-TTS 2: Boosting Prompting Mechanisms for Zero-Shot Speech Synthesis

Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation

ChatTime: A Unified Multimodal Time Series Foundation Model Bridging Numerical and Textual Data

From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations

PromptTTS 2: Describing and Generating Voices with Text Prompt

Let's Think Outside the Box: Exploring Leap-of-Thought in Large Language Models with Creative Humor Generation

TC4D: Trajectory-Conditioned Text-to-4D Generation

Text Is MASS: Modeling as Stochastic Embedding for Text-Video Retrieval

DiffSHEG: A Diffusion-Based Approach for Real-Time Speech-driven Holistic 3D Expression and Gesture Generation

Text2HOI: Text-guided 3D Motion Generation for Hand-Object Interaction

Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation

Watermarking Conditional Text Generation for AI Detection: Unveiling Challenges and a Semantic-Aware Watermark Remedy

A Recipe for Scaling up Text-to-Video Generation with Text-free Videos

GVGEN: Text-to-3D Generation with Volumetric Representation

Consistent3D: Towards Consistent High-Fidelity Text-to-3D Generation with Deterministic Sampling Prior

UDiffText: A Unified Framework for High-quality Text Synthesis in Arbitrary Images via Character-aware Diffusion Models

Style2Talker: High-Resolution Talking Head Generation with Emotion Style and Art Style

ParCo: Part-Coordinating Text-to-Motion Synthesis

Few-Shot Detection of Machine-Generated Text using Style Representations

BAMM: Bidirectional Autoregressive Motion Model

TestGenEval: A Real World Unit Test Generation and Test Completion Benchmark

Agents' Room: Narrative Generation through Multi-step Collaboration

DartControl: A Diffusion-Based Autoregressive Motion Model for Real-Time Text-Driven Motion Control

Control4D: Efficient 4D Portrait Editing with Text

FreeMotion: A Unified Framework for Number-free Text-to-Motion Synthesis

MAGIC: Generating Self-Correction Guideline for In-Context Text-to-SQL

Make It Count: Text-to-Image Generation with an Accurate Number of Objects

AI as Humanity’s Salieri: Quantifying Linguistic Creativity of Language Models via Systematic Attribution of Machine Text against Web Text

Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs

One-Prompt-One-Story: Free-Lunch Consistent Text-to-Image Generation Using a Single Prompt

StarVector: Generating Scalable Vector Graphics Code from Images and Text

Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation

Text-Conditioned Generative Model of 3D Strand-based Human Hairstyles

XVerse: Consistent Multi-Subject Control of Identity and Semantic Attributes via DiT Modulation

EgoGen: An Egocentric Synthetic Data Generator

Tailored Visions: Enhancing Text-to-Image Generation with Personalized Prompt Rewriting

Learning Disentangled Identifiers for Action-Customized Text-to-Image Generation

GlyphDraw2: Automatic Generation of Complex Glyph Posters with Diffusion Models and Large Language Models

StyleTokenizer: Defining Image Style by a Single Instance for Controlling Diffusion Models

3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation

FonTS: Text Rendering With Typography and Style Controls

PosterMaker: Towards High-Quality Product Poster Generation with Accurate Text Rendering

SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation

Grid Diffusion Models for Text-to-Video Generation

Towards Open Domain Text-Driven Synthesis of Multi-Person Motions

STIV: Scalable Text and Image Conditioned Video Generation

InstructAvatar: Text-Guided Emotion and Motion Control for Avatar Generation

MoonCast: High-Quality Zero-Shot Podcast Generation

FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio

Diverse Person: Customize Your Own Dataset for Text-Based Person Search

OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation

De-Diffusion Makes Text a Strong Cross-Modal Interface

Customization Assistant for Text-to-Image Generation

MERGE: Fast Private Text Generation

Generating Multi-Image Synthetic Data for Text-to-Image Customization

Roll the dice & look before you leap: Going beyond the creative limits of next-token prediction

Generative Photography: Scene-Consistent Camera Control for Realistic Text-to-Image Synthesis

UniMuMo: Unified Text, Music, and Motion Generation

VinTAGe: Joint Video and Text Conditioning for Holistic Audio Generation

How to Synthesize Text Data without Model Collapse?

DiffusionPen: Towards Controlling the Style of Handwritten Text Generation

BizGen: Advancing Article-level Visual Text Rendering for Infographics Generation

Light-T2M: A Lightweight and Fast Model for Text-to-motion Generation

CAD-Coder: Text-to-CAD Generation with Chain-of-Thought and Geometric Reward

DeepCalliFont: Few-Shot Chinese Calligraphy Font Synthesis by Integrating Dual-Modality Generative Models

EmergentTTS-Eval: Evaluating TTS Models on Complex Prosodic, Expressiveness, and Linguistic Challenges Using Model-as-a-Judge

DreamText: High Fidelity Scene Text Synthesis