Linjie Li

11

Papers

218

Total Citations

1

Affiliations

Affiliations

Microsoft

Papers (11)

ShowUI: One Vision-Language-Action Model for GUI Visual Agent

MM-Narrator: Narrating Long-form Videos with Multimodal In-Context Learning

MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

Point-RFT: Improving Multimodal Reasoning with Visually Grounded Reinforcement Finetuning

MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation of Videos

DisCo: Disentangled Control for Realistic Human Dance Generation

LiVOS: Light Video Object Segmentation with Gated Linear Matching

MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities

Synthetic Visual Genome

Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension

ImageGen-CoT: Enhancing Text-to-Image In-context Learning with Chain-of-Thought Reasoning