ResearchAlpha Leak

Conferences Topics Top Authors Rankings Browse All

Home/Authors/Linjie Li

Linjie Li

1

Affiliations

Affiliations

Microsoft

Topic trends: 31,945 papers · similarity ≥ 0.4 · year ≥ 2024 · Data sourced from Semantic Scholar

34,180 papers | Abstracts: 30,902 (90.4%) | Citations: 34,180 (100.0%) | arXiv: 25,730 (75.3%)

Built: Feb 7, 2026, 12:42 AM AMS

27

papers

250

total citations

papers (27)

ShowUI: One Vision-Language-Action Model for GUI Visual Agent

MM-Narrator: Narrating Long-form Videos with Multimodal In-Context Learning

MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

ImageGen-CoT: Enhancing Text-to-Image In-context Learning with Chain-of-Thought Reasoning

Point-RFT: Improving Multimodal Reasoning with Visually Grounded Reinforcement Finetuning

NeurIPS 2025arXiv

IDOL: Unified Dual-Modal Latent Diffusion for Human-Centric Joint Video-Depth Generation

LiVOS: Light Video Object Segmentation with Gated Linear Matching

Synthetic Visual Genome

Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension

MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation of Videos

DisCo: Disentangled Control for Realistic Human Dance Generation

MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities

UC2: Universal Cross-Lingual Cross-Modal Vision-and-Language Pre-Training

Less Is More: ClipBERT for Video-and-Language Learning via Sparse Sampling

Cross-Modal Representation Learning for Zero-Shot Action Recognition

SwinBERT: End-to-End Transformers With Sparse Attention for Video Captioning

Adaptive Human Matting for Dynamic Videos

An Empirical Study of End-to-End Video-Language Transformers With Masked Visual Modeling

ReCo: Region-Controlled Text-to-Image Generation

LAVENDER: Unifying Video-Language Understanding As Masked Language Modeling

Generalized Decoding for Pixel, Image, and Language

Adversarial VQA: A New Benchmark for Evaluating the Robustness of VQA Models

Equivariant Similarity for Vision-Language Foundation Models

UNITER: UNiversal Image-TExt Representation Learning

Large-Scale Adversarial Training for Vision-and-Language Representation Learning

NeurIPS 2020arXiv

Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone

NeurIPS 2022arXiv

Segment Everything Everywhere All at Once

NeurIPS 2023arXiv