Jianwei Yang

11

Papers

562

Total Citations

Papers (11)

Segment and Recognize Anything at Any Granularity

LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Models

Matryoshka Multimodal Models

Visual In-Context Prompting

VCoder: Versatile Vision Encoders for Multimodal Large Language Models

ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding

Florence-VL: Enhancing Vision-Language Models with Generative Vision Encoder and Depth-Breadth Fusion

Pix2Gif: Motion-Guided Diffusion for GIF Generation

SITE: towards Spatial Intelligence Thorough Evaluation

Is Your World Simulator a Good Story Presenter? A Consecutive Events-Based Benchmark for Future Long Video Generation

Magma: A Foundation Model for Multimodal AI Agents