Kevin Lin

7

Papers

59

Total Citations

Papers (7)

MM-Narrator: Narrating Long-form Videos with Multimodal In-Context Learning

BizGen: Advancing Article-level Visual Text Rendering for Infographics Generation

LiVOS: Light Video Object Segmentation with Gated Linear Matching

DisCo: Disentangled Control for Realistic Human Dance Generation

MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities

ImageGen-CoT: Enhancing Text-to-Image In-context Learning with Chain-of-Thought Reasoning

Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension