Yansong Tang

29

Papers

307

Total Citations

Papers (29)

MotionLCM: Real-time Controllable Motion Generation via Latent Consistency Model

MADTP: Multimodal Alignment-Guided Dynamic Token Pruning for Accelerating Vision-Language Transformer

FlowIE: Efficient Image Enhancement via Rectified Flow

Universal Segmentation at Arbitrary Granularity with Language Instruction

ThinkBot: Embodied Instruction Following with Thought Chain Reasoning

DPMesh: Exploiting Diffusion Prior for Occluded Human Mesh Recovery

Flash-VStream: Efficient Real-Time Understanding for Long Video Streams

Once for Both: Single Stage of Importance and Sparsity Search for Vision Transformer Compression

Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model

Plan, Posture and Go: Towards Open-vocabulary Text-to-Motion Generation

SAM2-LOVE: Segment Anything Model 2 in Language-aided Audio-Visual Scenes

Learning Dual-Level Deformable Implicit Representation for Real-World Scale Arbitrary Super-Resolution

Stepping Out of Similar Semantic Space for Open-Vocabulary Segmentation

FADE: Frequency-Aware Diffusion Model Factorization for Video Editing

VoCo-LLaMA: Towards Vision Compression with Large Language Models

Narrative Action Evaluation with Prompt-Guided Multimodal Interaction

ATP-LLaVA: Adaptive Token Pruning for Large Vision Language Models

ScoreHOI: Physically Plausible Reconstruction of Human-Object Interaction via Score-Guided Diffusion

Momentum-GS: Momentum Gaussian Self-Distillation for High-Quality Large Scene Reconstruction

KV-Edit: Training-Free Image Editing for Precise Background Preservation

AnyBimanual: Transferring Unimanual Policy for General Bimanual Manipulation

GWM: Towards Scalable Gaussian World Models for Robotic Manipulation

IteRPrimE: Zero-shot Referring Image Segmentation with Iterative Grad-CAM Refinement and Primary Word Emphasis

CoSTA: End-to-End Comprehensive Space-Time Entanglement for Spatio-Temporal Video Grounding

Learning Multi-Scale Video-Text Correspondence for Weakly Supervised Temporal Article Gronding

PTM-VQA: Efficient Video Quality Assessment Leveraging Diverse PreTrained Models from the Wild

Open-Vocabulary Segmentation with Semantic-Assisted Calibration

Towards Accurate Post-training Quantization for Diffusion Models

Segment and Caption Anything