Can Qin

6

Papers

192

Total Citations

Papers (6)

HIVE: Harnessing Human Feedback for Instructional Visual Editing

HoliTom: Holistic Token Merging for Fast Video Large Language Models

M3SOT: Multi-Frame, Multi-Field, Multi-Space 3D Single Object Tracking

DyCoke: Dynamic Compression of Tokens for Fast Video Large Language Models

Disentangled Pose and Appearance Guidance for Multi-Pose Generation

Structured Policy Optimization: Enhance Large Vision-Language Model via Self-referenced Dialogue