Shifeng Zhang

12

Papers

135

Total Citations

Papers (12)

VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection

Accelerating Diffusion Sampling with Optimized Time Steps

FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities

NeurIPS 2025arXiv

Turbo2K: Towards Ultra-Efficient and High-Quality 2K Video Synthesis

Rethinking Correspondence-based Category-Level Object Pose Estimation

TurboVSR: Fantastic Video Upscalers and Where to Find Them

Structure-Aware Correspondence Learning for Relative Pose Estimation

Revisiting Audio-Visual Segmentation with Vision-Centric Transformer

Pamba: Enhancing Global Interaction in Point Clouds via State Space Model

MULAN: A Multi Layer Annotated Dataset for Controllable Text-to-Image Generation

Generative Map Priors for Collaborative BEV Semantic Segmentation

LiT: Delving into a Simple Linear Diffusion Transformer for Image Generation