Yang Wu

24

Papers

20

Total Citations

Papers (24)

Benchmarking Multimodal CoT Reward Model Stepwise by Visual Program

Janus-Pro-R1: Advancing Collaborative Visual Comprehension and Generation via Reinforcement Learning

Boosting Virtual Agent Learning and Reasoning: A Step-Wise, Multi-Dimensional, and Generalist Reward Model with Benchmark

Mastering Collaborative Multi-modal Data Selection: A Focus on Informativeness, Uniqueness, and Representativeness

Mind the Gap: Aligning Vision Foundation Models to Image Feature Matching

Towards Detailed Text-to-Motion Synthesis via Basic-to-Advanced Hierarchical Diffusion Model

HGCN2SP: Hierarchical Graph Convolutional Network for Two-Stage Stochastic Programming

Saturation-Preserving Specular Reflection Separation

Depth-Based 3D Hand Pose Estimation: From Current Achievements to Future Goals

Dynamic Face Video Segmentation via Reinforcement Learning

UMT: Unified Multi-Modal Transformers for Joint Video Moment Retrieval and Highlight Detection

Co-Salient Object Detection With Uncertainty-Aware Group Exchange-Masking

Decompose More and Aggregate Better: Two Closer Looks at Frequency Representation Learning for Human Motion Prediction

Rethinking Counting and Localization in Crowds: A Purely Point-Based Framework

Uniformity in Heterogeneity: Diving Deep Into Count Interval Partition for Crowd Counting

Face Clustering via Graph Convolutional Networks with Confidence Edges

Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a Short Video

ForkGAN: Seeing into the Rainy Night

Chained-Tracker: Chaining Paired Attentive Regression Results for End-to-End Joint Multiple-Object Detection and Tracking

WeatherGen: A Unified Diverse Weather Generator for LiDAR Point Clouds via Spider Mamba Diffusion

AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea

Event-Equalized Dense Video Captioning

Act As You Wish: Fine-Grained Control of Motion Diffusion Model with Hierarchical Semantic Graphs

CL-NeRF: Continual Learning of Neural Radiance Fields for Evolving Scene Representation