Jian Wang

32

Papers

388

Total Citations

Papers (32)

SkySense: A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery

RobustSAM: Segment Anything Robustly on Degraded Images

Cooper: Coordinating Specialized Agents towards a Complex Dialogue Goal

KABB: Knowledge-Aware Bayesian Bandits for Dynamic Expert Coordination in Multi-Agent Systems

DSL-FIQA: Assessing Facial Image Quality via Dual-Set Degradation Learning and Landmark-Guided Transformer

Robust Communicative Multi-Agent Reinforcement Learning with Active Defense

Training-Free Text-Guided Image Editing with Visual Autoregressive Model

Ego4o: Egocentric Human Motion Capture and Understanding from Multi-Modal Input

POT: Prototypical Optimal Transport for Weakly Supervised Semantic Segmentation

Delving Deep into Engagement Prediction of Short Videos

EcoMatcher: Efficient Clustering Oriented Matcher for Detector-free Image Matching

Discrete Curvature Graph Information Bottleneck

SceneMI: Motion In-betweening for Modeling Human-Scene Interaction

Bring Your Rear Cameras for Egocentric 3D Human Pose Estimation

Style Quantization for Data-Efficient GAN Training

FRAME: Floor-aligned Representation for Avatar Motion from Egocentric Video

MS$^3$D: A RG Flow-Based Regularization for GAN Training with Limited Data

SkySense-O: Towards Open-World Remote Sensing Interpretation with Vision-Centric Visual-Language Modeling

Ponimator: Unfolding Interactive Pose for Versatile Human-human Interaction Animation

T2Bs: Text-to-Character Blendshapes via Video Generation

TextMaster: A Unified Framework for Realistic Text Editing via Glyph-Style Dual-Control

RAGDiffusion: Faithful Cloth Generation via External Knowledge Assimilation

Class Token as Proxy: Optimal Transport-assisted Proxy Learning for Weakly Supervised Semantic Segmentation

Similar Modality Enhancement and Action Consistency Learning for Weakly Supervised Temporal Action Localization

Federated Recommendation with Explicitly Encoding Item Bias

3D Human Pose Perception from Egocentric Stereo Videos

Towards Better Vision-Inspired Vision-Language Models

EventEgo3D: 3D Human Motion Capture from Egocentric Event Streams

REWIND: Real-Time Egocentric Whole-Body Motion Diffusion with Exemplar-Based Identity Conditioning

Exponential Spectral Pursuit: An Effective Initialization Method for Sparse Phase Retrieval

Mobile Attention: Mobile-Friendly Linear-Attention for Vision Transformers

KVQ: Boosting Video Quality Assessment via Saliency-guided Local Perception