Jingdong Wang

28

Papers

193

Total Citations

Papers (28)

OpenHumanVid: A Large-Scale High-Quality Dataset for Enhancing Human-Centric Video Generation

GP-NeRF: Generalized Perception NeRF for Context-Aware 3D Scene Understanding

2382 SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-Form Layout-to-Image Generation

SEED: A Simple and Effective 3D DETR in Point Clouds

Decoupled Pseudo-labeling for Semi-Supervised Monocular 3D Object Detection

OPEN: Object-wise Position Embedding for Multi-view 3D Object Detection

Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation

A Multimodal, Multi-Task Adapting Framework for Video Action Recognition

Re-HOLD: Video Hand Object Interaction Reenactment via adaptive Layout-instructed Diffusion Model

Interpretable Face Anti-Spoofing: Enhancing Generalization with Multimodal Large Language Models

SpotActor: Training-Free Layout-Controlled Consistent Image Generation

Make Your ViT-based Multi-view 3D Detectors Faster via Token Compression

Action Detail Matters: Refining Video Recognition with Local Action Queries

AudCast: Audio-Driven Human Video Generation by Cascaded Diffusion Transformers

VoxelSplat: Dynamic Gaussian Splatting as an Effective Loss for Occupancy and Flow Prediction

Multi-Domain Incremental Learning for Face Presentation Attack Detection

Are Images Indistinguishable to Humans Also Indistinguishable to Classifiers?

VRP-SAM: SAM with Visual Reference Prompt

Learning to Rematch Mismatched Pairs for Robust Cross-Modal Retrieval

Forgery-aware Adaptive Transformer for Generalizable Synthetic Image Detection

MS-DETR: Efficient DETR Training with Mixed Supervision

BEVSpread: Spread Voxel Pooling for Bird’s-Eye-View Representation in Vision-based Roadside 3D Object Detection

Low-Biased General Annotated Dataset Generation

Towards Unified Multi-granularity Text Detection with Interactive Attention

Continual SFT Matches Multimodal RLHF with Negative Supervision

Hallo3: Highly Dynamic and Realistic Portrait Image Animation with Video Diffusion Transformer

Mobile Attention: Mobile-Friendly Linear-Attention for Vision Transformers

TexGarment: Consistent Garment UV Texture Generation via Efficient 3D Structure-Guided Diffusion Transformer