Lu Sheng

35

Papers

997

Total Citations

Papers (35)

WorldSimBench: Towards Video Generation Models as World Simulators

MP5: A Multi-modal Open-ended Embodied System in Minecraft via Active Perception

MV-Adapter: Multi-View Consistent Image Generation Made Easy

T2ISafety: Benchmark for Assessing Fairness, Toxicity, and Privacy in Image Generation

Ouroboros3D: Image-to-3D Generation via 3D-aware Recursive Diffusion

EpiDiff: Enhancing Multi-View Synthesis via Localized Epipolar-Constrained Diffusion

A Generative Model for Depth-Based Robust 3D Facial Pose Tracking

Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video Action Recognition

Exploring Disentangled Feature Representation Beyond Face Identification

Avatar-Net: Multi-Scale Zero-Shot Style Transfer by Feature Decoration

GS3D: An Efficient 3D Object Detection Framework for Autonomous Driving

Semantics Disentangling for Text-To-Image Generation

Video Generation From Single Semantic Label Map

ForgeryNet: A Versatile Benchmark for Comprehensive Forgery Analysis

Back-Tracing Representative Points for Voting-Based 3D Object Detection in Point Clouds

3DJCG: A Unified Framework for Joint Dense Captioning and Visual Grounding on 3D Point Clouds

Siamese DETR

VL-SAT: Visual-Linguistic Semantics Assisted Training for 3D Semantic Scene Graph Prediction in Point Cloud

HydraPlus-Net: Attentive Deep Features for Pedestrian Analysis

Unsupervised Collaborative Learning of Keyframe Detection and Visual Odometry Towards Monocular Deep SLAM

Improving Pedestrian Attribute Recognition With Weakly-Supervised Multi-Scale Attribute-Specific Localization

CAMP: Cross-Modal Adaptive Message Passing for Text-Image Retrieval

3DVG-Transformer: Relation Modeling for Visual Grounding on Point Clouds

StyleFormer: Real-Time Arbitrary Style Transfer via Parametric Style Composition

Thinking in Frequency: Face Forgery Detection by Mining Frequency-aware Clues

Powering One-shot Topological NAS with Stabilized Share-parameter Proxy

SketchSampler: Sketch-Based 3D Reconstruction via View-Dependent Depth Sampling

X-Learner: Learning Cross Sources and Tasks for Universal Visual Representation

Improving RGB-D Point Cloud Registration by Learning Multi-Scale Local Linear Transformation

Context and Attribute Grounded Dense Captioning

MIDI: Multi-Instance Diffusion for Single Image to 3D Scene Generation

Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection

Multi-Modality Affinity Inference for Weakly Supervised 3D Semantic Segmentation

Data-Free Generalized Zero-Shot Learning

LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset, Framework, and Benchmark