Ruimao Zhang

32

Papers

1,136

Total Citations

Papers (32)

WorldSimBench: Towards Video Generation Models as World Simulators

SmartEdit: Exploring Complex Instruction-based Image Editing with Multimodal Large Language Models

MP5: A Multi-modal Open-ended Embodied System in Minecraft via Active Perception

Open-World Human-Object Interaction Detection via Multi-modal Prompts

ScaMo: Exploring the Scaling Law in Autoregressive Motion Generation Model

F-HOI: Toward Fine-grained Semantic-Aligned 3D Human-Object Interactions

X4D-SceneFormer: Enhanced Scene Understanding on 4D Point Cloud Videos through Cross-Modal Knowledge Transfer

RoboFactory: Exploring Embodied Agent Collaboration with Compositional Constraints

DriveGEN: Generalized and Robust 3D Detection in Driving via Controllable Text-to-Image Diffusion Generation

FreeMan: Towards Benchmarking 3D Human Pose Estimation under Real-World Conditions

Differentiable Learning-to-Group Channels via Groupable Convolutional Neural Networks

End-to-End Dense Video Captioning With Parallel Decoding

InstanceRefer: Cooperative Holistic Understanding for Visual Grounding on Point Clouds Through Instance Multi-Level Contextual Referring

SupFusion: Supervised LiDAR-Camera Fusion for 3D Object Detection

Neural Interactive Keypoint Detection

Towards Content-Independent Multi-Reference Super-Resolution: Adaptive Pattern Matching and Feature Aggregation

Weakly Supervised Object Localization via Transformer with Implicit Spatial Calibration

2DPASS: 2D Priors Assisted Semantic Segmentation on LiDAR Point Clouds

Exemplar Normalization for Learning Deep Representation

SEED-Bench: Benchmarking Multimodal Large Language Models

HumanTOMATO: Text-aligned Whole-body Motion Generation

Deep Structured Scene Parsing by Learning With Image Descriptions

SSN: Learning Sparse Switchable Normalization via SparsestMax

DeepFashion2: A Versatile Benchmark for Detection, Pose Estimation, Segmentation and Re-Identification of Clothing Images

Towards Photo-Realistic Virtual Try-On by Adaptively Generating-Preserving Image Content

Parser-Free Virtual Try-On via Distilling Appearance Flows

Semantic Human Parsing via Scalable Semantic Transfer Over Multiple Label Domains

Once a MAN: Towards Multi-Target Attack via Learning Multi-Target Adversarial Network Once

Let Images Give You More: Point Cloud Cross-Modal Training for Shape Analysis

AMOS: A Large-Scale Abdominal Multi-Organ Benchmark for Versatile Medical Image Segmentation

Motion-X: A Large-scale 3D Expressive Whole-body Human Motion Dataset

Discovering Intrinsic Spatial-Temporal Logic Rules to Explain Human Actions