Ping Luo

40

Papers

4,444

Total Citations

Papers (40)

InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks

MVBench: A Comprehensive Multi-modal Video Understanding Benchmark

InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation

OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models

Generalized Predictive Model for Autonomous Driving

GUIOdyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices

AnalogCoder: Analog Circuit Design via Training-Free Code Generation

Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation

SkillDiffuser: Interpretable Hierarchical Planning via Skill Abstractions in Diffusion-Based Task Execution

Goku: Flow Based Video Generative Foundation Models

BESA: Pruning Large Language Models with Blockwise Parameter-Efficient Sparsity Allocation

End-to-End Autonomous Driving Through V2X Cooperation

AutoMMLab: Automatically Generating Deployable Models from Language Instructions for Computer Vision Tasks

Prompt-A-Video: Prompt Your Video Diffusion Model via Preference-Aligned LLM

Forensics-Bench: A Comprehensive Forgery Detection Benchmark Suite for Large Vision Language Models

IDA-VLM: Towards Movie Understanding via ID-Aware Large Vision-Language Model

DiffAgent: Fast and Accurate Text-to-Image API Selection with Large Language Model

Cached Transformers: Improving Transformers with Differentiable Memory Cached

NADER: Neural Architecture Design via Multi-Agent Collaboration

UniFS: Universal Few-shot Instance Perception with Point Representations

BOOD: Boundary-based Out-Of-Distribution Data Generation

JiSAM: Alleviate Labeling Burden and Corner Case Problems in Autonomous Driving via Minimal Real-World Data

OWMM-Agent: Open World Mobile Manipulation With Multi-modal Agentic Data Synthesis

DETree: DEtecting Human-AI Collaborative Texts via Tree-Structured Hierarchical Representation Learning

LiT: Delving into a Simple Linear Diffusion Transformer for Image Generation

Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation

RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins

Unsupervised Continual Domain Shift Learning with Multi-Prototype Modeling

G3Flow: Generative 3D Semantic Flow for Pose-aware and Generalizable Object Manipulation

CompGS: Unleashing 2D Compositionality for Compositional Text-to-3D via Dynamically Optimizing 3D Gaussians

MangaNinja: Line Art Colorization with Precise Reference Following

DexHandDiff: Interaction-aware Diffusion Planning for Adaptive Dexterous Manipulation

Mind the Boundary: Coreset Selection via Reconstructing the Decision Boundary

Diagnosing the Compositional Knowledge of Vision Language Models from a Game-Theoretic View

Position: Towards Implicit Prompt For Text-To-Image Models

RoboCodeX: Multimodal Code Generation for Robotic Behavior Synthesis

MMT-Bench: A Comprehensive Multimodal Benchmark for Evaluating Large Vision-Language Models Towards Multitask AGI

GenTron: Diffusion Transformers for Image and Video Generation

RegionGPT: Towards Region Understanding Vision Language Model

OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM