Jiwen Lu

146

Papers

858

Total Citations

Papers (146)

Runtime Neural Pruning

Temporal Coherence or Temporal Motion: Which is More Critical for Video-based Person Re-identification?

Graph-Based Social Relation Reasoning

MADTP: Multimodal Alignment-Guided Dynamic Token Pruning for Accelerating Vision-Language Transformer

MetaDistiller: Network Self-Boosting via Meta-Learned Top-Down Distillation

FlowIE: Efficient Image Enhancement via Rectified Flow

Efficient Inference of Vision Instruction-Following Models with Elastic Cache

ThinkBot: Embodied Instruction Following with Thought Chain Reasoning

DPMesh: Exploiting Diffusion Prior for Occluded Human Mesh Recovery

EmbodiedOcc: Embodied 3D Occupancy Prediction for Vision-based Online Scene Understanding

Once for Both: Single Stage of Importance and Sparsity Search for Vision Transformer Compression

UniPre3D: Unified Pre-training of 3D Point Cloud Models with Cross-Modal Gaussian Splatting

Learning Dual-Level Deformable Implicit Representation for Real-World Scale Arbitrary Super-Resolution

Path Choice Matters for Clear Attributions in Path Methods

SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs

D3QE: Learning Discrete Distribution Discrepancy-aware Quantization Error for Autoregressive-Generated Image Detection

Narrative Action Evaluation with Prompt-Guided Multimodal Interaction

Deep Transfer Metric Learning

Multi-Manifold Deep Metric Learning for Image Set Classification

Deep Hashing for Compact Binary Codes Learning

Learning Compact Binary Descriptors With Unsupervised Deep Neural Networks

Modality and Component Aware Feature Fusion For RGB-D Scene Classification

Learning Deep Binary Descriptor With Multi-Quantization

Consistent-Aware Deep Learning for Person Re-Identification in a Camera Network

Deep Adversarial Metric Learning

Deep Progressive Reinforcement Learning for Skeleton-Based Action Recognition

Learning Globally Optimized Object Detector via Policy Gradient

Deep Hashing via Discrepancy Minimization

GraphBit: Bitwise Interaction Mining via Deep Reinforcement Learning

Hardness-Aware Deep Metric Learning

Spherical Fractal Convolutional Neural Networks for Point Cloud Recognition

Learning Channel-Wise Interactions for Binary Convolutional Neural Networks

Structural Relational Reasoning of Point Clouds

Deep Fitting Degree Scoring Network for Monocular 3D Object Detection

BridgeNet: A Continuity-Aware Probabilistic Network for Age Estimation

COIN: A Large-Scale Dataset for Comprehensive Instructional Video Analysis

UniformFace: Learning Deep Equidistributed Representation for Face Recognition

Deep Embedding Learning With Discriminative Sampling Policy

Enhanced Bayesian Compression via Deep Reinforcement Learning

Conditional Single-View Shape Generation for Multi-View Stereo Reconstruction

BiDet: An Efficient Binarized Object Detector

Deep Metric Learning via Adaptive Learnable Assessment

Global-Local Bidirectional Reasoning for Unsupervised Representation Learning of 3D Point Clouds

Deep Face Super-Resolution With Iterative Collaboration Between Attentive Recovery and Landmark Estimation

Structure-Preserving Super Resolution With Gradient Guidance

Uncertainty-Aware Score Distribution Learning for Action Quality Assessment

Self-Supervised Video Hashing via Bidirectional Transformers

Structure-Aware Face Clustering on a Large-Scale Graph With 107 Nodes

Objects Are Different: Flexible Monocular 3D Object Detection

Deep Compositional Metric Learning

Meta-Mining Discriminative Samples for Kinship Verification

Pseudo Facial Generation With Extreme Poses for Face Recognition

WebFace260M: A Benchmark Unveiling the Power of Million-Scale Deep Face Recognition

Learning Probabilistic Ordinal Embeddings for Uncertainty-Aware Regression

PV-RAFT: Point-Voxel Correlation Fields for Scene Flow Estimation of Point Clouds

HyperDet3D: Learning a Scene-Conditioned 3D Object Detector

Stochastic Trajectory Prediction via Motion Indeterminacy Diffusion

Bridge-Prompt: Towards Ordinal Action Understanding in Instructional Videos

FineDiving: A Fine-Grained Dataset for Procedure-Aware Action Quality Assessment

Back to Reality: Weakly-Supervised 3D Object Detection With Shape-Guided Label Enhancement

Dimension Embeddings for Monocular 3D Object Detection

Point-BERT: Pre-Training 3D Point Cloud Transformers With Masked Point Modeling

DenseCLIP: Language-Guided Dense Prediction With Context-Aware Prompting

Attributable Visual Similarity Learning

SemAffiNet: Semantic-Affine Transformation for Point Cloud Segmentation

Shapley-NAS: Discovering Operation Contribution for Neural Architecture Search

Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction

LOGO: A Long-Form Video Dataset for Group Action Quality Assessment

Deep Factorized Metric Learning

FLAG3D: A 3D Fitness Activity Dataset With Language Instruction

Diffusion-SDF: Text-To-Shape via Voxelized Diffusion

Binarizing Sparse Convolutional Networks for Efficient Point Cloud Analysis

DiffTalk: Crafting Diffusion Models for Generalized Audio-Driven Portraits Animation

DiffSwap: High-Fidelity and Controllable Face Swapping via 3D-Aware Masked Diffusion

Multi-View Complementary Hash Tables for Nearest Neighbor Search

MMSS: Multi-Modal Sharable and Specific Feature Learning for RGB-D Object Recognition

Multiple Feature Fusion via Weighted Entropy for Visual Tracking

Simultaneous Local Binary Feature Learning and Encoding for Face Recognition

Local Subspace Collaborative Tracking

Learning Discriminative Aggregation Network for Video-Based Face Recognition

Attention-Aware Deep Reinforcement Learning for Video Face Recognition

Cross-Modal Deep Variational Hashing

3DCNN-DQN-RNN: A Deep Reinforcement Learning Framework for Semantic Parsing of Large-Scale 3D Point Clouds

DensePoint: Learning Densely Contextual Representation for Efficient Point Cloud Processing

Neighborhood Preserving Hashing for Scalable Video Retrieval

Deep Meta Metric Learning

Self-Critical Attention Learning for Person Re-Identification

Group-Aware Contrastive Regression for Action Quality Assessment

Instance Similarity Learning for Unsupervised Feature Representation

PoinTr: Diverse Point Cloud Completion With Geometry-Aware Transformers

Personalized Trajectory Prediction via Distribution Discrimination

Frequency-Aware Spatiotemporal Transformers for Video Inpainting Detection

Deep Relational Metric Learning

RandomRooms: Unsupervised Pre-Training From Synthetic Shapes and Randomized Layouts for 3D Object Detection

NerfingMVS: Guided Optimization of Neural Radiance Fields for Indoor Multi-View Stereo

Generalizable Mixed-Precision Quantization via Attribution Rank Preservation

Towards Interpretable Deep Metric Learning With Structural Matching

Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding

Human Trajectory Prediction via Counterfactual Analysis

Counterfactual Attention Learning for Fine-Grained Visual Categorization and Re-Identification

OPERA: Omni-Supervised Representation Learning with Hierarchical Supervisions

Take-A-Photo: 3D-to-2D Generative Pre-training of Point Cloud Models

Token-Label Alignment for Vision Transformers

Skip-Plan: Procedure Planning in Instructional Videos via Condensed Action Space Learning

TCOVIS: Temporally Consistent Online Video Instance Segmentation

CLIP-Cluster: CLIP-Guided Attribute Hallucination for Face Clustering

OpenOccupancy: A Large Scale Benchmark for Surrounding Semantic Occupancy Perception

SurroundOcc: Multi-camera 3D Occupancy Prediction for Autonomous Driving

Unleashing Text-to-Image Diffusion Models for Visual Perception

Deep Credible Metric Learning for Unsupervised Domain Adaptation Person Re-identification

Reinforced Axial Refinement Network for Monocular 3D Object Detection

Structural Deep Metric Learning for Room Layout Estimation

Deep Hashing with Active Pairwise Supervision

Rotation-robust Intersection over Union for 3D Object Detection

Spatial Geometric Reasoning for Room Layout Estimation via Deep Reinforcement Learning

Spike Transformer: Monocular Depth Estimation for Spiking Camera

Shap-CAM: Visual Explanations for Convolutional Neural Networks Based on Shapley Value

Label2Label: A Language Modeling Framework for Multi-Attribute Learning

Learning Dynamic Facial Radiance Fields for Few-Shot Talking Head Synthesis

Learning Series-Parallel Lookup Tables for Efficient Image Super-Resolution

AMixer: Adaptive Weight Mixing for Self-Attention Free Vision Transformers

Dynamic Metric Learning with Cross-Level Concept Distillation

LiDAR Distillation: Bridging the Beam-Induced Domain Gap for 3D Object Detection

Gait Recognition in the Wild: A Benchmark

EfficientLLaVA: Generalizable Auto-Pruning for Large Vision-language Models

GaussianWorld: Gaussian World Model for Streaming 3D Occupancy Prediction

UniGoal: Towards Universal Zero-shot Goal-oriented Navigation

GaussianFormer-2: Probabilistic Gaussian Superposition for Efficient 3D Occupancy Prediction

Learning Counterfactually Decoupled Attention for Open-World Model Attribution

IGL-Nav: Incremental 3D Gaussian Localization for Image-goal Navigation

PlaneRAS: Learning Planar Primitives for 3D Plane Recovery

SpectralAR: Spectral Autoregressive Visual Generation

X-3D: Explicit 3D Structure Modeling for Point Cloud Recognition

LowRankOcc: Tensor Decomposition and Low-Rank Recovery for Vision-based 3D Semantic Occupancy Prediction

SelfOcc: Self-Supervised Vision-Based 3D Occupancy Prediction

MirageRoom: 3D Scene Segmentation with 2D Pre-trained Models by Mirage Projection

Memory-based Adapters for Online 3D Scene Perception

Towards Accurate Post-training Quantization for Diffusion Models

Segment and Caption Anything

Global Filter Networks for Image Classification

DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification

NeurIPS 2021arXiv

HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions

P2P: Tuning Pre-trained Image Models for Point Cloud Analysis with Point-to-Pixel Prompting

OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal Regression

MCUFormer: Deploying Vision Tranformers on Microcontrollers with Limited Memory

UniPC: A Unified Predictor-Corrector Framework for Fast Sampling of Diffusion Models