Shijian Lu

78

Papers

1,140

Total Citations

Papers (78)

Mitigating Object Hallucinations in Large Vision-Language Models through Visual Contrastive Decoding

R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization

Multiple Expert Brainstorming for Domain Adaptive Person Re-identification

Efficient Test-Time Adaptation of Vision-Language Models

FreGS: 3D Gaussian Splatting with Progressive Frequency Regularization

LEED: Label-Free Expression Editing via Disentanglement

The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio

Weakly Supervised Monocular 3D Detection with a Single-View Image

Backdoor Attacks Against No-Reference Image Quality Assessment Models via a Scalable Trigger

DA-BEV: Unsupervised Domain Adaptation for Bird's Eye View Perception

PCR-GS: COLMAP-Free 3D Gaussian Splatting via Pose Co-Regularizations

Purify Unlearnable Examples via Rate-Constrained Variational Autoencoders

Discriminative Multi-Modal Feature Fusion for RGBD Indoor Scene Recognition

ESIR: End-To-End Scene Text Recognition via Iterative Image Rectification

Spatial Fusion GAN for Image Synthesis

Towards Natural and Accurate Future Motion Prediction of Humans and Animals

Cascade EF-GAN: Progressive Facial Expression Editing With Local Focuses

Suppressing Uncertainties for Large-Scale Facial Expression Recognition

AD-Cluster: Augmented Discriminative Clustering for Domain Adaptive Person Re-Identification

Cross-View Regularization for Domain Adaptive Panoptic Segmentation

Unbalanced Feature Transport for Exemplar-Based Image Translation

FSDR: Frequency Space Domain Randomization for Domain Generalization

Accelerating DETR Convergence via Semantic-Aligned Matching

Category Contrast for Unsupervised Domain Adaptation in Visual Tasks

Spectral Unsupervised Domain Adaptation for Visual Recognition

Fourier Document Restoration for Robust Document Dewarping and Recognition

Unbiased Subclass Regularization for Semi-Supervised Semantic Segmentation

PTTR: Relational 3D Point Cloud Object Tracking With Transformer

Marginal Contrastive Correspondence for Guided Image Generation

Modulated Contrast for Versatile Image Synthesis

Regularized Vector Quantization for Tokenized Image Synthesis

FAC: 3D Representation Learning via Foreground Aware Feature Contrast

DA-DETR: Domain Adaptive Detection Transformer With Information Fusion

StyleRF: Zero-Shot 3D Style Transfer of Neural Radiance Fields

3D Semantic Segmentation in the Wild: Learning Generalized Models for Adverse-Condition Point Clouds

KD-DLGAN: Data Limited Image Generation via Knowledge Distillation

Backdoor Attacks Against Deep Image Compression via Adaptive Frequency Trigger

Towards Efficient Use of Multi-Scale Features in Transformer-Based Object Detectors

UniDAformer: Unified Domain Adaptive Panoptic Segmentation Transformer via Hierarchical Mask Calibration

Text Flow: A Unified Text Detection System in Natural Scene Images

WeText: Scene Text Detection Under Weak Supervision

TORNADO: A Spatio-Temporal Convolutional Regression Network for Video Action Proposal

GA-DAN: Geometry-Aware Domain Adaptation Network for Scene Text Detection and Recognition

Skeleton Cloud Colorization for Unsupervised 3D Action Representation Learning

Domain Adaptive Video Segmentation via Temporal Consistency Regularization

Unsupervised Domain Adaptive 3D Detection With Multi-Level Consistency

WaveFill: A Wavelet-Based Generation Network for Image Inpainting

Sparse Needlets for Lighting Estimation With Spherical Transport Loss

RDA: Robust Domain Adaptation via Fourier Adversarial Attacking

Pose-Free Neural Radiance Fields via Implicit Pose Regularization

Mitigating Object Hallucinations in Large Vision-Language Models with Assembly of Global and Local Attention

WaveNeRF: Wavelet-based Generalizable Neural Radiance Fields

Black-Box Unsupervised Domain Adaptation with Bi-Directional Atkinson-Shiffrin Memory

Collaborative Learning of Gesture Recognition and 3D Hand Pose Estimation with Multi-Order Feature Analysis

AMLN: Adversarial-based Mutual Learning Network for Online Knowledge Distillation

Contextual-Relation Consistent Domain Adaptation for Semantic Segmentation

Auto-Regressive Image Synthesis with Integrated Quantization

Bi-Level Feature Alignment for Versatile Image Translation and Manipulation

Language Matters: A Weakly Supervised Vision-Language Pre-training Approach for Scene Text Detection and Spotting

Contextual Text Block Detection towards Scene Text Understanding

Domain Adaptive Video Segmentation via Temporal Pseudo Supervision

Domain Generalization via Balancing Training Difficulty and Model Capability

SOGS: Second-Order Anchor for Advanced 3D Gaussian Splatting

Spatial Preference Rewarding for MLLMs Spatial Understanding

Versatile Transition Generation with Image-to-Video Diffusion

Face Retouching with Diffusion Data Generation and Spectral Restorement

TimeExpert: An Expert-Guided Video LLM for Video Temporal Grounding

SMSTracker: Tri-path Score Mask Sigma Fusion for Multi-Modal Tracking

PacGDC: Label-Efficient Generalizable Depth Completion with Projection Ambiguity and Consistency

Modeling Continuous Motion for 3D Point Cloud Object Tracking

Cross-Domain Few-Shot Segmentation via Iterative Support-Query Correspondence Mining

Masked AutoDecoder is Effective Multi-Task Vision Generalist

Model Adaptation: Historical Contrastive Learning for Unsupervised Domain Adaptation without Source Data

Masked Generative Adversarial Networks are Data-Efficient Generation Learners

PolarMix: A General Data Augmentation Technique for LiDAR Point Clouds

Online Map Vectorization for Autonomous Driving: A Rasterization Perspective

Weakly Supervised 3D Open-vocabulary Segmentation

Rewrite Caption Semantics: Bridging Semantic Gaps for Language-Supervised Semantic Segmentation