Bing Li

49

Papers

99

Total Citations

Papers (49)

NARUTO: Neural Active Reconstruction from Uncertain Target Observations

Basis Sharing: Cross-Layer Parameter Sharing for Large Language Model Compression

PromptIQA: Boosting the Performance and Generalization for No-Reference Image Quality Assessment via Prompts

Unleashing the Potential of the Semantic Latent Space in Diffusion Models for Image Dehazing

Visual-Instructed Degradation Diffusion for All-in-One Image Restoration

Benchmarking Segmentation Models with Mask-Preserved Attribute Editing

SynFER: Towards Boosting Facial Expression Recognition with Synthetic Data

WiFi CSI Based Temporal Activity Detection via Dual Pyramid Network

Similar Modality Enhancement and Action Consistency Learning for Weakly Supervised Temporal Action Localization

Union Is Strength! Unite the Power of LLMs and MLLMs for Chart Question Answering

Federated Recommendation with Explicitly Encoding Item Bias

Variable Importance in High-Dimensional Settings Requires Grouping

Tune-An-Ellipse: CLIP Has Potential to Find What You Want

How to Make Cross Encoder a Good Teacher for Efficient Image-Text Retrieval?

Spatio-Temporal Self-Organizing Map Deep Network for Dynamic Object Detection From Videos

Depth-Aware Stereo Video Retargeting

Knowledge Distillation via Instance Relationship Graph

Object Relational Graph With Teacher-Recommended Learning for Video Captioning

Open-Book Video Captioning With Retrieve-Copy-Generate Network

Improving Visual Grounding With Visual-Linguistic Verification and Iterative Reasoning

EMScore: Evaluating Video Captioning via Coarse-Grained and Fine-Grained Embedding Matching

AUNet: Learning Relations Between Action Units for Face Forgery Detection

Learning To Exploit the Sequence-Specific Prior Knowledge for Image Processing Pipelines Optimization

NewsNet: A Novel Dataset for Hierarchical Temporal Segmentation

AdaptiveMix: Improving GAN Training via Feature Space Shrinkage

ViLEM: Visual-Language Error Modeling for Image-Text Retrieval

Channel-Wise Topology Refinement Graph Convolution for Skeleton-Based Action Recognition

High Quality Disparity Remapping With Two-Stage Warping

Reversing Flow for Image Restoration

Automatic Animation of Hair Blowing in Still Portrait Photos

Order-Prompted Tag Sequence Generation for Video Tagging

Learning to Identify Critical States for Reinforcement Learning from Videos

CVRecon: Rethinking 3D Geometric Feature Learning For Neural Reconstruction

Learning to Predict Salient Faces: A Novel Visual-Audio Saliency Model

Attention-Aware Learning for Hyperparameter Prediction in Image Processing Pipelines

Disentangling Object Motion and Occlusion for Unsupervised Multi-Frame Monocular Depth

Learn To Match: Automatic Matching Network Design for Visual Tracking

Multimodal Large Language Model-Guided ISP Hyperparameter Optimization with Dynamic Preference Learning

VisionMath: Vision-Form Mathematical Problem-Solving

4D-Bench: Benchmarking Multi-modal Large Language Models for 4D Object Understanding

Point Cloud Self-supervised Learning via 3D to Multi-view Masked Learner

OmniResponse: Online Multimodal Conversational Response Generation in Dyadic Interactions

SynCL: A Synergistic Training Strategy with Instance-Aware Contrastive Learning for End-to-End Multi-Camera 3D Tracking

Towards More Discriminative Feature Learning in SNNs with Temporal-Self-Erasing Supervision

Dynamically Masked Discriminator for GANs

Compressed Video Prompt Tuning

Exploiting Contextual Objects and Relations for 3D Visual Grounding

ZoomTrack: Target-aware Non-uniform Resizing for Efficient Visual Tracking

Bridging the Domain Gap: Self-Supervised 3D Scene Understanding with Foundation Models