Jing Liu

64

Papers

576

Total Citations

Papers (64)

Learning Progressive Joint Propagation for Human Motion Prediction

Temporal Adaptive RGBT Tracking with Modality Prompt

Text Prompt with Normality Guidance for Weakly Supervised Video Anomaly Detection

EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit Diffusion Models

Open-Vocabulary Video Anomaly Detection

AR-Diffusion: Asynchronous Video Generation with Auto-Regressive Diffusion

Numerical Pruning for Efficient Autoregressive Models

Signed Graph Neural Ordinary Differential Equation for Modeling Continuous-Time Dynamics

Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs

ID-Patch: Robust ID Association for Group Photo Personalization

Context-aware Dynamic Pruning for Speech Foundation Models

Efficient Stitchable Task Adaptation

COAP: Memory-Efficient Training with Correlation-Aware Gradient Projection

AutoSGNN: Automatic Propagation Mechanism Discovery for Spectral Graph Neural Networks

Breaking the Encoder Barrier for Seamless Video-Language Understanding

SpFormer: Spatio-Temporal Modeling for Scanpaths with Transformer

TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models

SC-Tune: Unleashing Self-Consistent Referential Comprehension in Large Vision Language Models

Unveiling Parts Beyond Objects: Towards Finer-Granularity Referring Expression Segmentation

Automated Loss function Search for Class-imbalanced Node Classification

A-Lamp: Adaptive Layout-Aware Multi-Patch Deep Convolutional Neural Network for Photo Aesthetic Assessment

Dual Attention Network for Scene Segmentation

MSCap: Multi-Style Image Captioning With Unpaired Stylized Text

Deep Incremental Hashing Network for Efficient Image Retrieval

Normalized and Geometry-Aware Self-Attention Network for Image Captioning

AQD: Towards Accurate Quantized Object Detection

Video Event Restoration Based on Keyframes for Video Anomaly Detection

Boosting Verified Training for Robust Image Classifications via Abstraction

Dynamic Focus-Aware Positional Queries for Semantic Segmentation

MOSO: Decomposing MOtion, Scene and Object for Video Prediction

OmniAvatar: Geometry-Guided Controllable 3D Head Synthesis

Adaptive Context Network for Scene Parsing

HAIR: Hierarchical Visual-Semantic Relational Reasoning for Video Question Answering

Scalable Vision Transformers With Hierarchical Pooling

AIDE: A Vision-Driven Multi-View, Multi-Modal, Multi-Tasking Dataset for Assistive Driving Perception

BiViT: Extremely Compressed Binary Vision Transformers

March in Chat: Interactive Prompting for Remote Embodied Referring Expression

LoTE-Animal: A Long Time-span Dataset for Endangered Animal Behavior Understanding

Deep Transferring Quantization

Generative Low-bitwidth Data Free Quantization

Not only Look, but also Listen: Learning Multimodal Violence Detection under Weak Supervision

Dynamic Local Aggregation Network with Adaptive Clusterer for Anomaly Detection

Spatio-Temporal Domain Awareness for Multi-Agent Collaborative Perception

QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge

Efficient Motion-Aware Video MLLM

ZipVL: Accelerating Vision-Language Models through Dynamic Token Sparsity

Learning Beyond Still Frames: Scaling Vision-Language Models with Video

MotionCtrl: A Real-time Controllable Vision-Language-Motion Model

Scaling Omni-modal Pretraining with Multimodal Context: Advancing Universal Representation Learning Across Modalities

COSMO: Combination of Selective Memorization for Low-cost Vision-and-Language Navigation

M2OST: Many-to-one Regression for Predicting Spatial Transcriptomics from Digital Pathology Images

DiMSOD: A Diffusion-Based Framework for Multi-Modal Salient Object Detection

TRAIL: Trust-Aware Client Scheduling for Semi-Decentralized Federated Learning

FedCross: Intertemporal Federated Learning Under Evolutionary Games

Forget to Flourish: Leveraging Machine-Unlearning on Pretrained Language Models for Privacy Leakage

Channel Merging: Preserving Specialization for Merged Experts

Graph Contrastive Learning with Joint Spectral Augmentation of Attribute and Topology

Discrimination-aware Channel Pruning for Deep Neural Networks

EcoFormer: Energy-Saving Attention with Linear Complexity

CoPur: Certifiably Robust Collaborative Inference via Feature Purification

PTQD: Accurate Post-Training Quantization for Diffusion Models

How2comm: Communication-Efficient and Collaboration-Pragmatic Multi-Agent Perception

VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset

GLOBER: Coherent Non-autoregressive Video Generation via GLOBal Guided Video DecodER