Jianfei Cai

67

Papers

532

Total Citations

Papers (67)

Learning Progressive Joint Propagation for Human Motion Prediction

HAC: Hash-grid Assisted Context for 3D Gaussian Splatting Compression

Finding It at Another Side: A Viewpoint-Adapted Matching Encoder for Change Captioning

DrVideo: Document Retrieval Based Long Video Understanding

How Far Can We Compress Instant-NGP-Based NeRF?

Diversified and Personalized Multi-rater Medical Image Segmentation

Efficient Stitchable Task Adaptation

Stitched ViTs are Flexible Vision Backbones

McGrids: Monte Carlo-Driven Adaptive Grids for Iso-Surface Extraction

Differentiable Convex Polyhedra Optimization from Multi-view Images

A Generative Model for Depth-Based Robust 3D Facial Pose Tracking

Object Co-Skeletonization With Co-Segmentation

Look, Imagine and Match: Improving Textual-Visual Cross-Modal Retrieval With Generative Models

Alive Caricature From 2D to 3D

Pluralistic Image Completion

Scene Graph Generation With External Knowledge and Image Reconstruction

Auto-Encoding Scene Graphs for Image Captioning

3D Hand Shape and Pose Estimation From a Single RGB Image

Exploring Bottom-Up and Top-Down Cues With Attentive Learning for Webly Supervised Object Detection

End-to-End 3D Point Cloud Instance Segmentation Without Detection

The Spatially-Correlative Loss for Various Image Translation Tasks

RSG: A Simple but Effective Module for Learning Imbalanced Datasets

Causal Attention for Vision-Language Tasks

GMFlow: Learning Optical Flow via Global Matching

Bridging Global Context Interactions for High-Fidelity Image Completion

ProposalCLIP: Unsupervised Open-Category Object Proposal Generation via Exploiting CLIP Cues

Dynamic Focus-Aware Positional Queries for Semantic Segmentation

MARLIN: Masked Autoencoder for Facial Video Representation LearnINg

Transformer Scale Gate for Semantic Segmentation

Stitchable Neural Networks

JRDB-Pose: A Large-Scale Dataset for Multi-Person Pose Estimation and Tracking

MMSS: Multi-Modal Sharable and Specific Feature Learning for RGB-D Object Recognition

An Empirical Study of Language CNN for Image Captioning

Exploiting Spatial-Temporal Relationships for 3D Pose Estimation via Graph Convolutional Networks

Learning to Collocate Neural Modules for Image Captioning

Skeleton-Aware 3D Human Shape Reconstruction From Point Clouds

Unpaired Image Captioning via Scene Graph Alignments

CSG-Stump: A Learning Friendly CSG-Like Representation for Interpretable Shape Parsing

Domain-Invariant Disentangled Network for Generalizable Object Detection

High-Resolution Optical Flow From 1D Attention and Correlation

Learning Meta-Class Memory for Few-Shot Semantic Segmentation

A Unified 3D Human Motion Synthesis Model via Conditional Variational Auto-Encoder

Point-Cache: Test-time Dynamic and Hierarchical Cache for Robust and Generalizable Point Cloud Analysis

Auto-Parsing Network for Image Captioning and Visual Question Answering

ObjectSDF++: Improved Object-Compositional Neural Implicit Surfaces

Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning

Splitting vs. Merging: Mining Object Regions with Discrepancy and Intersection Loss for Weakly Supervised Semantic Segmentation

ExtrudeNet: Unsupervised Inverse Sketch-and-Extrude for Shape Parsing

Sem2NeRF: Converting Single-View Semantic Masks to Neural Radiance Fields

Object-Compositional Neural Implicit Surfaces

Dual Adaptive Transformations for Weakly Supervised Point Cloud Segmentation

Multimodal Transformer with Variable-Length Memory for Vision-and-Language Navigation

Scalable Vision Transformers With Hierarchical Pooling

PanSplat: 4K Panorama Synthesis with Feed-Forward Gaussian Splatting

VLIPP: Towards Physically Plausible Video Generation with Vision and Language Informed Physical Prior

Generative Region-Language Pretraining for Open-Ended Object Detection

Taming Stable Diffusion for Text to 360 Panorama Image Generation

JRDB-PanoTrack: An Open-world Panoptic Segmentation and Tracking Robotic Dataset in Crowded Human Environments

Sharpness-Aware Data Generation for Zero-shot Quantization

Exploit Bounding Box Annotations for Multi-Label Object Recognition

Modality and Component Aware Feature Fusion For RGB-D Scene Classification

MIML-FCN+: Multi-Instance Multi-Label Learning via Fully Convolutional Networks With Privileged Information

Self-Supervised Relationship Probing

EcoFormer: Energy-Saving Attention with Linear Complexity

Fast Vision Transformers with HiLo Attention

MoVQ: Modulating Quantized Vectors for High-Fidelity Image Generation

Generalized Robust Bayesian Committee Machine for Large-scale Gaussian Process Regression