Fan Zhang

22

Papers

1,483

Total Citations

Papers (22)

VBench: Comprehensive Benchmark Suite for Video Generative Models

Generative Multimodal Models are In-Context Learners

Atlantis: Enabling Underwater Depth Estimation with Stable Diffusion

HIIF: Hierarchical Encoding based Implicit Image Function for Continuous Super-resolution

UltraFusion: Ultra High Dynamic Imaging using Exposure Fusion

ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models

Fine-grained Prototypical Voting with Heterogeneous Mixup for Semi-supervised 2D-3D Cross-modal Retrieval

HumanSAM: Classifying Human-centric Forgery Videos in Human Spatial, Appearance, and Motion Anomaly

CULTURE3D: A Large-Scale and Diverse Dataset of Cultural Landmarks and Terrains for Gaussian-Based Scene Rendering

AdaptiveAE: An Adaptive Exposure Strategy for HDR Capturing in Dynamic Scenes

PNVC: Towards Practical INR-based Video Compression

SGTC: Semantic-Guided Triplet Co-training for Sparsely Annotated Semi-Supervised Medical Image Segmentation

DREAM: Decoupled Discriminative Learning with Bigraph-aware Alignment for Semi-supervised 2D-3D Cross-modal Retrieval

LDMVFI: Video Frame Interpolation with Latent Diffusion Models

GIViC: Generative Implicit Video Compression

LTGC: Long-tail Recognition via Leveraging LLMs-driven Generated Content

CapsFusion: Rethinking Image-Text Data at Scale

GauUpdate: New Object Insertion in 3D Gaussian Fields with Consistent Global Illumination

Subspace Constraint and Contribution Estimation for Heterogeneous Federated Learning

OneGT: One-Shot Geometry-Texture Neural Rendering for Head Avatars

Blind Video Super-Resolution based on Implicit Kernels

HOT3D: Hand and Object Tracking in 3D from Egocentric Multi-View Videos