Songyang Zhang

22

Papers

33

Total Citations

Papers (22)

UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios

Rethinking Verification for LLM Code Generation: From Generation to Testing

From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models

FedSC: Provable Federated Self-supervised Learning with Spectral Contrastive Objective over Non-i.i.d. Data

Predicting Salient Face in Multiple-Face Videos

Distribution Alignment: A Unified Framework for Long-Tail Visual Recognition

Bipartite Graph Network With Adaptive Message Passing for Unbiased Scene Graph Generation

The Devil Is in the Labels: Noisy Label Correction for Robust Scene Graph Generation

SGTR: End-to-End Scene Graph Generation With Transformer

RIFormer: Keep Your Vision Backbone Effective but Removing Token Mixer

Dynamic Context Correspondence Network for Semantic Alignment

SAT: 2D Semantics Assisted Training for 3D Visual Grounding

Improving Pixel-based MIM by Reducing Wasted Modeling Capability

Part-aware Prototype Network for Few-shot Semantic Segmentation

Expanding Language-Image Pretrained Models for General Video Recognition

Action Quality Assessment with Temporal Parsing Transformer

MUGEN: A Playground for Video-Audio-Text Multimodal Understanding and GENeration

Learning Semantic Correspondence with Sparse Annotations

LiT: Delving into a Simple Linear Diffusion Transformer for Image Generation

DualGFL: Federated Learning with a Dual-Level Coalition-Auction Game

Dynamic Grained Encoder for Vision Transformers

LatentGNN: Learning Efficient Non-local Relations for Visual Recognition