Yang Jin

8

Papers

6

Total Citations

Papers (8)

TransGOP: Transformer-Based Gaze Object Prediction

Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization

Beyond Short-Term Snippet: Video Relation Detection With Spatio-Temporal Global Context

Complex Video Action Reasoning via Learnable Markov Logic Network

Learning Instance-Level Representation for Large-Scale Multi-Modal Pretraining in E-Commerce

Video Action Segmentation via Contextually Refined Temporal Keypoints

Granularity-Adaptive Spatial Evidence Tokenization for Video Question Answering

Embracing Consistency: A One-Stage Approach for Spatio-Temporal Video Grounding