ResearchAlpha Leak

Conferences Topics Top Authors Rankings Browse All

Home/Authors/Yi Jiang

Yi Jiang

Topic trends: 31,945 papers · similarity ≥ 0.4 · year ≥ 2024 · Data sourced from Semantic Scholar

34,180 papers | Abstracts: 31,002 (90.7%) | Citations: 34,180 (100.0%) | arXiv: 25,731 (75.3%)

Built: Feb 7, 2026, 9:14 PM AMS

26

papers

564

total citations

papers (26)

Infinity∞: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis

TokenFlow: Unified Image Tokenizer for Multimodal Understanding and Generation

Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models

General Object Foundation Model for Images and Videos at Scale

Goku: Flow Based Video Generative Foundation Models

Enhancing Adversarial Transferability with Adversarial Weight Tuning

InfinityStar: Uniﬁed Spacetime AutoRegressive Modeling for Visual Generation

SA-Occ: Satellite-Assisted 3D Occupancy Prediction in Real World

A Unified Environmental Network for Pedestrian Trajectory Prediction

Generative Region-Language Pretraining for Open-Ended Object Detection

Learning to Segment the Tail

Sparse R-CNN: End-to-End Object Detection With Learnable Proposals

Language As Queries for Referring Video Object Segmentation

DanceTrack: Multi-Object Tracking in Uniform Appearance and Diverse Motion

InstMove: Instance Motion for Object-Centric Video Segmentation

Universal Instance Perception As Object Discovery and Retrieval

EGC: Image Generation and Classification via a Diffusion Energy-Based Model

Segment Every Reference Object in Spatial and Temporal Spaces

Exploring Transformers for Open-world Instance Segmentation

Towards Grand Unification of Object Tracking

ByteTrack: Multi-Object Tracking by Associating Every Detection Box

SeqFormer: Sequential Transformer for Video Instance Segmentation

In Defense of Online Models for Video Instance Segmentation

Multimodal Transformer with Variable-Length Memory for Vision-and-Language Navigation

Rethinking Resolution in the Context of Efficient Video Recognition

NeurIPS 2022arXiv

CoDet: Co-occurrence Guided Region-Word Alignment for Open-Vocabulary Object Detection

NeurIPS 2023arXiv