Sifei Liu

15

Papers

74

Total Citations

Papers (15)

Describe Anything: Detailed Localized Image and Video Captioning

BlobGEN-Vid: Compositional Text-to-Video Generation with Blob Video Representations

Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks

Parallel Sequence Modeling via Generalized Spatial Propagation Network

3D-SPATIAL MULTIMODAL MEMORY

NVILA: Efficient Frontier Visual Language Models

Token-Efficient VLM: High-Resolution Image Understanding via Dynamic Region Proposal

Scaling Vision Pre-Training to 4K Resolution

COLMAP-Free 3D Gaussian Splatting

RegionGPT: Towards Region Understanding Vision Language Model

A Unified Approach for Text- and Image-guided 4D Scene Generation

HOIDiffusion: Generating Realistic 3D Hand-Object Interaction Data

Communication-Efficient Collaborative Perception via Information Filling with Codebook

RGBD Objects in the Wild: Scaling Real-World 3D Object Learning from RGB-D Videos

Compositional Text-to-Image Generation with Dense Blob Representations