Jiashi Feng

19

Papers

571

Total Citations

Papers (19)

MagicAnimate: Temporally Consistent Human Image Animation using Diffusion Model

Dora: Sampling and Benchmarking for 3D Shape Variational Auto-Encoders

Prompting Depth Anything for 4K Resolution Accurate Metric Depth Estimation

DiG: Scalable and Efficient Diffusion Models with Gated Linear Attention

VideoWorld: Exploring Knowledge Learning from Unlabeled Videos

GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation

The Scalability of Simplicity: Empirical Analysis of Vision-Language Learning with a Single Transformer

Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation

MagicArticulate: Make Your 3D Models Articulation-Ready

AdjointDPM: Adjoint Sensitivity Method for Gradient Backpropagation of Diffusion Probabilistic Models

Flash-VStream: Efficient Real-Time Understanding for Long Video Streams

QK-Edit: Revisiting Attention-based Injection in MM-DiT for Image and Video Editing

Parallelized Autoregressive Visual Generation

Video Depth Anything: Consistent Depth Estimation for Super-Long Videos

MV-Adapter: Multimodal Video Transfer Learning for Video Text Retrieval

PixelLM: Pixel Reasoning with Large Multimodal Model

Video Recognition in Portrait Mode

Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data

VISTA-LLAMA: Reducing Hallucination in Video Language Models via Equal Distance to Visual Tokens