Yibing Song

39

Papers

361

Total Citations

Papers (39)

LLaVA-CoT: Let Vision Language Models Reason Step-by-Step

Image Inpainting via Iteratively Decoupled Probabilistic Modeling

CoT-lized Diffusion: Let's Reinforce T2I Generation Step-by-step

Re-Aligning Language to Visual Objects with an Agentic Workflow

Advancing Textual Prompt Learning with Anchored Attributes

Image Correction via Deep Reciprocating HDR Transformation

Dynamic Scene Deblurring Using Spatially Variant Recurrent Neural Networks

VITAL: VIsual Tracking via Adversarial Learning

MVF-Net: Multi-View 3D Face Morphable Model Regression

Unsupervised Deep Tracking

VideoMoCo: Contrastive Video Representation Learning With Temporally Adversarial Examples

Disentangled Cycle Consistency for Highly-Realistic Virtual Try-On

PD-GAN: Probabilistic Diverse GAN for Image Inpainting

ArtFlow: Unbiased Image Style Transfer via Reversible Neural Flows

Parser-Free Virtual Try-On via Distilling Appearance Flows

DeFLOCNet: Deep Image Editing via Flexible Low-Level Controls

IoU Attack: Towards Temporally Coherent Black-Box Adversarial Attack for Visual Object Tracking

Self-Supervised Learning of Adversarial Example: Towards Good Generalizations for Deepfake Detection

Improved Test-Time Adaptation for Domain Generalization

Delving StyleGAN Inversion for Image Editing: A Foundation Latent Space Viewpoint

Advancing Visual Grounding With Scene Knowledge: Benchmark and Method

CREST: Convolutional Residual Learning for Visual Tracking

Domain Generalization via Rationale Invariance

Both Diverse and Realism Matter: Physical Attribute and Style Alignment for Rainy Image Generation

Bridging Vision and Language Encoders: Parameter-Efficient Tuning for Referring Image Segmentation

Efficient Video Action Detection with Token Dropout and Context Refinement

DiffusionDet: Diffusion Model for Object Detection

Rethinking Image Inpainting via a Mutual Encoder-Decoder with Feature Equalizations

Rethinking Image Deraining via Rain Streaks and Vapors

Robust Tracking against Adversarial Attacks

UPME: An Unsupervised Peer Review Framework for Multimodal Large Language Model Evaluation

A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs

AvatarArtist: Open-Domain 4D Avatarization

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

Deep Attentive Tracking via Reciprocative Learning

VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training

AdaptFormer: Adapting Vision Transformers for Scalable Visual Recognition

OST: Improving Generalization of DeepFake Detection via One-Shot Test-Time Training

One Model to Edit Them All: Free-Form Text-Driven Image Manipulation with Semantic Modulations