Vishal M. Patel

23

Papers

237

Total Citations

Papers (23)

JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation

View-decoupled Transformer for Person Re-identification under Aerial-ground Camera Network

Distilling Multi-modal Large Language Models for Autonomous Driving

MonoDiff: Monocular 3D Object Detection and Pose Estimation with Diffusion Models

Lux Post Facto: Learning Portrait Performance Relighting with Conditional Video Diffusion and a Hybrid Dataset

Open Vision Reasoner: Transferring Linguistic Cognitive Behavior for Visual Reasoning

LQMFormer: Language-aware Query Mask Transformer for Referring Image Segmentation

AWRaCLe: All-Weather Image Restoration Using Visual In-Context Learning

The Power of Context: How Multimodality Improves Image Super-Resolution

STEREO: A Two-Stage Framework for Adversarially Robust Concept Erasing from Text-to-Image Diffusion Models

Leveraging Thermal Modality to Enhance Reconstruction in Low-Light Conditions

GenDeg: Diffusion-based Degradation Synthesis for Generalizable All-In-One Image Restoration

Perception in Reflection

Equivariant Spatio-Temporal Self-Supervision for LiDAR Object Detection

SyncNoise: Geometrically Consistent Noise Prediction for Instruction-based 3D Editing

CrowdDiff: Multi-hypothesis Crowd Density Estimation using Diffusion Models

Holo-Relighting: Controllable Volumetric Portrait Relighting from a Single Image

SINR: Sparsity Driven Compressed Implicit Neural Representations

CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster Image Generation

Filter Images First, Generate Instructions Later: Pre-Instruction Data Selection for Visual Instruction Tuning

SegFace: Face Segmentation of Long-Tail Classes

Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models

MIRE: Matched Implicit Neural Representations