Yu-Chiang Frank Wang

18

Papers

88

Total Citations

Papers (18)

SAM4MLLM: Enhance Multi-Modal Large Language Model for Referring Expression Segmentation

Select and Distill: Selective Dual-Teacher Knowledge Transfer for Continual Learning on Vision-Language Models

Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks

Seg2Reg: Differentiable 2D Segmentation to 1D Regression Rendering for 360 Room Layout Reconstruction

RAPPER: Reinforced Rationale-Prompted Paradigm for Natural Language Explanation in Visual Question Answering

Segment Anything, Even Occluded

UWAV: Uncertainty-weighted Weakly-supervised Audio-Visual Video Parsing

Mosaic3D: Foundation Dataset and Model for Open-Vocabulary 3D Segmentation

VideoMage: Multi-Subject and Motion Customization of Text-to-Video Diffusion Models

Continual Personalization for Diffusion Models

EMLoC: Emulator-based Memory-efficient Fine-tuning with LoRA Correction

NeurIPS 2025arXiv

Language-Guided Transformer for Federated Multi-Label Classification

GSNeRF: Generalizable Semantic Neural Radiance Fields with Enhanced 3D Scene Understanding

Bias in Gender Bias Benchmarks: How Spurious Features Distort Evaluation

VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models

3D Gaussian Inpainting with Depth-Guided Cross-View Consistency

Dr. Splat: Directly Referring 3D Gaussian Splatting via Direct Language Embedding Registration

Sparse Voxels Rasterization: Real-time High-fidelity Radiance Field Rendering