Tong Wu

30

Papers

106

Total Citations

Papers (30)

GPT4Point: A Unified Framework for Point-Language Understanding and Generation

IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations

FSFM: A Generalizable Face Security Foundation Model via Self-Supervised Facial Representation Learning

GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography

HiFlow: Training-free High-Resolution Image Generation with Flow-Aligned Guidance

Sensing Surface Patches in Volume Rendering for Inferring Signed Distance Functions

Bootstrap3D: Improving Multi-view Diffusion Model with Synthetic Data

ReliabilityRAG: Effective and Provably Robust Defense for RAG-based Web-Search

Alpha-CLIP: A CLIP Model Focusing on Wherever You Want

Adversarial Robustness Under Long-Tailed Distribution

Embedded Discriminative Attention Mechanism for Weakly Supervised Semantic Segmentation

Towards Evaluating and Training Verifiably Robust Neural Networks

OmniObject3D: Large-Vocabulary 3D Object Dataset for Realistic Perception, Reconstruction and Generation

SLAN: Self-Locator Aided Network for Vision-Language Understanding

V3Det: Vast Vocabulary Visual Detection Dataset

Distribution-Balanced Loss for Multi-Label Classification in Long-Tailed Datasets

Caption-Supervised Face Recognition: Training a State-of-the-Art Face Model without Manual Annotation

Adaptive Spatial-BCE Loss for Weakly Supervised Semantic Segmentation

GPT-4V(ision) is a Human-Aligned Evaluator for Text-to-3D Generation

3DTopia-XL: Scaling High-quality 3D Asset Generation via Primitive Diffusion

OmniMMI: A Comprehensive Multi-modal Interaction Benchmark in Streaming Video Contexts

ByTheWay: Boost Your Text-to-Video Generation Model to Higher Quality in a Training-free Way

Light-A-Video: Training-free Video Relighting via Progressive Light Fusion

X-Prompt: Generalizable Auto-Regressive Visual Learning with In-Context Prompting

An Efficient Hybrid Vision Transformer for TinyML Applications

EventPillars: Pillar-based Efficient Representations for Event Data

Few-Shot Object Detection via Association and DIscrimination

Balanced Chamfer Distance as a Comprehensive Metric for Point Cloud Completion

A Randomized Approach to Tight Privacy Accounting

AR-Diffusion: Auto-Regressive Diffusion Model for Text Generation