Tsung-Yi Lin

29

Papers

270

Total Citations

Papers (29)

CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models

Visual Fact Checker: Enabling High-Fidelity Detailed Caption Generation

Efficient Part-level 3D Object Generation via Dual Volume Packing

NeurIPS 2025arXiv

Dynamic Camera Poses and Where to Find Them

Articulated Kinematics Distillation from Video Diffusion Models

MnasFPN: Learning Latency-Aware Pyramid Architecture for Object Detection on Mobile Devices

SpineNet: Learning Scale-Permuted Backbone for Recognition and Localization

Bottleneck Transformers for Visual Recognition

Simple Copy-Paste Is a Strong Data Augmentation Method for Instance Segmentation

Magic3D: High-Resolution Text-to-3D Content Creation

Focal Loss for Dense Object Detection

ShapeMask: Learning to Segment Novel Objects by Refining Shape Priors

Multi-Task Self-Training for Learning General Representations

Patch2CAD: Patchwise Embedding Learning for In-the-Wild Shape Retrieval From a Single Image

ATT3D: Amortized Text-to-3D Object Synthesis

Mask2CAD: 3D Shape Prediction by Learning to Segment and Retrieve

Efficient Scale-Permuted Backbone with Learned Resource Distribution

Learning Data Augmentation Strategies for Object Detection

A Simple Single-Scale Vision Transformer for Object Detection and Instance Segmentation

Scaling Open-Vocabulary Image Segmentation with Image-Level Labels

HMAR: Efficient Hierarchical Masked Auto-Regressive Image Generation

Learning Deep Representations for Ground-to-Aerial Geolocalization

Feature Pyramid Networks for Object Detection

NAS-FPN: Learning Scalable Feature Pyramid Architecture for Object Detection

Class-Balanced Loss Based on Effective Number of Samples

DropBlock: A regularization method for convolutional networks

Rethinking Pre-training and Self-training

Revisiting ResNets: Improved Training and Scaling Strategies

A Unified Sequence Interface for Vision Tasks