Danny Yin

6

Papers

714

Total Citations

Papers (6)

VILA: On Pre-training for Visual Language Models

VILA-M3: Enhancing Vision-Language Models with Medical Expert Knowledge

Scaling Vision Pre-Training to 4K Resolution

NVILA: Efficient Frontier Visual Language Models

RADIOv2.5: Improved Baselines for Agglomerative Vision Foundation Models

RegionGPT: Towards Region Understanding Vision Language Model