Letian Zhang

6

Papers

11

Total Citations

Papers (6)

Oasis: One Image is All You Need for Multimodal Instruction Data Synthesis

EvdCLIP: Improving Vision-Language Retrieval with Entity Visual Descriptions from Large Language Models

LoRA-FAIR: Federated LoRA Fine-Tuning with Aggregation and Initialization Refinement

FedEL: Federated Elastic Learning for Heterogeneous Devices

Pre-Trained Vision-Language Models as Noisy Partial Annotators

What If the TV Was Off? Examining Counterfactual Reasoning Abilities of Multi-modal Language Models