Fan Yang

26

Papers

242

Total Citations

Papers (26)

RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval

NeurIPS 2025arXiv

ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning

NeurIPS 2025arXiv

Griffon: Spelling out All Object Locations at Any Granularity with Large Language Models

Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solver

MagicArticulate: Make Your 3D Models Articulation-Ready

CoMM: A Coherent Interleaved Image-Text Dataset for Multimodal Understanding and Generation

Geometry-Guided Domain Generalization for Monocular 3D Object Detection

HEIE: MLLM-Based Hierarchical Explainable AIGC Image Implausibility Evaluator

Oracle-MoE: Locality-preserving Routing in the Oracle Space for Memory-constrained Large Language Model Inference

Libra-Merging: Importance-redundancy and Pruning-merging Trade-off for Acceleration Plug-in in Large Vision-Language Model

MExD: An Expert-Infused Diffusion Model for Whole-Slide Image Classification

Contrasting Adversarial Perturbations: The Space of Harmless Perturbations

3DHumanEdit: Multi-modal Body Part-aware Conditioning Information Integration for 3D Human Manipulation

An Effective Augmented Lagrangian Method for Fine-Grained Multi-View Optimization

Implicit Modeling of Non-rigid Objects with Cross-Category Signals

Multi-Modal Disordered Representation Learning Network for Description-Based Person Search

Sparse Bayesian Deep Learning for Cross Domain Medical Image Reconstruction

Causal-Driven Skill Prerequisite Structure Discovery

AttriHuman-3D: Editable 3D Human Avatar Generation with Attribute Decomposition and Indexing

FlowDiffuser: Advancing Optical Flow Estimation with Diffusion Models

Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior

LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens

TVE: Learning Meta-attribution for Transferable Vision Explainer

The Source Image is the Best Attention for Infrared and Visible Image Fusion

Finite-Time Convergence and Sample Complexity of Actor-Critic Multi-Objective Reinforcement Learning

Griffon v2: Advancing Multimodal Perception with High-Resolution Scaling and Visual-Language Co-Referring