Sun

41

Papers

802

Total Citations

Papers (41)

Advancing LLM Reasoning Generalists with Preference Trees

VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

NeurIPS 2025arXiv

VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents

Physics-Informed Diffusion Models

TOD3Cap: Towards 3D Dense Captioning in Outdoor Scenes

Vamos: Versatile Action Models for Video Understanding

Preserving Diversity in Supervised Fine-Tuning of Large Language Models

Multi-Agent Collaboration via Evolving Orchestration

NeurIPS 2025arXiv

Prioritized Semantic Learning for Zero-shot Instance Navigation

Intervening Anchor Token: Decoding Strategy in Alleviating Hallucinations for MLLMs

EditShield: Protecting Unauthorized Image Editing by Instruction-guided Diffusion Models

VITA-Audio: Fast Interleaved Audio-Text Token Generation for Efficient Large Speech-Language Model

NeuSDFusion: A Spatial-Aware Generative Model for 3D Shape Completion, Reconstruction, and Generation

Adversarial Locomotion and Motion Imitation for Humanoid Policy Learning

NeurIPS 2025arXiv

Genesis: Multimodal Driving Scene Generation with Spatio-Temporal and Cross-Modal Consistency

NeurIPS 2025arXiv

How new data permeates LLM knowledge and how to dilute it

HyGen: Efficient LLM Serving via Elastic Online-Offline Request Co-location

NeurIPS 2025arXiv

Long-range Turbulence Mitigation: A Large-scale Dataset and A Coarse-to-fine Framework

Segment, Lift and Fit: Automatic 3D Shape Labeling from 2D Prompts

IGL-Bench: Establishing the Comprehensive Benchmark for Imbalanced Graph Learning

Exploring Reliable Matching with Phase Enhancement for Night-time Semantic Segmentation

The Overthinker's DIET: Cutting Token Calories with DIfficulty-AwarE Training

NeurIPS 2025arXiv

Incentivizing Reasoning for Advanced Instruction-Following of Large Language Models

NeurIPS 2025arXiv

Transformer brain encoders explain human high-level visual responses

NeurIPS 2025arXiv

ParamMute: Suppressing Knowledge-Critical FFNs for Faithful Retrieval-Augmented Generation

NeurIPS 2025arXiv

Triplets Better Than Pairs: Towards Stable and Effective Self-Play Fine-Tuning for LLMs

NeurIPS 2025arXiv

Avoiding exp(R) scaling in RLHF through Preference-based Exploration

Lagrangian Hashing for Compressed Neural Field Representations

Teaching Language Models to Reason with Tools

NeurIPS 2025arXiv

Learning Where to Look: Self-supervised Viewpoint Selection for Active Localization using Geometrical Information

PINP: Physics-Informed Neural Predictor with latent estimation of fluid flows

CLDyB: Towards Dynamic Benchmarking for Continual Learning with Pre-trained Models

EA3D: Online Open-World 3D Object Extraction from Streaming Videos

NeurIPS 2025arXiv

Multimodal Label Relevance Ranking via Reinforcement Learning

FRBNet: Revisiting Low-Light Vision through Frequency-Domain Radial Basis Network

NeurIPS 2025arXiv

UnCLe: Towards Scalable Dynamic Causal Discovery in Non-linear Temporal Systems

NeurIPS 2025arXiv

Conservative classifiers do consistently well with improving agents: characterizing statistical and online learning

NeurIPS 2025arXiv

Conditional Representation Learning for Customized Tasks

NeurIPS 2025arXiv

Enhancing Training Data Attribution with Representational Optimization

NeurIPS 2025arXiv

PCA++: How Uniformity Induces Robustness to Background Noise in Contrastive Learning

NeurIPS 2025arXiv

Toward a Unified Geometry Understanding : Riemannian Diffusion Framework for Graph Generation and Prediction

NeurIPS 2025arXiv