Luo

49

Papers

160

Total Citations

Papers (49)

Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training

Preserving Diversity in Supervised Fine-Tuning of Large Language Models

REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models

Uncertainty-aware sign language video retrieval with probability distribution modeling

Last-Iterate Convergence Properties of Regret-Matching Algorithms in Games

Latent Chain-of-Thought for Visual Reasoning

NeurIPS 2025arXiv

Simultaneous Swap Regret Minimization via KL-Calibration

NeurIPS 2025arXiv

Segment, Lift and Fit: Automatic 3D Shape Labeling from 2D Prompts

FlashSloth : Lightning Multimodal Large Language Models via Embedded Visual Compression

WorldWeaver: Generating Long-Horizon Video Worlds via Rich Perception

NeurIPS 2025arXiv

WeakMCN: Multi-task Collaborative Network for Weakly Supervised Referring Expression Comprehension and Segmentation

Attention! Your Vision Language Model Could Be Maliciously Manipulated

NeurIPS 2025arXiv

DSAS: A Universal Plug-and-Play Framework for Attention Optimization in Multi-Document Question Answering

NeurIPS 2025arXiv

RTop-K: Ultra-Fast Row-Wise Top-K Selection for Neural Network Acceleration on GPUs

SysBench: Can LLMs Follow System Message?

Real-World Reinforcement Learning of Active Perception Behaviors

NeurIPS 2025arXiv

EfficientVLA: Training-Free Acceleration and Compression for Vision-Language-Action Models

NeurIPS 2025arXiv

Chameleon: A Data-Efficient Generalist for Dense Visual Prediction in the Wild

SAMRefiner: Taming Segment Anything Model for Universal Mask Refinement

Interpreting Global Perturbation Robustness of Image Models using Axiomatic Spectral Importance Decomposition

Towards Multiple Character Image Animation Through Enhancing Implicit Decoupling

DeepSeek-Prover-V1.5: Harnessing Proof Assistant Feedback for Reinforcement Learning and Monte-Carlo Tree Search

Self-diffusion for Solving Inverse Problems

NeurIPS 2025arXiv

Knowing Your Target: Target-Aware Transformer Makes Better Spatio-Temporal Video Grounding

Text-Aware Real-World Image Super-Resolution via Diffusion Model with Joint Segmentation Decoders

NeurIPS 2025arXiv

You Only Learn One Query: Learning Unified Human Query for Single-Stage Multi-Person Multi-Task Human-Centric Perception

SPAZER: Spatial-Semantic Progressive Reasoning Agent for Zero-shot 3D Visual Grounding

NeurIPS 2025arXiv

PixArt-Sigma: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation

Dynamic Multimodal Evaluation with Flexible Complexity by Vision-Language Bootstrapping

Adapting to Stochastic and Adversarial Losses in Episodic MDPs with Aggregate Bandit Feedback

NeurIPS 2025arXiv

UniCTokens: Boosting Personalized Understanding and Generation via Unified Concept Tokens

NeurIPS 2025arXiv

Differentiable extensions with rounding guarantees for combinatorial optimization over permutations

NeurIPS 2025arXiv

Removing Rows and Columns of Tokens in Vision Transformer enables Faster Dense Prediction without Retraining

Unleashing Hour-Scale Video Training for Long Video-Language Understanding

NeurIPS 2025arXiv

On Inductive Biases That Enable Generalization in Diffusion Transformers

NeurIPS 2025arXiv

Scalable Decision-Making in Stochastic Environments through Learned Temporal Abstraction

VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning

When Pedestrian Detection Meets Multi-Modal Learning: Generalist Model and Benchmark Dataset

DViN: Dynamic Visual Routing Network for Weakly Supervised Referring Expression Comprehension

When GNNs meet symmetry in ILPs: an orbit-based feature augmentation approach

Unlocking Multimodal Mathematical Reasoning via Process Reward Model

NeurIPS 2025arXiv

FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities

NeurIPS 2025arXiv

FlexPrefill: A Context-Aware Sparse Attention Mechanism for Efficient Long-Sequence Inference

Geometric Algorithms for Neural Combinatorial Optimization with Constraints

NeurIPS 2025arXiv

Multi-Agent Collaboration via Evolving Orchestration

NeurIPS 2025arXiv

Geometry-Aware Approaches for Balancing Performance and Theoretical Guarantees in Linear Bandits

Don’t Forget the Enjoin: FocalLoRA for Instruction Hierarchical Alignment in Large Language Models

CodeMerge: Codebook-Guided Model Merging for Robust Test-Time Adaptation in Autonomous Driving

NeurIPS 2025arXiv

MobileNetV4: Universal Models for the Mobile Ecosystem