Luo

33

Papers

380

Total Citations

Papers (33)

stagNet: An Attentive Semantic RNN for Group Activity Recognition

Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training

FlexPrefill: A Context-Aware Sparse Attention Mechanism for Efficient Long-Sequence Inference

Unlocking Multimodal Mathematical Reasoning via Process Reward Model

NeurIPS 2025arXiv

Multi-Agent Collaboration via Evolving Orchestration

NeurIPS 2025arXiv

FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities

NeurIPS 2025arXiv

Uncertainty-aware sign language video retrieval with probability distribution modeling

Segment, Lift and Fit: Automatic 3D Shape Labeling from 2D Prompts

Simultaneous Swap Regret Minimization via KL-Calibration

NeurIPS 2025arXiv

FlashSloth : Lightning Multimodal Large Language Models via Embedded Visual Compression

Attention! Your Vision Language Model Could Be Maliciously Manipulated

NeurIPS 2025arXiv

WeakMCN: Multi-task Collaborative Network for Weakly Supervised Referring Expression Comprehension and Segmentation

Geometry-Aware Approaches for Balancing Performance and Theoretical Guarantees in Linear Bandits

When GNNs meet symmetry in ILPs: an orbit-based feature augmentation approach

Learning and Matching Multi-View Descriptors for Registration of Point Clouds

Bi-Real Net: Enhancing the Performance of 1-bit CNNs with Improved Representational Capability and Advanced Training Algorithm

Video Re-localization

GeoDesc: Learning Local Descriptors by Integrating Geometry Constraints

Two at Once: Enhancing Learning and Generalization Capacities via IBN-Net

Macro-Micro Adversarial Network for Human Parsing

DViN: Dynamic Visual Routing Network for Weakly Supervised Referring Expression Comprehension

Geometric Algorithms for Neural Combinatorial Optimization with Constraints

NeurIPS 2025arXiv

Don’t Forget the Enjoin: FocalLoRA for Instruction Hierarchical Alignment in Large Language Models

VQA-E: Explaining, Elaborating, and Enhancing Your Answers for Visual Questions

MVSNet: Depth Inference for Unstructured Multi-view Stereo

StarMap for Category-Agnostic Keypoint and Viewpoint Estimation

Acquisition of Localization Confidence for Accurate Object Detection

``Factual'' or ``Emotional'': Stylized Image Captioning with Adaptive Learning and Attention

Graph Distillation for Action Detection with Privileged Modalities

DF-Net: Unsupervised Joint Learning of Depth and Flow using Cross-Task Consistency

Learning to Navigate for Fine-grained Classification

Deep Volumetric Video From Very Sparse Multi-View Performance Capture

Unsupervised Domain Adaptation for 3D Keypoint Estimation via View Consistency