Lin

49

Papers

2,051

Total Citations

Papers (49)

OpenHands: An Open Platform for AI Software Developers as Generalist Agents

An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models

GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image

SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines

NeurIPS 2025arXiv

Data Scaling Laws in Imitation Learning for Robotic Manipulation

Tamper-Resistant Safeguards for Open-Weight LLMs

MeshAnything: Artist-Created Mesh Generation with Autoregressive Transformers

RegMix: Data Mixture as Regression for Language Model Pre-training

Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning

NeurIPS 2025arXiv

ImgEdit: A Unified Image Editing Dataset and Benchmark

NeurIPS 2025arXiv

MM-EMBED: UNIVERSAL MULTIMODAL RETRIEVAL WITH MULTIMODAL LLMS

3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation

Theory on Mixture-of-Experts in Continual Learning

Dynamic Mixture of Experts: An Auto-Tuning Approach for Efficient Transformer Models

Unlocking Multimodal Mathematical Reasoning via Process Reward Model

NeurIPS 2025arXiv

Fast Feedforward 3D Gaussian Splatting Compression

Text-to-Image Rectified Flow as Plug-and-Play Priors

HENet: Hybrid Encoding for End-to-end Multi-task 3D Perception from Multi-view Cameras

Vision-Language Action Knowledge Learning for Semantic-Aware Action Quality Assessment

Mixture of Efficient Diffusion Experts Through Automatic Interval and Sub-Network Selection

Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation

JarvisArt: Liberating Human Artistic Creativity via an Intelligent Photo Retouching Agent

NeurIPS 2025arXiv

RobuRCDet: Enhancing Robustness of Radar-Camera Fusion in Bird's Eye View for 3D Object Detection

CPathAgent: An Agent-based Foundation Model for Interpretable High-Resolution Pathology Image Analysis Mimicking Pathologists' Diagnostic Logic

NeurIPS 2025arXiv

DiffGAD: A Diffusion-based Unsupervised Graph Anomaly Detector

VLA-OS: Structuring and Dissecting Planning Representations and Paradigms in Vision-Language-Action Models

NeurIPS 2025arXiv

DataMan: Data Manager for Pre-training Large Language Models

A Spark of Vision-Language Intelligence: 2-Dimensional Autoregressive Transformer for Efficient Finegrained Image Generation

RTV-Bench: Benchmarking MLLM Continuous Perception, Understanding and Reasoning through Real-Time Video

NeurIPS 2025arXiv

Conditional Diffusion Models are Minimax-Optimal and Manifold-Adaptive for Conditional Distribution Estimation

Fact-R1: Towards Explainable Video Misinformation Detection with Deep Reasoning

NeurIPS 2025arXiv

SEPARATE: A Simple Low-rank Projection for Gradient Compression in Modern Large-scale Model Training Process

ALTo: Adaptive-Length Tokenizer for Autoregressive Mask Generation

NeurIPS 2025arXiv

Hierachical Balance Packing: Towards Efficient Supervised Fine-tuning for Long-Context LLM

DAWN: Dynamic Frame Avatar with Non-autoregressive Diffusion Framework for Talking head Video Generation

Teaching Language Models to Reason with Tools

NeurIPS 2025arXiv

Local-Global Associative Frames for Symmetry-Preserving Crystal Structure Modeling

NeurIPS 2025arXiv

Distilled Decoding 2: One-step Sampling of Image Auto-regressive Models with Conditional Score Distillation

NeurIPS 2025arXiv

RobotSmith: Generative Robotic Tool Design for Acquisition of Complex Manipulation Skills

NeurIPS 2025arXiv

Exploring Polyglot Harmony: On Multilingual Data Allocation for Large Language Models Pretraining

NeurIPS 2025arXiv

Posterior Contraction for Sparse Neural Networks in Besov Spaces with Intrinsic Dimensionality

NeurIPS 2025arXiv

Bi-Level Decision-Focused Causal Learning for Large-Scale Marketing Optimization: Bridging Observational and Experimental Data

NeurIPS 2025arXiv

PlanU: Large Language Model Reasoning through Planning under Uncertainty

NeurIPS 2025arXiv

TrajMamba: An Efficient and Semantic-rich Vehicle Trajectory Pre-training Model

NeurIPS 2025arXiv

Improving Model Representation and Reducing KV Cache via Skip Connections with First Value Heads

NeurIPS 2025arXiv

Masked Temporal Interpolation Diffusion for Procedure Planning in Instructional Videos

EMLoC: Emulator-based Memory-efficient Fine-tuning with LoRA Correction

NeurIPS 2025arXiv

Sampled Estimators For Softmax Must Be Biased

Towards Physics-informed Spatial Intelligence with Human Priors: An Autonomous Driving Pilot Study

NeurIPS 2025arXiv