Yang

141

Papers

2,551

Total Citations

Papers (141)

MobileNetV4: Universal Models for the Mobile Ecosystem

OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation

MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large Language Models

DeepSeek-Prover-V1.5: Harnessing Proof Assistant Feedback for Reinforcement Learning and Monte-Carlo Tree Search

SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines

NeurIPS 2025arXiv

SWE-bench Multimodal: Do AI Systems Generalize to Visual Software Domains?

ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation

CATCH: Channel-Aware Multivariate Time Series Anomaly Detection via Frequency Patching

IntrinsicAnything: Learning Diffusion Priors for Inverse Rendering Under Unknown Illumination

Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology

Shot2Story: A New Benchmark for Comprehensive Understanding of Multi-shot Videos

Ferret-UI 2: Mastering Universal User Interface Understanding Across Platforms

Trajectory attention for fine-grained video motion control

Sparse Meets Dense: Unified Generative Recommendations with Cascaded Sparse-Dense Representations

NeurIPS 2025arXiv

Pyramid Diffusion for Fine 3D Large Scene Generation

Direct3D-S2: Gigascale 3D Generation Made Easy with Spatial Sparse Attention

NeurIPS 2025arXiv

EfficientVLA: Training-Free Acceleration and Compression for Vision-Language-Action Models

NeurIPS 2025arXiv

Unlocking Multimodal Mathematical Reasoning via Process Reward Model

NeurIPS 2025arXiv

Streaming Video Understanding and Multi-round Interaction with Memory-enhanced Knowledge

Improving Retrieval-Augmented Generation through Multi-Agent Reinforcement Learning

NeurIPS 2025arXiv

Representation Entanglement for Generation: Training Diffusion Transformers Is Much Easier Than You Think

NeurIPS 2025arXiv

CAT-3DGS: A Context-Adaptive Triplane Approach to Rate-Distortion-Optimized 3DGS Compression

Multi-Agent Collaboration via Evolving Orchestration

NeurIPS 2025arXiv

KVLink: Accelerating Large Language Models via Efficient KV Cache Reuse

NeurIPS 2025arXiv

FocusDiffuser: Perceiving Local Disparities for Camouflaged Object Detection

Language Imbalance Driven Rewarding for Multilingual Self-improving

rStar-Coder: Scaling Competitive Code Reasoning with a Large-Scale Verified Dataset

NeurIPS 2025arXiv

Towards a General Time Series Anomaly Detector with Adaptive Bottlenecks and Dual Adversarial Decoders

HENet: Hybrid Encoding for End-to-end Multi-task 3D Perception from Multi-view Cameras

Emerging Safety Attack and Defense in Federated Instruction Tuning of Large Language Models

SELF-EVOLVED REWARD LEARNING FOR LLMS

Raw2Drive: Reinforcement Learning with Aligned World Models for End-to-End Autonomous Driving (in CARLA v2)

NeurIPS 2025arXiv

No Preference Left Behind: Group Distributional Preference Optimization

Diffusion Model is a Good Pose Estimator from 3D RF-Vision

Interpretable Bilingual Multimodal Large Language Model for Diverse Biomedical Tasks

PARE-Net: Position-Aware Rotation-Equivariant Networks for Robust Point Cloud Registration

Multiverse: Your Language Models Secretly Decide How to Parallelize and Merge Generation

NeurIPS 2025arXiv

TP2O: Creative Text Pair-to-Object Generation using Balance Swap-Sampling

Beyond Single Concept Vector: Modeling Concept Subspace in LLMs with Gaussian Distribution

Taming Latent Diffusion Model for Neural Radiance Field Inpainting

APE: Faster and Longer Context-Augmented Generation via Adaptive Parallel Encoding

Spiking Vision Transformer with Saccadic Attention

Quantized Spike-driven Transformer

Layout-your-3D: Controllable and Precise 3D Generation with 2D Blueprint

ReGenesis: LLMs can Grow into Reasoning Generalists via Self-Improvement

SPORTU: A Comprehensive Sports Understanding Benchmark for Multimodal Large Language Models

MICDrop: Masking Image and Depth Features via Complementary Dropout for Domain-Adaptive Semantic Segmentation

SuperCorrect: Advancing Small LLM Reasoning with Thought Template Distillation and Self-Correction

GeoLLaVA-8K: Scaling Remote-Sensing Multimodal Large Language Models to 8K Resolution

NeurIPS 2025arXiv

Transformer Copilot: Learning from The Mistake Log in LLM Fine-tuning

NeurIPS 2025arXiv

Part2Object: Hierarchical Unsupervised 3D Instance Segmentation

Unrolled Decomposed Unpaired Learning for Controllable Low-Light Video Enhancement

Beyond Graphs: Can Large Language Models Comprehend Hypergraphs?

CountFormer: Multi-View Crowd Counting Transformer

Enhancing Time Series Forecasting through Selective Representation Spaces: A Patch Perspective

NeurIPS 2025arXiv

SAMRefiner: Taming Segment Anything Model for Universal Mask Refinement

GenView: Enhancing View Quality with Pretrained Generative Model for Self-Supervised Learning

DataMan: Data Manager for Pre-training Large Language Models

GC4NC: A Benchmark Framework for Graph Condensation on Node Classification with New Insights

NeurIPS 2025arXiv

Mitigating Memorization in Language Models

PanTS: The Pancreatic Tumor Segmentation Dataset

NeurIPS 2025arXiv

Measuring what Matters: Construct Validity in Large Language Model Benchmarks

NeurIPS 2025arXiv

RobuRCDet: Enhancing Robustness of Radar-Camera Fusion in Bird's Eye View for 3D Object Detection

CPathAgent: An Agent-based Foundation Model for Interpretable High-Resolution Pathology Image Analysis Mimicking Pathologists' Diagnostic Logic

NeurIPS 2025arXiv

Human Simulacra: Benchmarking the Personification of Large Language Models

Learning Robust Spectral Dynamics for Temporal Domain Generalization

NeurIPS 2025arXiv

PostCast: Generalizable Postprocessing for Precipitation Nowcasting via Unsupervised Blurriness Modeling

S4M: S4 for multivariate time series forecasting with Missing values

Learning Chaos In A Linear Way

OSDA Agent: Leveraging Large Language Models for De Novo Design of Organic Structure Directing Agents

TaskGalaxy: Scaling Multi-modal Instruction Fine-tuning with Tens of Thousands Vision Task Types

Structured Linear CDEs: Maximally Expressive and Parallel-in-Time Sequence Models

NeurIPS 2025arXiv

Weakly Supervised Co-training with Swapping Assignments for Semantic Segmentation

On Extending Direct Preference Optimization to Accommodate Ties

NeurIPS 2025arXiv

Learning Spatial-Semantic Features for Robust Video Object Segmentation

Neural Metamorphosis

Self-Cooperation Knowledge Distillation for Novel Class Discovery

Learning Pseudo 3D Guidance for View-consistent Texturing with 2D Diffusion

EconGym: A Scalable AI Testbed with Diverse Economic Tasks

NeurIPS 2025arXiv

FALCON: An ML Framework for Fully Automated Layout-Constrained Analog Circuit Design

NeurIPS 2025arXiv

On the Learn-to-Optimize Capabilities of Transformers in In-Context Sparse Recovery

MIRA: Medical Time Series Foundation Model for Real-World Health Data

NeurIPS 2025arXiv

WALL-E: World Alignment by NeuroSymbolic Learning improves World Model-based LLM Agents

Noise Calibration: Plug-and-play Content-Preserving Video Enhancement using Pre-trained Video Diffusion Models

Distilling Knowledge from Large-Scale Image Models for Object Detection

AdaLRS: Loss-Guided Adaptive Learning Rate Search for Efficient Foundation Model Pretraining

NeurIPS 2025arXiv

Longer Context, Deeper Thinking: Uncovering the Role of Long-Context Ability in Reasoning

NeurIPS 2025arXiv

Who You Are Matters: Bridging Interests and Social Roles via LLM-Enhanced Logic Recommendation

AceSearcher: Bootstrapping Reasoning and Search for LLMs via Reinforced Self-Play

NeurIPS 2025arXiv

VideoVLA: Video Generators Can Be Generalizable Robot Manipulators

NeurIPS 2025arXiv

DexFlyWheel: A Scalable and Self-improving Data Generation Framework for Dexterous Manipulation

NeurIPS 2025arXiv

CrossAD: Time Series Anomaly Detection with Cross-scale Associations and Cross-window Modeling

NeurIPS 2025arXiv

Rethinking Circuit Completeness in Language Models: AND, OR, and ADDER Gates

NeurIPS 2025arXiv

TC-Light: Temporally Coherent Generative Rendering for Realistic World Transfer

NeurIPS 2025arXiv

DUALFormer: Dual Graph Transformer

Physics-aligned field reconstruction with diffusion bridge

Kronecker Mask and Interpretive Prompts are Language-Action Video Learners

Reading Recognition in the Wild

NeurIPS 2025arXiv

See through the Dark: Learning Illumination-affined Representations for Nighttime Occupancy Prediction

NeurIPS 2025arXiv

Image Editing As Programs with Diffusion Models

NeurIPS 2025arXiv

Environment Inference for Learning Generalizable Dynamical System

NeurIPS 2025arXiv

Unleashing the Potential of Multimodal LLMs for Zero-Shot Spatio-Temporal Video Grounding

NeurIPS 2025arXiv

Online Video Quality Enhancement with Spatial-Temporal Look-up Tables

MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs

NeurIPS 2025arXiv

Multi-Task Domain Adaptation for Language Grounding with 3D Objects

Dendritic Resonate-and-Fire Neuron for Effective and Efficient Long Sequence Modeling

NeurIPS 2025arXiv

ObscuraCoder: Powering Efficient Code LM Pre-Training Via Obfuscation Grounding

Enhance Multi-View Classification Through Multi-Scale Alignment and Expanded Boundary

EA3D: Online Open-World 3D Object Extraction from Streaming Videos

NeurIPS 2025arXiv

Self-diffusion for Solving Inverse Problems

NeurIPS 2025arXiv

Decentralized Dynamic Cooperation of Personalized Models for Federated Continual Learning

NeurIPS 2025arXiv

Self-Supervised Contrastive Learning is Approximately Supervised Contrastive Learning

NeurIPS 2025arXiv

MetaGS: A Meta-Learned Gaussian-Phong Model for Out-of-Distribution 3D Scene Relighting

NeurIPS 2025arXiv

KnowMol: Advancing Molecular Large Language Models with Multi-Level Chemical Knowledge

NeurIPS 2025arXiv

Blackbox Model Provenance via Palimpsestic Membership Inference

NeurIPS 2025arXiv

Risk-aware Direct Preference Optimization under Nested Risk Measure

NeurIPS 2025arXiv

Dependency-aware Differentiable Neural Architecture Search

Unlabeled Data Can Provably Enhance In-Context Learning of Transformers

NeurIPS 2025arXiv

R2Det: Exploring Relaxed Rotation Equivariance in 2D Object Detection

X-Field: A Physically Informed Representation for 3D X-ray Reconstruction

$\Delta \mathrm{Energy}$: Optimizing Energy Change During Vision-Language Alignment Improves both OOD Detection and OOD Generalization

Enhancing Training Data Attribution with Representational Optimization

NeurIPS 2025arXiv

Information Retrieval Induced Safety Degradation in AI Agents

NeurIPS 2025arXiv

Private Mechanism Design via Quantile Estimation

Sketching for Convex and Nonconvex Regularized Least Squares with Sharp Guarantees

Deployment Efficient Reward-Free Exploration with Linear Function Approximation

GraphChain: Large Language Models for Large-scale Graph Analysis via Tool Chaining

NeurIPS 2025arXiv

Hybrid Boundary Physics-Informed Neural Networks for Solving Navier-Stokes Equations with Complex Boundary

NeurIPS 2025arXiv

ScatterAD: Temporal-Topological Scattering Mechanism for Time Series Anomaly Detection

NeurIPS 2025arXiv

Reaction Prediction via Interaction Modeling of Symmetric Difference Shingle Sets

NeurIPS 2025arXiv

Optimization Inspired Few-Shot Adaptation for Large Language Models

NeurIPS 2025arXiv

EfficientNav: Towards On-Device Object-Goal Navigation with Navigation Map Caching and Retrieval

NeurIPS 2025arXiv

Near-Optimal Regret-Queue Length Tradeoff in Online Learning for Two-Sided Markets

NeurIPS 2025arXiv

FedRW: Efficient Privacy-Preserving Data Reweighting for Enhancing Federated Learning of Language Models

NeurIPS 2025arXiv

Adaptive Data-Borrowing for Improving Treatment Effect Estimation using External Controls

NeurIPS 2025arXiv

Harnessing Feature Resonance under Arbitrary Target Alignment for Out-of-Distribution Node Detection

NeurIPS 2025arXiv

PathVQ: Reforming Computational Pathology Foundation Model for Whole Slide Image Analysis via Vector Quantization

NeurIPS 2025arXiv

HoloLLM: Multisensory Foundation Model for Language-Grounded Human Sensing and Reasoning

NeurIPS 2025arXiv

THD-BAR: Topology Hierarchical Derived Brain Autoregressive Modeling for EEG Generic Representations

NeurIPS 2025arXiv

World Models Should Prioritize the Unification of Physical and Social Dynamics

NeurIPS 2025arXiv

FOCUS: Unified Vision-Language Modeling for Interactive Editing Driven by Referential Segmentation

NeurIPS 2025arXiv