Zhang

279

Papers

8,842

Total Citations

Papers (279)

Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection

MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?

OpenHands: An Open Platform for AI Software Developers as Generalist Agents

Evaluating Text-to-Visual Generation with Image-to-Text Generation

Segment and Recognize Anything at Any Granularity

CityGaussian: Real-time High-quality Large-Scale Scene Rendering with Gaussians

MaskGCT: Zero-Shot Text-to-Speech with Masked Generative Codec Transformer

SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines

NeurIPS 2025arXiv

LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Models

IRSAM: Advancing Segment Anything Model for Infrared Small Target Detection

MeshAnything: Artist-Created Mesh Generation with Autoregressive Transformers

SWE-bench Multimodal: Do AI Systems Generalize to Visual Software Domains?

MoBA: Mixture of Block Attention for Long-Context LLMs

NeurIPS 2025arXiv

T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT

NeurIPS 2025arXiv

CoR-GS: Sparse-View 3D Gaussian Splatting via Co-Regularization

SVDQuant: Absorbing Outliers by Low-Rank Component for 4-Bit Diffusion Models

PSALM: Pixelwise Segmentation with Large Multi-modal Model

WebDancer: Towards Autonomous Information Seeking Agency

NeurIPS 2025arXiv

Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting

MMTEB: Massive Multilingual Text Embedding Benchmark

APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay

NeurIPS 2025arXiv

MagicPIG: LSH Sampling for Efficient LLM Generation

MJ-Bench: Is Your Multimodal Reward Model Really a Good Judge for Text-to-Image Generation?

NeurIPS 2025arXiv

Self-Improvement in Language Models: The Sharpening Mechanism

MindSearch: Mimicking Human Minds Elicits Deep AI Searcher

RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics

NeurIPS 2025arXiv

OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text

RangeLDM: Fast Realistic LiDAR Point Cloud Generation

Catastrophic Failure of LLM Unlearning via Quantization

To Code or Not To Code? Exploring Impact of Code in Pre-training

Stream Query Denoising for Vectorized HD-Map Construction

On the Role of Attention Heads in Large Language Model Safety

SWIFT: On-the-Fly Self-Speculative Decoding for LLM Inference Acceleration

Agentic RL Scaling Law: Spontaneous Code Execution for Mathematical Problem Solving

Reconstructive Visual Instruction Tuning

Generalizable Human Gaussians for Sparse View Synthesis

LLaVA-MoD: Making LLaVA Tiny via MoE-Knowledge Distillation

KungfuBot: Physics-Based Humanoid Whole-Body Control for Learning Highly-Dynamic Skills

NeurIPS 2025arXiv

EfficientVLA: Training-Free Acceleration and Compression for Vision-Language-Action Models

NeurIPS 2025arXiv

PivotMesh: Generic 3D Mesh Generation via Pivot Vertices Guidance

Soft Prompt Generation for Domain Generalization

Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation

NeurIPS 2025arXiv

Perceive Anything: Recognize, Explain, Caption, and Segment Anything in Images and Videos

NeurIPS 2025arXiv

GOFA: A Generative One-For-All Model for Joint Graph Language Modeling

When Thinking Fails: The Pitfalls of Reasoning for Instruction-Following in LLMs

NeurIPS 2025arXiv

Policy Decorator: Model-Agnostic Online Refinement for Large Policy Model

Fast-in-Slow: A Dual-System VLA Model Unifying Fast Manipulation within Slow Reasoning

I-MedSAM: Implicit Medical Image Segmentation with Segment Anything

Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO

NeurIPS 2025arXiv

EgoVid-5M: A Large-Scale Video-Action Dataset for Egocentric Videos Generation

NeurIPS 2025arXiv

Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection

Energy-Weighted Flow Matching for Offline Reinforcement Learning

MMQA: Evaluating LLMs with Multi-Table Multi-Hop Complex Questions

Language Imbalance Driven Rewarding for Multilingual Self-improving

SWE-bench Goes Live!

NeurIPS 2025arXiv

Towards General-Purpose Model-Free Reinforcement Learning

Audio Large Language Models Can Be Descriptive Speech Quality Evaluators

SynLogic: Synthesizing Verifiable Reasoning Data at Scale for Learning Logical Reasoning and Beyond

NeurIPS 2025arXiv

One-Shot Diffusion Mimicker for Handwritten Text Generation

An Incremental Unified Framework for Small Defect Inspection

SpikeLLM: Scaling up Spiking Neural Network to Large Language Models via Saliency-based Spiking

GI-GS: Global Illumination Decomposition on Gaussian Splatting for Inverse Rendering

TwinMarket: A Scalable Behavioral and Social Simulation for Financial Markets

NeurIPS 2025arXiv

Any2Point: Empowering Any-modality Transformers for Efficient 3D Understanding

SeRL: Self-play Reinforcement Learning for Large Language Models with Limited Data

NeurIPS 2025arXiv

GameArena: Evaluating LLM Reasoning through Live Computer Games

Implicit Concept Removal of Diffusion Models

SELF-EVOLVED REWARD LEARNING FOR LLMS

Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models

NeurIPS 2025arXiv

UltraVideo: High-Quality UHD Video Dataset with Comprehensive Captions

NeurIPS 2025arXiv

Raindrop Clarity: A Dual-Focused Dataset for Day and Night Raindrop Removal

TP2O: Creative Text Pair-to-Object Generation using Balance Swap-Sampling

MetaOOD: Automatic Selection of OOD Detection Models

LeVo: High-Quality Song Generation with Multi-Preference Alignment

NeurIPS 2025arXiv

RoboScape: Physics-informed Embodied World Model

NeurIPS 2025arXiv

Spiking Vision Transformer with Saccadic Attention

ThinkBench: Dynamic Out-of-Distribution Evaluation for Robust LLM Reasoning

NeurIPS 2025arXiv

GRIDS: Grouped Multiple-Degradation Restoration with Image Degradation Similarity

Sharp Analysis for KL-Regularized Contextual Bandits and RLHF

NeurIPS 2025arXiv

MoVideo: Motion-Aware Video Generation with Diffusion Models

Quantized Spike-driven Transformer

NFIG: Multi-Scale Autoregressive Image Generation via Frequency Ordering

NeurIPS 2025arXiv

ATLAS: Autoformalizing Theorems through Lifting, Augmentation, and Synthesis of Data

NeurIPS 2025arXiv

MedAgentBoard: Benchmarking Multi-Agent Collaboration with Conventional Methods for Diverse Medical Tasks

NeurIPS 2025arXiv

UFM: A Simple Path towards Unified Dense Correspondence with Flow

NeurIPS 2025arXiv

Convergence of Score-Based Discrete Diffusion Models: A Discrete-Time Analysis

Learning Video Context as Interleaved Multimodal Sequences

Adaptive Classifier-Free Guidance via Dynamic Low-Confidence Masking

NeurIPS 2025arXiv

SINDER: Repairing the Singular Defects of DINOv2

Stable Segment Anything Model

SuperCorrect: Advancing Small LLM Reasoning with Thought Template Distillation and Self-Correction

Mixture of Efficient Diffusion Experts Through Automatic Interval and Sub-Network Selection

CLAP: Isolating Content from Style through Contrastive Learning with Augmented Prompts

GeoLLaVA-8K: Scaling Remote-Sensing Multimodal Large Language Models to 8K Resolution

NeurIPS 2025arXiv

LaGeM: A Large Geometry Model for 3D Representation Learning and Diffusion

Monocular Occupancy Prediction for Scalable Indoor Scenes

OneVOS: Unifying Video Object Segmentation with All-in-One Transformer Framework

Optimizing Chain-of-Thought Reasoners via Gradient Variance Minimization in Rejection Sampling and RL

NeurIPS 2025arXiv

DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents

NeurIPS 2025arXiv

MAGR: Manifold-Aligned Graph Regularization for Continual Action Quality Assessment

Anyprefer: An Agentic Framework for Preference Data Synthesis

Almost Optimal Batch-Regret Tradeoff for Batch Linear Contextual Bandits

Few-shot NeRF by Adaptive Rendering Loss Regularization

Overcoming False Illusions in Real-World Face Restoration with Multi-Modal Guided Diffusion Model

RealMath: A Continuous Benchmark for Evaluating Language Models on Research-Level Mathematics

NeurIPS 2025arXiv

NOVUM: Neural Object Volumes for Robust Object Classification

BountyBench: Dollar Impact of AI Agent Attackers and Defenders on Real-World Cybersecurity Systems

NeurIPS 2025arXiv

GenView: Enhancing View Quality with Pretrained Generative Model for Self-Supervised Learning

PiTe: Pixel-Temporal Alignment for Large Video-Language Model

Rethinking Video Deblurring with Wavelet-Aware Dynamic Transformer and Diffusion Model

AgentTTS: Large Language Model Agent for Test-time Compute-optimal Scaling Strategy in Complex Tasks

NeurIPS 2025arXiv

Test-time Adaptation for Cross-modal Retrieval with Query Shift

SAMRefiner: Taming Segment Anything Model for Universal Mask Refinement

Perplexity Trap: PLM-Based Retrievers Overrate Low Perplexity Documents

HaDeMiF: Hallucination Detection and Mitigation in Large Language Models

Diff3DS: Generating View-Consistent 3D Sketch via Differentiable Curve Rendering

Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Generation

Causally Motivated Sycophancy Mitigation for Large Language Models

Parameterized Quasi-Physical Simulators for Dexterous Manipulations Transfer

Bidirectional Stereo Image Compression with Cross-Dimensional Entropy Model

PoseCrafter: One-Shot Personalized Video Synthesis Following Flexible Pose Control

CPathAgent: An Agent-based Foundation Model for Interpretable High-Resolution Pathology Image Analysis Mimicking Pathologists' Diagnostic Logic

NeurIPS 2025arXiv

OneTrack: Demystifying the Conflict Between Detection and Tracking in End-to-End 3D Trackers

What Has Been Overlooked in Contrastive Source-Free Domain Adaptation: Leveraging Source-Informed Latent Augmentation within Neighborhood Context

Learning Cross-hand Policies of High-DOF Reaching and Grasping

A Spark of Vision-Language Intelligence: 2-Dimensional Autoregressive Transformer for Efficient Finegrained Image Generation

Poison-splat: Computation Cost Attack on 3D Gaussian Splatting

IPDreamer: Appearance-Controllable 3D Object Generation with Complex Image Prompts

Dissolving Is Amplifying: Towards Fine-Grained Anomaly Detection

EA-VTR: Event-Aware Video-Text Retrieval

Segment, Lift and Fit: Automatic 3D Shape Labeling from 2D Prompts

Interleaving One-Class and Weakly-Supervised Models with Adaptive Thresholding for Unsupervised Video Anomaly Detection

Integrative Decoding: Improving Factuality via Implicit Self-consistency

LLMCO4MR: LLMs-aided Neural Combinatorial Optimization for Ancient Manuscript Restoration from Fragments with Case Studies on Dunhuang

MMSearch: Unveiling the Potential of Large Models as Multi-modal Search Engines

GlycanML: A Multi-Task and Multi-Structure Benchmark for Glycan Machine Learning

DECOLLAGE: 3D Detailization by Controllable, Localized, and Learned Geometry Enhancement

Leveraging Submodule Linearity Enhances Task Arithmetic Performance in LLMs

Occlusion-Aware Seamless Segmentation

ELICIT: LLM Augmentation Via External In-context Capability

MetaMind: Modeling Human Social Thoughts with Metacognitive Multi-Agent Systems

NeurIPS 2025arXiv

Exploring Reliable Matching with Phase Enhancement for Night-time Semantic Segmentation

DeblurDiff: Real-Word Image Deblurring with Generative Diffusion Models

DiSK: Differentially Private Optimizer with Simplified Kalman Filter for Noise Reduction

SysBench: Can LLMs Follow System Message?

SMI-Editor: Edit-based SMILES Language Model with Fragment-level Supervision

Hessian-Free Online Certified Unlearning

When Selection Meets Intervention: Additional Complexities in Causal Discovery

Learning Graph Invariance by Harnessing Spuriosity

On the Value of Cross-Modal Misalignment in Multimodal Representation Learning

NeurIPS 2025arXiv

Correspondence-Free SE(3) Point Cloud Registration in RKHS via Unsupervised Equivariant Learning

Thinking in Character: Advancing Role-Playing Agents with Role-Aware Reasoning

NeurIPS 2025arXiv

RTV-Bench: Benchmarking MLLM Continuous Perception, Understanding and Reasoning through Real-Time Video

NeurIPS 2025arXiv

Learning the Unlearned: Mitigating Feature Suppression in Contrastive Learning

Adaptive Multi-modal Fusion of Spatially Variant Kernel Refinement with Diffusion Model for Blind Image Super-Resolution

RaFE: Generative Radiance Fields Restoration

BigDocs: An Open Dataset for Training Multimodal Models on Document and Code Tasks

Estimation and Inference in Distributional Reinforcement Learning

NeurIPS 2025arXiv

Dynamic Risk Assessments for Offensive Cybersecurity Agents

NeurIPS 2025arXiv

SymmetricDiffusers: Learning Discrete Diffusion on Finite Symmetric Groups

Test-time Model Adaptation for Image Reconstruction Using Self-supervised Adaptive Layers

Noisy Test-Time Adaptation in Vision-Language Models

CellVerse: Do Large Language Models Really Understand Cell Biology?

NeurIPS 2025arXiv

Event-Based Motion Magnification

AlgoTune: Can Language Models Speed Up General-Purpose Numerical Programs?

NeurIPS 2025arXiv

Fact-R1: Towards Explainable Video Misinformation Detection with Deep Reasoning

NeurIPS 2025arXiv

Hot-pluggable Federated Learning: Bridging General and Personalized FL via Dynamic Selection

Unveiling the Learning Mind of Language Models: A Cognitive Framework and Empirical Study

NeurIPS 2025arXiv

CrossAD: Time Series Anomaly Detection with Cross-scale Associations and Cross-window Modeling

NeurIPS 2025arXiv

Watch and Listen: Understanding Audio-Visual-Speech Moments with Multimodal LLM

NeurIPS 2025arXiv

RLZero: Direct Policy Inference from Language Without In-Domain Supervision

NeurIPS 2025arXiv

MEgoHand: Multimodal Egocentric Hand-Object Interaction Motion Generation

NeurIPS 2025arXiv

Memory Mosaics at scale

NeurIPS 2025arXiv

STRAP: Spatio-Temporal Pattern Retrieval for Out-of-Distribution Generalization

NeurIPS 2025arXiv

VFRTok: Variable Frame Rates Video Tokenizer with Duration-Proportional Information Assumption

NeurIPS 2025arXiv

TC-Light: Temporally Coherent Generative Rendering for Realistic World Transfer

NeurIPS 2025arXiv

Optimal Control for Transformer Architectures: Enhancing Generalization, Robustness and Efficiency

NeurIPS 2025arXiv

Beyond Modality Collapse: Representation Blending for Multimodal Dataset Distillation

NeurIPS 2025arXiv

Homomorphism Expressivity of Spectral Invariant Graph Neural Networks

Deep Feature Surgery: Towards Accurate and Efficient Multi-Exit Networks

Next Semantic Scale Prediction via Hierarchical Diffusion Language Models

Attention! Your Vision Language Model Could Be Maliciously Manipulated

NeurIPS 2025arXiv

Efficient Speech Language Modeling via Energy Distance in Continuous Latent Space

NeurIPS 2025arXiv

Neural-Driven Image Editing

NeurIPS 2025arXiv

Training-Free Bayesianization for Low-Rank Adapters of Large Language Models

NeurIPS 2025arXiv

MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs

NeurIPS 2025arXiv

RFMamba: Frequency-Aware State Space Model for RF-Based Human-Centric Perception

An Optimal Discriminator Weighted Imitation Perspective for Reinforcement Learning

Test-time Adaptation for Image Compression with Distribution Regularization

Hierachical Balance Packing: Towards Efficient Supervised Fine-tuning for Long-Context LLM

Interference Among First-Price Pacing Equilibria: A Bias and Variance Analysis

Provable Ordering and Continuity in Vision-Language Pretraining for Generalizable Embodied Agents

NeurIPS 2025arXiv

BenchmarkCards: Standardized Documentation for Large Language Model Benchmarks

NeurIPS 2025arXiv

Alignment of Large Language Models with Constrained Learning

NeurIPS 2025arXiv

OAT: Object-Level Attention Transformer for Gaze Scanpath Prediction

Dysca: A Dynamic and Scalable Benchmark for Evaluating Perception Ability of LVLMs

S'MoRE: Structural Mixture of Residual Experts for Parameter-Efficient LLM Fine-tuning

NeurIPS 2025arXiv

See through the Dark: Learning Illumination-affined Representations for Nighttime Occupancy Prediction

NeurIPS 2025arXiv

A Conditional Independence Test in the Presence of Discretization

PRING: Rethinking Protein-Protein Interaction Prediction from Pairs to Graphs

NeurIPS 2025arXiv

Generative Graph Pattern Machine

NeurIPS 2025arXiv

UNIP: Rethinking Pre-trained Attention Patterns for Infrared Semantic Segmentation

RESAnything: Attribute Prompting for Arbitrary Referring Segmentation

NeurIPS 2025arXiv

MonoTTA: Fully Test-Time Adaptation for Monocular 3D Object Detection

One Filters All: A Generalist Filter For State Estimation

NeurIPS 2025arXiv

A Statistical Approach for Controlled Training Data Detection

Causal Graph Transformer for Treatment Effect Estimation Under Unknown Interference

Prioritizing Perception-Guided Self-Supervision: A New Paradigm for Causal Modeling in End-to-End Autonomous Driving

NeurIPS 2025arXiv

Curious Causality-Seeking Agents Learn Meta Causal World

NeurIPS 2025arXiv

Towards Provable Emergence of In-Context Reinforcement Learning

NeurIPS 2025arXiv

Two‑Stage Learning of Stabilizing Neural Controllers via Zubov Sampling and Iterative Domain Expansion

NeurIPS 2025arXiv

Handling Label Noise via Instance-Level Difficulty Modeling and Dynamic Optimization

NeurIPS 2025arXiv

OverLayBench: A Benchmark for Layout-to-Image Generation with Dense Overlaps

NeurIPS 2025arXiv

Bootstrap Off-policy with World Model

NeurIPS 2025arXiv

UniGist: Towards General and Hardware-aligned Sequence-level Long Context Compression

NeurIPS 2025arXiv

VimoRAG: Video-based Retrieval-augmented 3D Motion Generation for Motion Language Models

NeurIPS 2025arXiv

Toward Efficient Inference Attacks: Shadow Model Sharing via Mixture-of-Experts

NeurIPS 2025arXiv

ShortListing Model: A Streamlined Simplex Diffusion for Discrete Variable Generation

Personalized Bayesian Federated Learning with Wasserstein Barycenter Aggregation

NeurIPS 2025arXiv

Embracing Trustworthy Brain-Agent Collaboration as Paradigm Extension for Intelligent Assistive Technologies

NeurIPS 2025arXiv

Online Segment Any 3D Thing as Instance Tracking

NeurIPS 2025arXiv

Creativity or Brute Force? Using Brainteasers as a Window into the Problem-Solving Abilities of Large Language Models

NeurIPS 2025arXiv

Fast Data Attribution for Text-to-Image Models

NeurIPS 2025arXiv

Can LLMs Reason Over Non-Text Modalities in a Training-Free Manner? A Case Study with In-Context Representation Learning

NeurIPS 2025arXiv

Adaptive Stochastic Coefficients for Accelerating Diffusion Sampling

NeurIPS 2025arXiv

Minimax Optimal Two-Stage Algorithm For Moment Estimation Under Covariate Shift

DecoyDB: A Dataset for Graph Contrastive Learning in Protein-Ligand Binding Affinity Prediction

NeurIPS 2025arXiv

Controlled LLM Decoding via Discrete Auto-regressive Biasing

PolyhedronNet: Representation Learning for Polyhedra with Surface-attributed Graph

Prompt as Knowledge Bank: Boost Vision-language model via Structural Representation for zero-shot medical detection

When narrower is better: the narrow width limit of Bayesian parallel branching neural networks

BaSIC: BayesNet Structure Learning for Computational Scalable Neural Image Compression

MGCFNN: A Neural MultiGrid Solver with Novel Fourier Neural Network for High Wave Number Helmholtz Equations

Debiasing Federated Learning with Correlated Client Participation

GeoILP: A Synthetic Dataset to Guide Large-Scale Rule Induction

Release the Powers of Prompt Tuning: Cross-Modality Prompt Transfer

Dependency-aware Differentiable Neural Architecture Search

A Robust Method to Discover Causal or Anticausal Relation

Exploring Polyglot Harmony: On Multilingual Data Allocation for Large Language Models Pretraining

NeurIPS 2025arXiv

Bi-Level Decision-Focused Causal Learning for Large-Scale Marketing Optimization: Bridging Observational and Experimental Data

NeurIPS 2025arXiv

Model-Guided Dual-Role Alignment for High-Fidelity Open-Domain Video-to-Audio Generation

NeurIPS 2025arXiv

The Primacy of Magnitude in Low-Rank Adaptation

NeurIPS 2025arXiv

NeuroPath: Neurobiology-Inspired Path Tracking and Reflection for Semantically Coherent Retrieval

NeurIPS 2025arXiv

FedGPS: Statistical Rectification Against Data Heterogeneity in Federated Learning

NeurIPS 2025arXiv

Switchable Token-Specific Codebook Quantization For Face Image Compression

NeurIPS 2025arXiv

Off-policy Reinforcement Learning with Model-based Exploration Augmentation

NeurIPS 2025arXiv

UniRestore3D: A Scalable Framework For General Shape Restoration

Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models

NeurIPS 2025arXiv

Semantic Temporal Abstraction via Vision-Language Model Guidance for Efficient Reinforcement Learning

PID-controlled Langevin Dynamics for Faster Sampling on Generative Models

NeurIPS 2025arXiv

KINDLE: Knowledge-Guided Distillation for Prior-Free Gene Regulatory Network Inference

NeurIPS 2025arXiv

ThermalGen: Style-Disentangled Flow-Based Generative Models for RGB-to-Thermal Image Translation

NeurIPS 2025arXiv

DepthVanish: Optimizing Adversarial Interval Structures for Stereo-Depth-Invisible Patches

NeurIPS 2025arXiv

Probing Neural Combinatorial Optimization Models

NeurIPS 2025arXiv

Stop DDoS Attacking the Research Community with AI-Generated Survey Papers

NeurIPS 2025arXiv

Novel Class Discovery for Point Cloud Segmentation via Joint Learning of Causal Representation and Reasoning

NeurIPS 2025arXiv

Aligning by Misaligning: Boundary-aware Curriculum Learning for Multimodal Alignment

NeurIPS 2025arXiv

Each Complexity Deserves a Pruning Policy

NeurIPS 2025arXiv

Order-Level Attention Similarity Across Language Models: A Latent Commonality

NeurIPS 2025arXiv

StyleGuard: Preventing Text-to-Image-Model-based Style Mimicry Attacks by Style Perturbations

NeurIPS 2025arXiv

On the Stability of Graph Convolutional Neural Networks: A Probabilistic Perspective

NeurIPS 2025arXiv

Fewer May Be Better: Enhancing Offline Reinforcement Learning with Reduced Dataset

Flexible Realignment of Language Models

NeurIPS 2025arXiv

AANet: Virtual Screening under Structural Uncertainty via Alignment and Aggregation

NeurIPS 2025arXiv

RAG-IGBench: Innovative Evaluation for RAG-based Interleaved Generation in Open-domain Question Answering

NeurIPS 2025arXiv

EGGS: Exchangeable 2D/3D Gaussian Splatting for Geometry-Appearance Balanced Novel View Synthesis

NeurIPS 2025arXiv

FRBNet: Revisiting Low-Light Vision through Frequency-Domain Radial Basis Network

NeurIPS 2025arXiv

OmniFC: Rethinking Federated Clustering via Lossless and Secure Distance Reconstruction

NeurIPS 2025arXiv

Multimodal 3D Genome Pre-training

NeurIPS 2025arXiv

MuSLR: Multimodal Symbolic Logical Reasoning

NeurIPS 2025arXiv

Faithful Group Shapley Value

NeurIPS 2025arXiv

F-Adapter: Frequency-Adaptive Parameter-Efficient Fine-Tuning in Scientific Machine Learning

NeurIPS 2025arXiv

Variational Task Vector Composition

NeurIPS 2025arXiv

mmWalk: Towards Multi-modal Multi-view Walking Assistance

NeurIPS 2025arXiv

CGBench: Benchmarking Language Model Scientific Reasoning for Clinical Genetics Research

NeurIPS 2025arXiv

Improving Model Representation and Reducing KV Cache via Skip Connections with First Value Heads

NeurIPS 2025arXiv

ScatterAD: Temporal-Topological Scattering Mechanism for Time Series Anomaly Detection

NeurIPS 2025arXiv

Rethinking Hebbian Principle: Low-Dimensional Structural Projection for Unsupervised Learning

NeurIPS 2025arXiv

Dynamic Gaussian Splatting from Defocused and Motion-blurred Monocular Videos

NeurIPS 2025arXiv