Zhao

43

Papers

1,097

Total Citations

Papers (43)

An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models

SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines

NeurIPS 2025arXiv

OpenIns3D: Snap and Lookup for 3D Open-vocabulary Instance Segmentation

Self-Introspective Decoding: Alleviating Hallucinations for Large Vision-Language Models

MindSearch: Mimicking Human Minds Elicits Deep AI Searcher

Explore the Potential of CLIP for Training-Free Open Vocabulary Semantic Segmentation

Dynamic Diffusion Transformer

Informed Correctors for Discrete Diffusion Models

NeurIPS 2025arXiv

Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs

EgoVid-5M: A Large-Scale Video-Action Dataset for Egocentric Videos Generation

NeurIPS 2025arXiv

FocusDiffuser: Perceiving Local Disparities for Camouflaged Object Detection

Region-Adaptive Transform with Segmentation Prior for Image Compression

CVT-Occ: Cost Volume Temporal Fusion for 3D Occupancy Prediction

Commit0: Library Generation from Scratch

InsMapper: Exploring Inner-instance Information for Vectorized HD Mapping

OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation

OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents

NeurIPS 2025arXiv

Beyond Single Concept Vector: Modeling Concept Subspace in LLMs with Gaussian Distribution

FastVID: Dynamic Density Pruning for Fast Video Large Language Models

NeurIPS 2025arXiv

CirT: Global Subseasonal-to-Seasonal Forecasting with Geometry-inspired Transformer

Unifying Appearance Codes and Bilateral Grids for Driving Scene Gaussian Splatting

NeurIPS 2025arXiv

CoSIGN: Few-Step Guidance of ConSIstency Model to Solve General INverse Problems

CLEVER: A Curated Benchmark for Formally Verified Code Generation

NeurIPS 2025arXiv

PiTe: Pixel-Temporal Alignment for Large Video-Language Model

SAMRefiner: Taming Segment Anything Model for Universal Mask Refinement

LangSplatV2: High-dimensional 3D Language Gaussian Splatting with 450+ FPS

NeurIPS 2025arXiv

A Spark of Vision-Language Intelligence: 2-Dimensional Autoregressive Transformer for Efficient Finegrained Image Generation

T2V-OptJail: Discrete Prompt Optimization for Text-to-Video Jailbreak Attacks

NeurIPS 2025arXiv

Think Thrice Before You Act: Progressive Thought Refinement in Large Language Models

The Fluorescent Veil: A Stealthy and Effective Physical Adversarial Patch Against Traffic Sign Recognition

NeurIPS 2025arXiv

Test-time Model Adaptation for Image Reconstruction Using Self-supervised Adaptive Layers

Towards foundational LiDAR world models with efficient latent flow matching

NeurIPS 2025arXiv

TrajAgent: An LLM-Agent Framework for Trajectory Modeling via Large-and-Small Model Collaboration

NeurIPS 2025arXiv

TCM-Ladder: A Benchmark for Multimodal Question Answering on Traditional Chinese Medicine

NeurIPS 2025arXiv

PreFM: Online Audio-Visual Event Parsing via Predictive Future Modeling

NeurIPS 2025arXiv

Capability Localization: Capabilities Can be Localized rather than Individual Knowledge

PolyhedronNet: Representation Learning for Polyhedra with Surface-attributed Graph

Learning the Plasticity: Plasticity-Driven Learning Framework in Spiking Neural Networks

NeurIPS 2025arXiv

Idling Neurons, Appropriately Lenient Workload During Fine-tuning Leads to Better Generalization

Simulating Society Requires Simulating Thought

NeurIPS 2025arXiv

MiCo: Multi-image Contrast for Reinforcement Visual Reasoning

NeurIPS 2025arXiv

Towards Physics-informed Spatial Intelligence with Human Priors: An Autonomous Driving Pilot Study

NeurIPS 2025arXiv

Rainbow Delay Compensation: A Multi-Agent Reinforcement Learning Framework for Mitigating Observation Delays