Mengdi Wang

17

Papers

115

Total Citations

Papers (17)

Rectified Diffusion: Straightness Is Not Your Need in Rectified Flow

ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs

Does Thinking More Always Help? Mirage of Test-Time Scaling in Reasoning Models

Emergent Symbolic Mechanisms Support Abstract Reasoning in Large Language Models

Training-Free Guidance Beyond Differentiability: Scalable Path Steering with Tree Search in Diffusion and Flow Models

Diffusion Transformer Captures Spatial-Temporal Dependencies: A Theory for Gaussian Process Data

Tree Search-Based Evolutionary Bandits for Protein Sequence Optimization

On the Sample Complexity and Metastability of Heavy-tailed Policy Search in Continuous Control

MaxMin-RLHF: Alignment with Diverse Human Preferences

Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment

Assessing the Brittleness of Safety Alignment via Pruning and Low-Rank Modifications

Preacher: Paper-to-Video Agentic System

TurboSVM-FL: Boosting Federated Learning through SVM Aggregation for Lazy Clients

Is Inverse Reinforcement Learning Harder than Standard Reinforcement Learning? A Theoretical Perspective

Theory of Consistency Diffusion Models: Distribution Estimation Meets Fast Sampling

Information-Directed Pessimism for Offline Reinforcement Learning

Theoretical insights for diffusion guidance: A case study for Gaussian mixture models