Zhiwei He

4

Papers

29

Total Citations

Papers (4)

Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards

Weak-to-Strong Preference Optimization: Stealing Reward from Weak Aligned Model

UAWTrack: Universal 3D Single Object Tracking in Adverse Weather

Improving Open-Ended Text Generation via Adaptive Decoding