Huaimin Wang

5

Papers

21

Total Citations

Papers (5)

Enhancing Decision-Making for LLM Agents via Step-Level Q-Value Models

Knowledge Memorization and Rumination for Pre-trained Model-based Class-Incremental Learning

Maintaining Fairness in Logit-based Knowledge Distillation for Class-Incremental Learning

Optimistic Model Rollouts for Pessimistic Offline Policy Optimization

Iterative Regularized Policy Optimization with Imperfect Demonstrations