Huaimin Wang

6

Papers

21

Total Citations

Papers (6)

Enhancing Decision-Making for LLM Agents via Step-Level Q-Value Models

Knowledge Memorization and Rumination for Pre-trained Model-based Class-Incremental Learning

Maintaining Fairness in Logit-based Knowledge Distillation for Class-Incremental Learning

Optimistic Model Rollouts for Pessimistic Offline Policy Optimization

Iterative Regularized Policy Optimization with Imperfect Demonstrations

Online Meta-Critic Learning for Off-Policy Actor-Critic Methods