Shafiq Joty

4

Papers

78

Total Citations

Papers (4)

FaithEval: Can Your Language Model Stay Faithful to Context, Even If "The Moon is Made of Marshmallows"

Preference Optimization for Reasoning with Pseudo Feedback

Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning

Diffusion Model Alignment Using Direct Preference Optimization