Mohamed Elhoseiny

18

Papers

100

Total Citations

Papers (18)

From Reflection to Perfection: Scaling Inference-Time Optimization for Text-to-Image Diffusion Models via Reflection Tuning

Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models

CoT3DRef: Chain-of-Thoughts Data-Efficient 3D Visual Grounding

Affective Visual Dialog: A Large-Scale Benchmark for Emotional Reasoning Based on Visually Grounded Conversations

AURELIA: Test-time Reasoning Distillation in Audio-Visual LLMs

Vgent: Graph-based Retrieval-Reasoning-Augmented Generation For Long Video Understanding

NeurIPS 2025arXiv

ShapeWalk: Compositional Shape Editing Through Language-Guided Chains

MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks

Kestrel: 3D Multimodal LLM for Part-Aware Grounded Description

ToddlerDiffusion: Interactive Structured Image Generation with Cascaded Schrödinger Bridge

Adversarial Text to Continuous Image Generation

AVTrustBench: Assessing and Enhancing Reliability and Robustness in Audio-Visual LLMs

Document Haystacks: Vision-Language Reasoning Over Piles of 1000+ Documents

WikiAutoGen: Towards Multi-Modal Wikipedia-Style Article Generation

4D-Bench: Benchmarking Multi-modal Large Language Models for 4D Object Understanding

StoryGPT-V: Large Language Models as Consistent Story Visualizers

Diffusion-Based Imaginative Coordination for Bimanual Manipulation

Overcoming Generic Knowledge Loss with Selective Parameter Update