Dinesh Manocha

20

Papers

400

Total Citations

Papers (20)

HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models

Does Thinking More Always Help? Mirage of Test-Time Scaling in Reasoning Models

VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations on Synthetic Video Understanding

NeurIPS 2025arXiv

AURELIA: Test-time Reasoning Distillation in Audio-Visual LLMs

MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks

EgoAdapt: Adaptive Multisensory Distillation and Policy Learning for Efficient Egocentric Perception

How Learnable Grids Recover Fine Detail in Low Dimensions: A Neural Tangent Kernel Analysis of Multigrid Parametric Encodings

AV-RIR: Audio-Visual Room Impulse Response Estimation

MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models

Position: On the Possibilities of AI-Generated Text Detection

MaxMin-RLHF: Alignment with Diverse Human Preferences

Towards Global Optimality for Practical Average Reward Reinforcement Learning without Mixing Time Oracles

EDM: Equirectangular Projection-Oriented Dense Kernelized Feature Matching

A Closer Look at the Limitations of Instruction Tuning

Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment

IM360: Large-scale Indoor Mapping with 360 Cameras

AVTrustBench: Assessing and Enhancing Reliability and Robustness in Audio-Visual LLMs

V-Trans4Style: Visual Transition Recommendation for Video Production Style Adaptation

RPG360: Robust 360 Depth Estimation with Perspective Foundation Models and Graph Optimization

LTM: Lightweight Textured Mesh Extraction and Refinement of Large Unbounded Scenes for Efficient Storage and Real-time Rendering