Mohit Bansal

58

Papers

168

Total Citations

Papers (58)

ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding

Self-Consistency Preference Optimization

ECoFLaP: Efficient Coarse-to-Fine Layer-Wise Pruning for Vision-Language Models

CAPTURE: Evaluating Spatial Reasoning in Vision Language Models via Occluded Object Counting

CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion

Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models

Unbounded: A Generative Infinite Game of Character Life Simulation

VLN-Video: Utilizing Driving Videos for Outdoor Vision-and-Language Navigation

Bootstrapping Language-Guided Navigation Learning with Self-Refining Data Flywheel

VEDIT: Latent Prediction Architecture For Procedural Video Representation Learning

Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents

LASeR: Learning to Adaptively Select Reward Models with Multi-Arm Bandits

MAttNet: Modular Attention Network for Referring Expression Comprehension

Multi-Target Embodied Question Answering

Less Is More: ClipBERT for Video-and-Language Learning via Sparse Sampling

VL-Adapter: Parameter-Efficient Transfer Learning for Vision-and-Language Tasks

EnvEdit: Environment Editing for Vision-and-Language Navigation

Hierarchical Video-Moment Retrieval and Step-Captioning

Unifying Vision, Text, and Layout for Universal Document Processing

Vision Transformers Are Parameter-Efficient Audio-Visual Learners

VindLU: A Recipe for Effective Video-and-Language Pretraining

Improving Vision-and-Language Navigation by Generating Future-View Image Semantics

Unified Coarse-to-Fine Alignment for Video-Text Retrieval

Scaling Data Generation in Vision-and-Language Navigation

DALL-Eval: Probing the Reasoning Skills and Social Biases of Text-to-Image Generation Models

TVR: A Large-Scale Dataset for Video-Subtitle Moment Retrieval

ECLIPSE: Efficient Long-Range Video Retrieval Using Sight and Sound

StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story Continuation

CoDi-2: In-Context Interleaved and Interactive Any-to-Any Generation

Motion-Grounded Video Reasoning: Understanding and Perceiving Motion at Pixel Level

VEGGIE: Instructional Editing and Reasoning Video Concepts with Grounded Generation

SAME: Learning Generic Language-Guided Visual Navigation with State-Adaptive Mixture of Experts

Multimodal Representation Learning by Alternating Unimodal Adaptation

VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos

Rethinking Interactive Image Segmentation with Low Latency High Quality and Diverse Prompts

MAGDi: Structured Distillation of Multi-Agent Interaction Graphs Improves Reasoning in Smaller Language Models

ReGAL: Refactoring Programs to Discover Generalizable Abstractions

Position: TrustLLM: Trustworthiness in Large Language Models

We Are Humor Beings: Understanding and Predicting Visual Humor

A Joint Speaker-Listener-Reinforcer Model for Referring Expressions

The Out-of-Distribution Problem in Explainability and Search Methods for Feature Importance Explanations

Detecting Moments and Highlights in Videos via Natural Language Queries

VidLanKD: Improving Language Understanding via Video-Distilled Knowledge Transfer

Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning

Language Models with Image Descriptors are Strong Few-Shot Video-Language Learners

TVLT: Textless Vision-Language Transformer

LST: Ladder Side-Tuning for Parameter and Memory Efficient Transfer Learning

VisFIS: Visual Feature Importance Supervision with Right-for-the-Right-Reason Objectives

WinoGAViL: Gamified Association Benchmark to Challenge Vision-and-Language Models

Visual Programming for Step-by-Step Text-to-Image Generation and Evaluation

TIES-Merging: Resolving Interference When Merging Models

Any-to-Any Generation via Composable Diffusion

Does Localization Inform Editing? Surprising Differences in Causality-Based Localization vs. Knowledge Editing in Language Models

Paxion: Patching Action Knowledge in Video-Language Foundation Models

PanoGen: Text-Conditioned Panoramic Environment Generation for Vision-and-Language Navigation

Adaptive Contextual Perception: How To Generalize To New Backgrounds and Ambiguous Objects

Can Language Models Teach? Teacher Explanations Improve Student Performance via Personalization

Self-Chained Image-Language Model for Video Localization and Question Answering