🧬Multimodal

Visual Question Answering

Answering questions about images

100 papers5,998 total citations

Compare with other topics

Feb '24 — Jan '26667 papers

Top Conferences

CVPR: 31 ICLR: 23 ECCV: 20 AAAI: 16 NeurIPS: 6 ICML: 2

Top Papers

#1

MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts

Pan Lu, Hritik Bansal, Tony Xia et al.

V?: Guided Visual Search as a Core Mechanism in Multimodal LLMs

Penghao Wu, Saining Xie

NuScenes-QA: A Multi-Modal Visual Question Answering Benchmark for Autonomous Driving

Tianwen Qian, Jingjing Chen, Linhai Zhuo et al.

AAAI 2024arXiv:2305.14836

visual question answeringautonomous drivingmulti-modal perception3d scene understanding+4

266

citations

#4

BLIVA: A Simple Multimodal LLM for Better Handling of Text-Rich Visual Questions

Wenbo Hu, Yifan Xu, Yi Li et al.

AAAI 2024arXiv:2308.09936

vision language modelsvisual question answeringmultimodal large language modelstext-rich image understanding+4

190

citations

#5

Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction

Yiheng Xu, Zekun Wang, Junli Wang et al.

ViP-LLaVA: Making Large Multimodal Models Understand Arbitrary Visual Prompts

Mu Cai, Haotian Liu, Siva Mustikovela et al.

SCLIP: Rethinking Self-Attention for Dense Vision-Language Inference

Feng Wang, Jieru Mei, Alan Yuille

The All-Seeing Project: Towards Panoptic Visual Recognition and Understanding of the Open World

Weiyun Wang, Min Shi, Qingyun Li et al.

Can I Trust Your Answer? Visually Grounded Video Question Answering

Junbin Xiao, Angela Yao, Yicong Li et al.

How Many Unicorns Are in This Image? A Safety Evaluation Benchmark for Vision LLMs

Haoqin Tu, Chenhang Cui, Zijun Wang et al.

TableBench: A Comprehensive and Complex Benchmark for Table Question Answering

Xianjie Wu, Jian Yang, Linzheng Chai et al.

Depicting Beyond Scores: Advancing Image Quality Assessment through Multi-modal Language Models

Zhiyuan You, Zheyuan Li, Jinjin Gu et al.

ECCV 2024arXiv:2312.08962

image quality assessmentmulti-modal language modelsfull-reference iqano-reference iqa+4

92

citations

#13

Towards Open-ended Visual Quality Comparison

Haoning Wu, Hanwei Zhu, Zicheng Zhang et al.

The All-Seeing Project V2: Towards General Relation Comprehension of the Open World

Weiyun Wang Weiyun, yiming ren, Haowen Luo et al.

DynaMath: A Dynamic Visual Benchmark for Evaluating Mathematical Reasoning Robustness of Vision Language Models

Chengke Zou, Xingang Guo, Rui Yang et al.

MLLMs Know Where to Look: Training-free Perception of Small Visual Details with Multimodal LLMs

jiarui zhang, Mahyar Khayatkhoei, Prateek Chhikara et al.

CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition

Feng Lu, Xiangyuan Lan, Lijun Zhang et al.

MV-Adapter: Multi-View Consistent Image Generation Made Easy

Zehuan Huang, Yuan-Chen Guo, Haoran Wang et al.

VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents

Xiao Liu, Tianjie Zhang, Yu Gu et al.

Unifying 3D Vision-Language Understanding via Promptable Queries

ziyu zhu, Zhuofan Zhang, Xiaojian Ma et al.

Image and Video Tokenization with Binary Spherical Quantization

Yue Zhao, Yuanjun Xiong, Philipp Krähenbühl

DocFormerv2: Local Features for Document Understanding

Srikar Appalaraju, Peng Tang, Qi Dong et al.

AAAI 2024arXiv:2306.01733

visual document understandingmulti-modal transformerlocal-feature alignmentdocument information extraction+4

58

citations

#23

Context-I2W: Mapping Images to Context-Dependent Words for Accurate Zero-Shot Composed Image Retrieval

Yuanmin Tang, Jing Yu, Keke Gai et al.

AAAI 2024arXiv:2309.16137

zero-shot learningcomposed image retrievalimage representation learningcontext-dependent mapping+4

57

citations

#24

Q-Insight: Understanding Image Quality via Visual Reinforcement Learning

Weiqi Li, Xuanyu Zhang, Shijie Zhao et al.

Wonderland: Navigating 3D Scenes from a Single Image

Hanwen Liang, Junli Cao, Vidit Goel et al.

VLCounter: Text-Aware Visual Representation for Zero-Shot Object Counting

Seunggu Kang, WonJun Moon, Euiyeon Kim et al.

AAAI 2024arXiv:2312.16580

zero-shot object countingsemantic-patch embeddingsvisual-language representationsemantic-conditioned prompt tuning+3

54

citations

#27

Visual In-Context Prompting

Feng Li, Qing Jiang, Hao Zhang et al.

Describing Differences in Image Sets with Natural Language

Lisa Dunlap, Yuhui Zhang, Xiaohan Wang et al.

Discovering and Mitigating Visual Biases through Keyword Explanation

Younghyun Kim, Sangwoo Mo, Minkyu Kim et al.

Contrastive Region Guidance: Improving Grounding in Vision-Language Models without Training

David Wan, Jaemin Cho, Elias Stengel-Eskin et al.

EarthVQA: Towards Queryable Earth via Relational Reasoning-Based Remote Sensing Visual Question Answering

Junjue Wang, Zhuo Zheng, Zihang Chen et al.

AAAI 2024arXiv:2312.12222

remote sensing vqarelational reasoningobject-centric frameworksemantic segmentation+4

47

citations

#32

Grounded Question-Answering in Long Egocentric Videos

Shangzhe Di, Weidi Xie

TEOChat: A Large Vision-Language Assistant for Temporal Earth Observation Data

Jeremy Irvin, Emily Liu, Joyce Chen et al.

ICLR 2025arXiv:2410.06234

vision-language assistanttemporal earth observationinstruction-following datasetchange detection+4

45

citations

#34

CLOVA: A Closed-LOop Visual Assistant with Tool Usage and Update

Zhi Gao, Yuntao Du., Xintong Zhang et al.

Knowledge-Enhanced Dual-stream Zero-shot Composed Image Retrieval

Yucheng Suo, Fan Ma, Linchao Zhu et al.

Visual Agents as Fast and Slow Thinkers

Guangyan Sun, Mingyu Jin, Zhenting Wang et al.

ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding

Xingyu Fu, Minqian Liu, Zhengyuan Yang et al.

MET3R: Measuring Multi-View Consistency in Generated Images

Mohammad Asim, Christopher Wewer, Thomas Wimmer et al.

CVPR 2025arXiv:2501.06336

multi-view consistencyimage generation3d reconstructionnovel view synthesis+3

43

citations

#39

One Prompt Word is Enough to Boost Adversarial Robustness for Pre-trained Vision-Language Models

Lin Li, Haoyan Guan, Jianing Qiu et al.

Articulate-Anything: Automatic Modeling of Articulated Objects via a Vision-Language Foundation Model

Long Le, Jason Xie, William Liang et al.

A-Bench: Are LMMs Masters at Evaluating AI-generated Images?

Zicheng Zhang, Haoning Wu, Chunyi Li et al.

Revisiting Single Image Reflection Removal In the Wild

Yurui Zhu, Bo Li, Xueyang Fu et al.

How to Configure Good In-Context Sequence for Visual Question Answering

Li Li, Jiawei Peng, huiyi chen et al.

Question Aware Vision Transformer for Multimodal Reasoning

Roy Ganz, Yair Kittenplon, Aviad Aberdam et al.

TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models

Ziyao Shangguan, Chuhan Li, Yuxuan Ding et al.

Transformer-Based No-Reference Image Quality Assessment via Supervised Contrastive Learning

Jinsong Shi, Pan Gao, Jie Qin

AAAI 2024arXiv:2312.06995

image quality assessmentno-reference iqasupervised contrastive learningtransformer architecture+4

34

citations

#47

Exploring Sparse Visual Prompt for Domain Adaptive Dense Prediction

Senqiao Yang, Jiarui Wu, Jiaming Liu et al.

AAAI 2024arXiv:2303.09792

sparse visual promptsdomain adaptationdense predictiontest-time adaptation+4

32

citations

#48

Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing

Xiangyu Zhao, Peiyuan Zhang, Kexian Tang et al.

Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation

Derong Xu, Xinhang Li, Ziheng Zhang et al.

Open-World Human-Object Interaction Detection via Multi-modal Prompts

Jie Yang, Bingliang Li, Ailing Zeng et al.

Cross-view image geo-localization with Panorama-BEV Co-Retrieval Network

ye junyan, Zhutao Lv, Li Weijia et al.

Visual Agentic AI for Spatial Reasoning with a Dynamic API

Damiano Marsili, Rohun Agrawal, Yisong Yue et al.

VisualQuality-R1: Reasoning-Induced Image Quality Assessment via Reinforcement Learning to Rank

Tianhe Wu, Jian Zou, Jie Liang et al.

NeurIPS 2025arXiv:2505.14460

image quality assessmentreinforcement learning to rankno-reference iqagroup relative policy optimization+4

30

citations

#54

Visual Haystacks: A Vision-Centric Needle-In-A-Haystack Benchmark

Tsung-Han Wu, Giscard Biamby, Jerome Quenum et al.

Spot the Fake: Large Multimodal Model-Based Synthetic Image Detection with Artifact Explanation

Siwei Wen, junyan ye, Peilin Feng et al.

MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models

Wenbo Hu, Jia-Chen Gu, Zi-Yi Dou et al.

ICLR 2025arXiv:2410.08182

retrieval-augmented generationmultimodal retrieval benchmarksvision-language modelsvisual knowledge retrieval+2

29

citations

#57

HaloQuest: A Visual Hallucination Dataset for Advancing Multimodal Reasoning

Zhecan Wang, Garrett Bingham, Adams Wei Yu et al.

EgoTextVQA: Towards Egocentric Scene-Text Aware Video Question Answering

Sheng Zhou, Junbin Xiao, Qingyun Li et al.

VideoWorld: Exploring Knowledge Learning from Unlabeled Videos

Zhongwei Ren, Yunchao Wei, Xun Guo et al.

Blind Image Quality Assessment Based on Geometric Order Learning

Nyeong-Ho Shin, Seon-Ho Lee, Chang-Su Kim

Chain-of-Action: Faithful and Multimodal Question Answering through Large Language Models

Zhenyu Pan, Haozheng Luo, Manling Li et al.

Bridging the Gap between 2D and 3D Visual Question Answering: A Fusion Approach for 3D VQA

Wentao Mo, Yang Liu

AAAI 2024arXiv:2402.15933

3d visual question answeringmulti-modal fusionview selectiontransformer architecture+3

26

citations

#63

SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding

Ying Chen, Guoan Wang, Yuanfeng Ji et al.

Doubly Abductive Counterfactual Inference for Text-based Image Editing

Xue Song, Jiequan Cui, Hanwang Zhang et al.

MagicQuill: An Intelligent Interactive Image Editing System

Zichen Liu, Yue Yu, Hao Ouyang et al.

XLRS-Bench: Could Your Multimodal LLMs Understand Extremely Large Ultra-High-Resolution Remote Sensing Imagery?

Fengxiang Wang, hongzhen wang, Zonghao Guo et al.

Your ViT is Secretly an Image Segmentation Model

Tommie Kerssies, Niccolò Cavagnero, Alexander Hermans et al.

An Intelligent Agentic System for Complex Image Restoration Problems

Kaiwen Zhu, Jinjin Gu, Zhiyuan You et al.

Answer, Assemble, Ace: Understanding How LMs Answer Multiple Choice Questions

Sarah Wiegreffe, Oyvind Tafjord, Yonatan Belinkov et al.

Object-Aware Adaptive-Positivity Learning for Audio-Visual Question Answering

Zhangbin Li, Jinxing Zhou, Dan Guo et al.

AAAI 2024arXiv:2312.12816

audio-visual question answeringobject-level cluesmulti-modal relationsquestion-conditioned discovery+4

24

citations

#71

WSI-VQA: Interpreting Whole Slide Images by Generative Visual Question Answering

Pingyi Chen, Chenglu Zhu, Sunyi Zheng et al.

HYDRA: A Hyper Agent for Dynamic Compositional Visual Reasoning

Fucai Ke, Zhixi Cai, Simindokht Jahangard et al.

KRIS-Bench: Benchmarking Next-Level Intelligent Image Editing Models

Yongliang Wu, Zonghui Li, Xinting Hu et al.

MMQA: Evaluating LLMs with Multi-Table Multi-Hop Complex Questions

Jian Wu, Linyi Yang, Dongyuan Li et al.

ICLR 2025

tabular data understandingmulti-table question answeringtext-to-sql generationmulti-hop reasoning+4

23

citations

#75

MindTuner: Cross-Subject Visual Decoding with Visual Fingerprint and Semantic Correction

Zixuan Gong, Qi Zhang, Guangyin Bao et al.

LEGO: Learning EGOcentric Action Frame Generation via Visual Instruction Tuning

Bolin Lai, Xiaoliang Dai, Lawrence Chen et al.

ECCV 2024arXiv:2312.03849

egocentric action generationvisual instruction tuningdiffusion modelsaction frame synthesis+4

23

citations

#77

Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes

Yaoting Wang, Peiwen Sun, Dongzhan Zhou et al.

GUI-World: A Video Benchmark and Dataset for Multimodal GUI-oriented Understanding

Dongping Chen, Yue Huang, Siyuan Wu et al.

ViLA: Efficient Video-Language Alignment for Video Question Answering

Xijun Wang, Junbang Liang, Chun-Kai Wang et al.

Consistency and Uncertainty: Identifying Unreliable Responses From Black-Box Vision-Language Models for Selective Visual Question Answering

Zaid Khan, Yun Fu

Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation

Yuhui Zhang, Yuchang Su, Yiming Liu et al.

Question Calibration and Multi-Hop Modeling for Temporal Question Answering

Chao Xue, Di Liang, Pengfei Wang et al.

AAAI 2024arXiv:2402.13188

temporal question answeringknowledge graph reasoningpre-trained language modelsgraph neural networks+3

21

citations

#83

VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning

Zhong-Yu Li, Ruoyi Du, Juncheng Yan et al.

Do Vision & Language Decoders use Images and Text equally? How Self-consistent are their Explanations?

Letitia Parcalabescu, Anette Frank

Zero-shot Referring Expression Comprehension via Structural Similarity Between Images and Captions

Zeyu Han, Fangrui Zhu, Qianru Lao et al.

ColorPeel: Color Prompt Learning with Diffusion Models via Color and Shape Disentanglement

Muhammad Atif Butt, Kai Wang, Javier Vazquez-Corral et al.

Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge

Boyu Gou, Zanming Huang, Yuting Ning et al.

LAKE-RED: Camouflaged Images Generation by Latent Background Knowledge Retrieval-Augmented Diffusion

Pancheng Zhao, Peng Xu, Pengda Qin et al.

MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models

Ziyu Liu, Yuhang Zang, Xiaoyi Dong et al.

ICLR 2025arXiv:2410.17637

direct preference optimizationvision-language modelsmulti-image tasksvisual preference alignment+3

19

citations

#90

VTQA: Visual Text Question Answering via Entity Alignment and Cross-Media Reasoning

Kang Chen, Xiangqian Wu

WebVLN: Vision-and-Language Navigation on Websites

Qi Chen, Dileepa Pitawela, Chongyang Zhao et al.

AAAI 2024arXiv:2312.15820

vision-and-language navigationwebsite navigationhtml understandingmultimodal agents+2

19

citations

#92

AMEGO: Active Memory from long EGOcentric videos

Gabriele Goletto, Tushar Nagarajan, Giuseppe Averta et al.

Improving Video Segmentation via Dynamic Anchor Queries

Yikang Zhou, Tao Zhang, Xiangtai Li et al.

StoryImager: A Unified and Efficient Framework for Coherent Story Visualization and Completion

Ming Tao, BINGKUN BAO, Hao Tang et al.

KGARevion: An AI Agent for Knowledge-Intensive Biomedical QA

Xiaorui Su, Yibo Wang, Shanghua Gao et al.

KiVA: Kid-inspired Visual Analogies for Testing Large Multimodal Models

Eunice Yiu, Maan Qraitem, Anisa Majhi et al.

One-stage Prompt-based Continual Learning

Youngeun Kim, YUHANG LI, Priyadarshini Panda

ECCV 2024arXiv:2402.16189

prompt-based continual learningvision transformercomputational efficiencyclass-incremental learning+3

17

citations

#98

Decomposing Semantic Shifts for Composed Image Retrieval

Xingyu Yang, Daqing Liu, Heng Zhang et al.

AAAI 2024arXiv:2309.09531

composed image retrievalsemantic shift decompositionvisual prototype generationdegradation and upgradation+2

17

citations

#99

Bongard-OpenWorld: Few-Shot Reasoning for Free-form Visual Concepts in the Real World

Rujie Wu, Xiaojian Ma, Zhenliang Zhang et al.

PromptIQA: Boosting the Performance and Generalization for No-Reference Image Quality Assessment via Prompts

Zewen Chen, Haina Qin, Juan Wang et al.

ECCV 2024

16

citations

Visual Question Answering

Top Conferences

Related Topics (Multimodal)

Top Papers

MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts

V?: Guided Visual Search as a Core Mechanism in Multimodal LLMs

NuScenes-QA: A Multi-Modal Visual Question Answering Benchmark for Autonomous Driving

BLIVA: A Simple Multimodal LLM for Better Handling of Text-Rich Visual Questions

Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction

ViP-LLaVA: Making Large Multimodal Models Understand Arbitrary Visual Prompts

SCLIP: Rethinking Self-Attention for Dense Vision-Language Inference

The All-Seeing Project: Towards Panoptic Visual Recognition and Understanding of the Open World

Can I Trust Your Answer? Visually Grounded Video Question Answering

How Many Unicorns Are in This Image? A Safety Evaluation Benchmark for Vision LLMs

TableBench: A Comprehensive and Complex Benchmark for Table Question Answering

Depicting Beyond Scores: Advancing Image Quality Assessment through Multi-modal Language Models

Towards Open-ended Visual Quality Comparison

The All-Seeing Project V2: Towards General Relation Comprehension of the Open World

DynaMath: A Dynamic Visual Benchmark for Evaluating Mathematical Reasoning Robustness of Vision Language Models

MLLMs Know Where to Look: Training-free Perception of Small Visual Details with Multimodal LLMs

CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition

MV-Adapter: Multi-View Consistent Image Generation Made Easy

VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents

Unifying 3D Vision-Language Understanding via Promptable Queries

Image and Video Tokenization with Binary Spherical Quantization

DocFormerv2: Local Features for Document Understanding

Context-I2W: Mapping Images to Context-Dependent Words for Accurate Zero-Shot Composed Image Retrieval

Q-Insight: Understanding Image Quality via Visual Reinforcement Learning

Wonderland: Navigating 3D Scenes from a Single Image

VLCounter: Text-Aware Visual Representation for Zero-Shot Object Counting

Visual In-Context Prompting

Describing Differences in Image Sets with Natural Language

Discovering and Mitigating Visual Biases through Keyword Explanation

Contrastive Region Guidance: Improving Grounding in Vision-Language Models without Training

EarthVQA: Towards Queryable Earth via Relational Reasoning-Based Remote Sensing Visual Question Answering

Grounded Question-Answering in Long Egocentric Videos

TEOChat: A Large Vision-Language Assistant for Temporal Earth Observation Data

CLOVA: A Closed-LOop Visual Assistant with Tool Usage and Update

Knowledge-Enhanced Dual-stream Zero-shot Composed Image Retrieval

Visual Agents as Fast and Slow Thinkers

ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding

MET3R: Measuring Multi-View Consistency in Generated Images

One Prompt Word is Enough to Boost Adversarial Robustness for Pre-trained Vision-Language Models

Articulate-Anything: Automatic Modeling of Articulated Objects via a Vision-Language Foundation Model

A-Bench: Are LMMs Masters at Evaluating AI-generated Images?

Revisiting Single Image Reflection Removal In the Wild

How to Configure Good In-Context Sequence for Visual Question Answering

Question Aware Vision Transformer for Multimodal Reasoning

TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models

Transformer-Based No-Reference Image Quality Assessment via Supervised Contrastive Learning

Exploring Sparse Visual Prompt for Domain Adaptive Dense Prediction

Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing

Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation

Open-World Human-Object Interaction Detection via Multi-modal Prompts

Cross-view image geo-localization with Panorama-BEV Co-Retrieval Network

Visual Agentic AI for Spatial Reasoning with a Dynamic API

VisualQuality-R1: Reasoning-Induced Image Quality Assessment via Reinforcement Learning to Rank

Visual Haystacks: A Vision-Centric Needle-In-A-Haystack Benchmark

Spot the Fake: Large Multimodal Model-Based Synthetic Image Detection with Artifact Explanation

MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models

HaloQuest: A Visual Hallucination Dataset for Advancing Multimodal Reasoning

EgoTextVQA: Towards Egocentric Scene-Text Aware Video Question Answering

VideoWorld: Exploring Knowledge Learning from Unlabeled Videos

Blind Image Quality Assessment Based on Geometric Order Learning

Chain-of-Action: Faithful and Multimodal Question Answering through Large Language Models

Bridging the Gap between 2D and 3D Visual Question Answering: A Fusion Approach for 3D VQA

SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding

Doubly Abductive Counterfactual Inference for Text-based Image Editing

MagicQuill: An Intelligent Interactive Image Editing System

XLRS-Bench: Could Your Multimodal LLMs Understand Extremely Large Ultra-High-Resolution Remote Sensing Imagery?

Your ViT is Secretly an Image Segmentation Model

An Intelligent Agentic System for Complex Image Restoration Problems

Answer, Assemble, Ace: Understanding How LMs Answer Multiple Choice Questions

Object-Aware Adaptive-Positivity Learning for Audio-Visual Question Answering

WSI-VQA: Interpreting Whole Slide Images by Generative Visual Question Answering

HYDRA: A Hyper Agent for Dynamic Compositional Visual Reasoning

KRIS-Bench: Benchmarking Next-Level Intelligent Image Editing Models

MMQA: Evaluating LLMs with Multi-Table Multi-Hop Complex Questions

MindTuner: Cross-Subject Visual Decoding with Visual Fingerprint and Semantic Correction

LEGO: Learning EGOcentric Action Frame Generation via Visual Instruction Tuning