Adversarial Attacks

ICML 2025arXiv:2404.16873

#2

AdvPrompter: Fast Adaptive Adversarial Prompting for LLMs

Anselm Paulus, Arman Zharmagambetov, Chuan Guo et al.

123

ICLR 2024arXiv:2303.09105

#3

Rethinking Model Ensemble in Transfer-based Adversarial Attacks

Huanran Chen, Yichi Zhang, Yinpeng Dong et al.

96

CVPR 2024arXiv:2312.03777

#4

On the Robustness of Large Multimodal Models Against Image Adversarial Attacks

Xuanming Cui, Alejandro Aparcedo, Young Kyun Jang et al.

80

ICLR 2025arXiv:2406.12814

#5

Dissecting Adversarial Robustness of Multimodal LM Agents

Chen Wu, Rishi Shah, Jing Yu Koh et al.

77

ICLR 2024arXiv:2310.00076

#6

Robustness of AI-Image Detectors: Fundamental Limits and Practical Attacks

Mehrdad Saberi, Vinu Sankar Sadasivan, Keivan Rezaei et al.

74

CVPR 2024arXiv:2305.11618

#7

DAP: A Dynamic Adversarial Patch for Evading Person Detectors

Amira Guesmi, Ruitian Ding, Muhammad Abdullah Hanif et al.

48

ICLR 2025arXiv:2405.18540

#8

Learning Diverse Attacks on Large Language Models for Robust Red-Teaming and Safety Tuning

Seanie Lee, Minsu Kim, Lynn Cherif et al.

automated red-teaminglarge language modelssafety tuningreinforcement learning+4

42

CVPR 2024arXiv:2404.16452

#9

PAD: Patch-Agnostic Defense against Adversarial Patch Attacks

Lihua Jing, Rui Wang, Wenqi Ren et al.

39

ICLR 2025arXiv:2406.12027

#10

Adversarial Perturbations Cannot Reliably Protect Artists From Generative AI

Robert Hönig, Javier Rando, Nicholas Carlini et al.

adversarial perturbationsstyle mimicryimage generation modelsartistic style protection+2

35

AAAI 2024arXiv:2312.11285

#11

Adv-Diffusion: Imperceptible Adversarial Face Identity Attack via Latent Diffusion Model

Decheng Liu, Xijun Wang, Chunlei Peng et al.

adversarial attacksface recognition modelslatent diffusion modelidentity-sensitive conditioning+4

34

CVPR 2024arXiv:2404.09401

#12

Watermark-embedded Adversarial Examples for Copyright Protection against Diffusion Models

Peifei Zhu, Tsubasa Takahashi, Hirokatsu Kataoka

34

ICLR 2025arXiv:2408.00315

#13

Adversarial Search Engine Optimization for Large Language Models

Fredrik Nestaas, Edoardo Debenedetti, Florian Tramer

ADBM: Adversarial Diffusion Bridge Model for Reliable Adversarial Purification

Xiao Li, Wenxuan Sun, Huanran Chen et al.

24

CVPR 2025arXiv:2503.08269

#15

Black-Box Forgery Attacks on Semantic Watermarks for Diffusion Models

Andreas Müller, Denis Lukovnikov, Jonas Thietke et al.

Adv-CPG: A Customized Portrait Generation Framework with Facial Adversarial Attacks

Junying Wang, Hongyuan Zhang, Yuan Yuan

customized portrait generationfacial adversarial attacksprivacy protectionface recognition systems+3

20

ICLR 2025arXiv:2502.03052

#17

Improving Transferable Targeted Adversarial Attacks with Model Self-Enhancement

Han Wu, Guanyan Ou, Weibin Wu et al.

Understanding and Enhancing the Transferability of Jailbreaking Attacks

Runqi Lin, Bo Han, Fengwang Li et al.

16

AAAI 2024arXiv:2311.13091

#19

Stable Unlearnable Example: Enhancing the Robustness of Unlearnable Examples via Stable Error-Minimizing Noise

Yixin Liu, Kaidi Xu, Xun Chen et al.

unlearnable examplesdata poisoningadversarial trainingdefensive noise+4

16

ICLR 2024arXiv:2306.11035

#20

Adversarial Training Should Be Cast as a Non-Zero-Sum Game

Alex Robey, Fabian Latorre, George Pappas et al.

15

CVPR 2024arXiv:2306.15755

#21

Adversarial Backdoor Attack by Naturalistic Data Poisoning on Trajectory Prediction in Autonomous Driving

Mozhgan Pourkeshavarz, Mohammad Sabokrou, Amir Rasouli

14

AAAI 2025arXiv:2412.10713

#22

Robust Distillation via Untargeted and Targeted Intermediate Adversarial Samples

Junhao Dong, Piotr Koniusz, Junxi Chen et al.

RAT: Adversarial Attacks on Deep Reinforcement Agents for Targeted Behaviors

Fengshuo Bai, Runze Liu, Yali Du et al.

12

NeurIPS 2025arXiv:2505.21494

#24

Adversarial Attacks against Closed-Source MLLMs via Feature Optimal Alignment

Xiaojun Jia, Sensen Gao, Simeng Qin et al.

adversarial attacksmultimodal large language modelsfeature alignmentoptimal transport+4

12

ICLR 2024arXiv:2306.08386

#25

Efficient Backdoor Attacks for Deep Neural Networks in Real-world Scenarios

Ziqiang Li, Hong Sun, Pengfei Xia et al.

11

CVPR 2025arXiv:2408.17064

#26

Instant Adversarial Purification with Adversarial Consistency Distillation

Chun Tong Lei, Hon Ming Yam, Zhongliang Guo et al.

11

ICLR 2024arXiv:2310.10780

#27

Demystifying Poisoning Backdoor Attacks from a Statistical Perspective

Ganghua Wang, Xun Xian, Ashish Kundu et al.

10

ICLR 2024arXiv:2305.17342

#28

Rethinking Adversarial Policies: A Generalized Attack Formulation and Provable Defense in RL

Xiangyu Liu, Souradip Chakraborty, Yanchao Sun et al.

9

CVPR 2025arXiv:2411.15720

#29

Anyattack: Towards Large-scale Self-supervised Adversarial Attacks on Vision-language Models

Jiaming Zhang, Junhong Ye, Xingjun Ma et al.

Chain of Attack: On the Robustness of Vision-Language Models Against Transfer-Based Adversarial Attacks

Peng Xie, Yequan Bie, Jianda Mao et al.

9

AAAI 2025arXiv:2408.00352

#31

ADBA: Approximation Decision Boundary Approach for Black-Box Adversarial Attacks

Feiyang Wang, Xingquan Zuo, Hai Huang et al.

Autonomous LLM-Enhanced Adversarial Attack for Text-to-Motion

Honglei Miao, Fan Ma, Ruijie Quan et al.

8

AAAI 2025arXiv:2408.09469

#33

Enhancing Adversarial Transferability with Adversarial Weight Tuning

Jiahao Chen, Zhou Feng, Rui Zeng et al.

8

ICML 2025arXiv:2503.01811

#34

AutoAdvExBench: Benchmarking Autonomous Exploitation of Adversarial Example Defenses

Nicholas Carlini, Edoardo Debenedetti, Javier Rando et al.

8

AAAI 2025arXiv:2502.02438

#35

Medical Multimodal Model Stealing Attacks via Adversarial Domain Alignment

Yaling Shen, Zhixiong Zhuang, Kun Yuan et al.

7

ECCV 2024arXiv:2407.12292

#36

On the Robustness of Neural-Enhanced Video Streaming against Adversarial Attacks

Qihua Zhou, Jingcai Guo, Song Guo et al.

Any Target Can be Offense: Adversarial Example Generation via Generalized Latent Infection

Youheng Sun, Shengming Yuan, Xuanhan Wang et al.

targeted adversarial attackadversarial example generationlatent representation injectionclass-agnostic attack+4

7

AAAI 2025arXiv:2412.12850

#38

Boosting Fine-Grained Visual Anomaly Detection with Coarse-Knowledge-Aware Adversarial Learning

Qingqing Fang, Qinliang Su, Wenxi Lv et al.

6

AAAI 2024arXiv:2312.13628

#39

UV-Attack: Physical-World Adversarial Attacks on Person Detection via Dynamic-NeRF-based UV Mapping

Yanjie Li, Kaisheng Liang, Bin Xiao

Where and How to Attack? A Causality-Inspired Recipe for Generating Counterfactual

Ruichu Cai, Yuxuan Zhu, Jie Qiao et al.

adversarial examplescausal generating processcounterfactual adversarial examplesunrestricted attacks+4

5

ICLR 2024arXiv:2307.11565

#41

Value at Adversarial Risk: A Graph Defense Strategy against Cost-Aware Attacks

Junlong Liao, Wenda Fu, Cong Wang et al.

Adversarial Feature Map Pruning for Backdoor

Dong HUANG, Qingwen Bu

5

ICLR 2024arXiv:2402.10470

#43

Theoretical Understanding of Learning from Adversarial Perturbations

Soichiro Kumano, Hiroshi Kera, Toshihiko Yamasaki

ICML 2025arXiv:2410.06851

#44

Understanding Model Ensemble in Transferable Adversarial Attack

Wei Yao, Zeliang Zhang, Huayi Tang et al.

AAAI 2025arXiv:2312.03289

#45

HUANG: A Robust Diffusion Model-based Targeted Adversarial Attack Against Deep Hashing Retrieval

Chihan Huang, Xiaobo Shen

Enhancing Robustness in Incremental Learning with Adversarial Training

Seungju Cho, Hongsin Lee, Changick Kim

AAAI 2025arXiv:2409.14161

#47

When Witnesses Defend: A Witness Graph Topological Layer for Adversarial Graph Learning

Naheed Anjum Arafat, Debabrota Basu, Yulia Gel et al.

NeurIPS 2025arXiv:2508.02110

#48

Attractive Metadata Attack: Inducing LLM Agents to Invoke Malicious Tools

Kanghua Mo, Li Hu, Yucheng Long et al.

tool metadata manipulationllm agent securityblack-box optimizationprivacy leakage attacks+4

CVPR 2025arXiv:2412.09910

#49

Prompt2Perturb (P2P): Text-Guided Diffusion-Based Adversarial Attack on Breast Ultrasound Images

Yasamin Medghalchi, Moein Heidari, Clayton Allard et al.

ICCV 2025arXiv:2506.23581

#50

PBCAT: Patch-Based Composite Adversarial Training against Physically Realizable Attacks on Object Detection

Xiao Li, Yiming Zhu, Yifan Huang et al.

3

AAAI 2025arXiv:2502.19070

#51

A Sample-Level Evaluation and Generative Framework for Model Inversion Attacks

Haoyang Li, Li Bai, Qingqing Ye et al.

3

AAAI 2025arXiv:2501.01106

#52

AIM: Additional Image Guided Generation of Transferable Adversarial Attacks

Teng Li, Xingjun Ma, Yu-Gang Jiang

3

ICLR 2025arXiv:2502.04643

#53

ProAdvPrompter: A Two-Stage Journey to Effective Adversarial Prompting for LLMs

Hao Di, Tong He, Haishan Ye et al.

Confidence Elicitation: A New Attack Vector for Large Language Models

Brian Formento, Chuan Sheng Foo, See-Kiong Ng

adversarial robustnesslarge language modelsblack-box attacksconfidence elicitation+4

ECCV 2024arXiv:2410.10091

#55

Adversaries With Incentives: A Strategic Alternative to Adversarial Robustness

Maayan Ehrenberg, Roy Ganz, Nir Rosenfeld

A Unified, Resilient, and Explainable Adversarial Patch Detector

Vishesh Kumar, Akshay Agarwal

Out-of-Bounding-Box Triggers: A Stealthy Approach to Cheat Object Detectors

Tao Lin, lijia Yu, Gaojie Jin et al.

adversarial robustnessobject detection systemsphysical adversarial attacksadversarial triggers+3

CVPR 2025arXiv:2506.01591

#58

Silence is Golden: Leveraging Adversarial Examples to Nullify Audio Control in LDM-based Talking-Head Generation

Yuan Gan, Jiaxu Miao, Yunze Wang et al.

ICCV 2025arXiv:2508.05689

#59

Boosting Adversarial Transferability via Residual Perturbation Attack

Jinjia Peng, Zeze Tao, Huibing Wang et al.

CVPR 2025arXiv:2405.16226

#60

Detecting Adversarial Data Using Perturbation Forgery

Qian Wang, Chen Li, Yuchen Luo et al.

adversarial detectionadversarial attacksnoise patternsgenerative models+3

CVPR 2025arXiv:2502.21048

#61

Data-free Universal Adversarial Perturbation with Pseudo-semantic Prior

Chanhui Lee, Yeonghwan Song, Jeany Son

ECCV 2024arXiv:2407.10077

#62

Transferable 3D Adversarial Shape Completion using Diffusion Models

Xuelong Dai, Bin Xiao

AAAI 2024arXiv:2402.13487

#63

Stealthy Adversarial Attacks on Stochastic Multi-Armed Bandits

Zhiwei Wang, Hongning Wang, Huazheng Wang

stochastic multi-armed banditsadversarial attacksreward poisoning attacksattack detection+3

ICLR 2025arXiv:2502.17121

#64

Adversarial Training for Defense Against Label Poisoning Attacks

Melis Ilayda Bal, Volkan Cevher, Michael Muehlebach

AAAI 2025arXiv:2408.11680

#65

GPromptShield: Elevating Resilience in Graph Prompt Tuning Against Adversarial Attacks

Shuhan Song, Ping Li, Ming Dun et al.

First Line of Defense: A Robust First Layer Mitigates Adversarial Attacks

Janani Suresh, Nancy Nayak, Sheetal Kalyani

ICLR 2025arXiv:2502.05542

#67

Democratic Training Against Universal Adversarial Perturbations

Bing Sun, Jun Sun, Wei Zhao

ICLR 2024arXiv:2310.00567

#68

Understanding the Robustness of Randomized Feature Defense Against Query-Based Adversarial Attacks

Hung Quang Nguyen, Yingjie Lao, Tung Pham et al.

NeurIPS 2025arXiv:2507.12107

#69

Adversarial Perturbations Are Formed by Iteratively Learning Linear Combinations of the Right Singular Vectors of the Adversarial Jacobian

Thomas Paniagua, Chinmay Savadikar, Tianfu Wu

Training A Secure Model against Data-Free Model Extraction

Zhenyi Wang, Li Shen, junfeng guo et al.

Non-Adaptive Adversarial Face Generation

Sunpill Kim, Seunghun Paik, Chanwoo Hwang et al.

adversarial face generationface recognition systemsadversarial attacksfeature space structure+3

#72

Semantic Representation Attack against Aligned Large Language Models

Jiawei Lian, Jianhong Pan, Lefan Wang et al.

Towards Building Model/Prompt-Transferable Attackers against Large Vision-Language Models

Xiaowen Cai, Daizong Liu, Xiaoye Qu et al.

A Set of Generalized Components to Achieve Effective Poison-only Clean-label Backdoor Attacks with Collaborative Sample Selection and Triggers

Zhixiao Wu, Yao Lu, Jie Wen et al.

Diffusion Guided Adversarial State Perturbations in Reinforcement Learning

Xiaolin Sun, Feidi Liu, Zhengming Ding et al.

Consensus-Robust Transfer Attacks via Parameter and Representation Perturbations

Shixin Li, Zewei Li, Xiaojing Ma et al.

Transstratal Adversarial Attack: Compromising Multi-Layered Defenses in Text-to-Image Models

Chunlong Xie, Kangjie Chen, Shangwei Guo et al.

adversarial attackstext-to-image modelsmulti-layered defensessafety mechanisms+4

#78

AdvEDM: Fine-grained Adversarial Attack against VLM-based Embodied Agents

Yichen Wang, Hangtao Zhang, Hewen Pan et al.

HQA-VLAttack: Towards High Quality Adversarial Attack on Vision-Language Pre-Trained Models

Han Liu, Jiaqi Li, Zhi Xu et al.

adversarial attackvision-language modelsblack-box attackcontrastive learning+3

ICLR 2025arXiv:2503.12827

#80

A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1

Zhaoyi Li, Xiaohan Zhao, Dong-Dong Wu et al.

GSBA$^K$: $top$-$K$ Geometric Score-based Black-box Attack

Md Farhamdur Reza, Richeng Jin, Tianfu Wu et al.

adversarial attacksblack-box attacksscore-based attackstop-k predictions+4

#82

TransferBench: Benchmarking Ensemble-based Black-box Transfer Attacks

Fabio Brau, Maura Pintor, Antonio Cinà et al.

adversarial examplesblack-box attackstransfer attacksensemble methods+4

NeurIPS 2025arXiv:2410.08864

#83

Wicked Oddities: Selectively Poisoning for Effective Clean-Label Backdoor Attacks

Hung Quang Nguyen, Hieu Nguyen, Anh Ta et al.

Adversarial Training Can Provably Improve Robustness: Theoretical Analysis of Feature Learning Process Under Structured Data

Binghui Li, Yuanzhi Li

The Good, the Bad and the Ugly: Meta-Analysis of Watermarks, Transferable Attacks and Adversarial Defenses

Greg Gluch, Berkant Turan, Sai Ganesh Nagarajan et al.

backdoor-based watermarksadversarial defensestransferable attacksfully homomorphic encryption+3

ICLR 2025arXiv:2310.04539

#86

ASTrA: Adversarial Self-supervised Training with Adaptive-Attacks

Prakash Chandra Chhipa, Gautam Vashishtha, Jithamanyu Settur et al.

Generating Less Certain Adversarial Examples Improves Robust Generalization

Minxing Zhang, Michael Backes, Xiao Zhang

adversarial trainingrobust generalizationadversarial examplesmodel certainty+3

#88

Enhancing Diffusion-based Unrestricted Adversarial Attacks via Adversary Preferences Alignment

Kaixun Jiang, Zhaoyu Chen, HaiJing Guo et al.

Fit the Distribution: Cross-Image/Prompt Adversarial Attacks on Multimodal Large Language Models

Hai Yan, Haijian Ma, Xiaowen Cai et al.

adversarial attacksmultimodal large language modelsdistribution approximation theorycross-image transfer attacks+4

ICLR 2025arXiv:2503.10081

#90

Targeted Attack Improves Protection against Unauthorized Diffusion Customization

Boyang Zheng, Chumeng Liang, Xiaoyu Wu

Adversarial Paraphrasing: A Universal Attack for Humanizing AI-Generated Text

Yize Cheng, Vinu Sankar Sadasivan, Mehrdad Saberi et al.

AdvPaint: Protecting Images from Inpainting Manipulation via Adversarial Attention Disruption

Joonsung Jeon, Woo Jae Kim, Suhyeon Ha et al.

adversarial perturbationsdiffusion modelsimage inpaintingattention mechanism disruption+3

#93

Rethinking Audio-Visual Adversarial Vulnerability from Temporal and Modality Perspectives

Zeliang Zhang, Susan Liang, Daiki Shimada et al.

Towards Irreversible Attack: Fooling Scene Text Recognition via Multi-Population Coevolution Search

Jingyu Li, Pengwen Dai, Mingqing Zhu et al.

Beyond Mere Token Analysis: A Hypergraph Metric Space Framework for Defending Against Socially Engineered LLM Attacks

Manohar Kaul, Aditya Saibewar, Sadbhavana Babar

MixAT: Combining Continuous and Discrete Adversarial Training for LLMs

Csaba Dékány, Stefan Balauca, Dimitar I. Dimitrov et al.

Detecting Backdoor Samples in Contrastive Language Image Pretraining

Hanxun Huang, Sarah Erfani, Yige Li et al.

Adversary Aware Optimization for Robust Defense

Daniel Wesego, Pedram Rooshenas

adversarial attacksoptimization-based purificationdiffusion priorscore-based generative models+4

#99

A Closer Look at Curriculum Adversarial Training: From an Online Perspective

Lianghe Shi, Weiwei Liu

Attack To Defend: Exploiting Adversarial Attacks for Detecting Poisoned Models

Samar Fares, Karthik Nandakumar

CVPR 2024