Open Dataset: 100k+ Multimodal Prompt Injection Samples with Academic Sourcing

19 Apr 2026

MachineLearningCybersecurityDatasetsPromptInjection

This dataset contains 101,032 samples, evenly split between 50,516 attack and 50,516 benign examples. The attack samples cover 27 categories sourced from over 55 published papers and disclosed vulnerabilities, including classical injection, adversarial suffixes, cross-modal delivery, and emerging agentic attacks. The methodology is documented with scope definition, construction layers, label assignment, and known limitations. The dataset is reproducible, with deterministic generators and verifiable academic references for each attack sample.