当前位置: 首页 > 团体标准 > 综合团体标准 > T/SAIAS 001-2024 神经网络分类模型鲁棒性测试方法

T/SAIAS 001-2024 神经网络分类模型鲁棒性测试方法

收藏
  • 大小:4.96 MB
  • 语言:中文版
  • 格式:PDF文档
  • 类别:综合团体标准
  • 更新日期:2025-02-28
资源简介
ICS 35.020 CCS L70 上海市人工智能行业协会团体标准 T/SAIAS 001—2024 神经网络分类模型鲁棒性测试方法 Test methods for robustness of neural network classification models 2024-08-31发布2024-09-01 实施上海市人工智能行业协会发布目次前言............................................................................ II 1 范围............................................................................... 1 2 规范性引用文件..................................................................... 1 3 术语和定义......................................................................... 1 4 神经网络分类模型鲁棒性需考虑因素................................................... 1 4.1 模型研发和训练阶段............................................................. 2 4.2 模型使用阶段................................................................... 2 5 测试方法........................................................................... 2 5.1 概述........................................................................... 2 5.2 基本原则....................................................................... 2 5.3 对抗攻击测试方法............................................................... 2 5.4 中毒攻击测试方法............................................................... 4 5.5 后门攻击测试方法............................................................... 5 5.6 基本指标与测试报告............................................................. 7 附录 A (资料性) 神经网络分类模型鲁棒性攻击/干扰方法............................. 8 A.1 对抗攻击方法..................................................................... 8 A.2 中毒攻击方法..................................................................... 8 A.3 后门攻击方法..................................................................... 8 附录 B (资料性) 神经网络分类模型测试报告模板示例................................ 9 参考文献......................................................................... 13 T/SAIAS 001—2024 II 前言本文件按照GB 1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。 本文件由上海市人工智能行业协会提出并归口。 本文件起草单位:上海华东电信研究院、京东科技信息技术有限公司、蚂蚁智安安全技术(上海)有限公司、上海市人工智能行业协会、上海市质量和标准化研究院、百度(中国)有限公司、上海传之神科技有限公司、上海人工智能实验室、上海商汤智能科技有限公司、上海淇毓信息科技有限公司、中电金信数字科技集团有限公司、蚂蚁云科技集团股份有限公司、中国电子科技集团公司第三十二研究所、上海工程技术大学、上海大学、上海稀宇极智科技有限公司、上海笑聘网络科技有限公司、云从科技集团股份有限公司、迪爱斯信息技术股份有限公司、上海仪电人工智能创新院有限公司、联通(上海)产业互联网有限公司、中远海运科技股份有限公司、中国电信股份有限公司上海分公司、立信会计师事务所、东方财富信息股份有限公司。 本文件主要起草人:彭莉、常永波、陈俊琰、刘项杨、崔世文、孟昌华、陈曦、张正敏、谢永康、曹东、瞿晶晶、白磊、吴庚、余佳、况文川、杨清、谢恽、谢军、张宇军、龙刚、林娇娇、魏丹、李晓强、刘华、孔杰、高永志、何之栋、杜渂、牛红星、夏禹、刘津恺、堵炜炜、胡超、虞祝豪、王骏翔、杨文恺、郭汉杰、蔡旻、旭东、刘志毅、张恺。 首期承诺执行单位:上海华东电信研究院、京东科技信息技术有限公司、蚂蚁智安安全技术(上海)有限公司、上海市人工智能行业协会、上海市质量和标准化研究院、百度(中国)有限公司、上海传之神科技有限公司、上海人工智能实验室、上海商汤智能科技有限公司、上海淇毓信息科技有限公司、中电金信数字科技集团有限公司、蚂蚁云科技集团股份有限公司、中国电子科技集团公司第三十二研究所、上海工程技术大学、上海大学、上海稀宇极智科技有限公司、上海笑聘网络科技有限公司、云从科技集团股份有限公司、迪爱斯信息技术股份有限公司、上海仪电人工智能创新院有限公司、联通(上海)产业互联网有限公司、中远海运科技股份有限公司、中国电信股份有限公司上海分公司、立信会计师事务所、东方财富信息股份有限公司。 T/SAIAS 001—2024 1 神经网络分类模型鲁棒性测试方法 1 范围本文件提出了神经网络分类模型鲁棒性需考虑的因素,并提供了神经网络分类模型鲁棒性测试方法。 本文件适用于神经网络分类模型鲁棒性测试评估系统。 2 规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。 GB 41867-2022 信息技术人工智能术语 3 术语和定义 GB 41867-2022界定的以及下列术语和定义适用于本文件。 3.1 神经网络分类模型 neural network classification model 向给定的神经网络输入数据,输出其所属的一个或多个类别的机器学习模型。 3.2 神经网络分类模型鲁棒性 robustness of neural network classification model 神经网络分类模型在输入数据受到攻击或干扰等情况下保持其性能水平的特性,通常通过抵抗攻击或干扰的成功率进行衡量。 3.3 对抗攻击 adversarial attack 通过设计向原始测试样本添加一些不易察觉的噪声/扰动从而让神经网络分类模型做出误判的攻击方式。 3.4 中毒攻击 poisoning attack 通过向神经网络分类模型的训练数据投放特定设计的污染数据,从而影响神经网络分类模型判断能力使得模型中毒的攻击方式。 3.5 后门攻击 backdoor attack 在神经网络分类模型训练阶段通过某种方式对模型植入后门,从而导致模型将精心设计的含有后门触发条件的样本识别成特定类型的攻击方式。 4 神经网络分类模型鲁棒性需考虑因素 T/SAIAS 001—2024 2 4.1 模型研发和训练阶段为提升神经网络分类模型鲁棒性,在神经网络分类模型的研发和训练阶段,需考虑的因素包括且不限于: a) 选择适当的神经网络结构,提高抵御对抗攻击和中毒攻击的能力; b) 各类异常数据检测方法,能检测并清除对抗样本、中毒样本、后门样本等恶意数据; c) 进行针对对抗样本的对抗训练,用于提升模型对污染数据进行识别的鲁棒性; d) 采用模型剪枝、后门检测等技术提升模型抵抗攻击的防御能力。 4.2 模型使用阶段为提升神经网络分类模型鲁棒性,在神经网络分类模型的使用阶段,可针对不同攻击/干扰,需考虑的因素包括且不限于: a) 具备防止对抗攻击通过构造针对性样本以达成诱使人工智能系统决策出错的能力; b) 具备识别并防止中毒攻击通过向模型的训练数据集注入中毒样本以达成在调优过程中劣化模型性能的能力; c) 具备识别并防止后门攻击通过后门样本对人工智能系统进行攻击以达成定向操纵人工智能系统的能力; d) 具备识别并防止其他针对输入数据、模型本身的任何其他攻击/干扰而保持其性能的能力。 5 测试方法 5.1 概述 5.1.1 通过对待测试神经网络分类模型发起攻击并观测模型抵抗攻击的能力来对神经网络分类模型进行鲁棒性测试。 5.1.2 针对神经网络分类模型鲁棒性的攻击方式主要有对抗攻击、中毒攻击、后门攻击。 5.1.3 通过模型抵抗攻击的成功率来衡量和量化模型鲁棒性指标,抗攻击成功率越高模型鲁棒性越强,反之,则鲁棒性越弱。 5.2 基本原则神经网络分类模型鲁棒性测试方法的设计可遵循如下原则: a) 方法的完备性。测试过程宜尽可能覆盖对抗攻击测试、中毒攻击测试和后门攻击测试; b) 数据的完备性。攻击样本宜覆盖神经网络分类模型所能识别的所有样本类别,且每个类别的样本分布宜均衡且分散。 5.3 对抗攻击测试方法 5.3.1 测试方法描述 5.3.1.1依据5.2的基本原则,选择能被正确分类的一组测试样本,向被选中的测试样本添加扰动/干扰,生成对抗攻击样本。 注:添加扰动/干扰表示通过加入新信息,或删除、修改原数据达到生成新的样本的目的。 5.3.1.2使用攻击样本向神经网络分类模型发起攻击,观察神经网络分类模型对攻击样本分类结果是否正确或结果受干扰程度,判断神经网络分类模型的抗对抗攻击的鲁棒性。 5.3.1.3若模型对攻击样本的分类结果正确,抗攻击成功,反之,则抗攻击失败。 T/SAIAS 001—2024 3 5.3.1.4通过多组次输入不同攻击样本对,统计抗攻击成功的概率,从而量化神经网络分类模型鲁棒性指标。 5.3.2 测试方法、攻击样本、测试样本设计原则测试方法、攻击样本、测试样本设计原则如下: a) 作用于模型生成之后的推理阶段; b) 选择的所有测试样本应能被模型正确分类; c) 攻击样本应达成诱使神经网络分类模型决策出错的能力; d) 攻击样本被添加的扰动/干扰不容易被察觉。 注: 具体方法可参考附录A.1对抗攻击方法进行设计。 5.3.3 测试流程通过如下流程对神经网络分类模型抗对抗攻击鲁棒性进行测试(如图1所示): a) 获取待评测的神经网络分类模型,选取能被正确分类的样本形成测试样本集; b) 向每一个测试样本添加扰动/干扰生成对抗攻击样本,形成<原始样本,攻击样本>对; c) 成对向神经网络分类模型输入<原始样本,攻击样本>中的样本,进行分类,对分类结果进行对比,结果一致则模型抗攻击成功,结果不一致则模型抗攻击失败; d) 统计所有<原始样本,攻击样本>对的攻击次数和模型抗攻击成功次数,并通过公式(1)计算待测评的神经网络分类模型的抗对抗攻击的鲁棒性; e) 计算结果输出。 图1 对抗攻击鲁棒性测试流程图 5.3.4 度量方法 5.3.4.1通过统计神经网络分类模型抗攻击成功率,来衡量神经网络分类模型的抗对抗攻击的鲁棒性。抗攻击成功率越高则模型的抗对抗攻击的鲁棒性越强,反之越低。 5.3.4.2若通过多种不同对抗样本生成方法(可参考附录A.1相关方法),宜根据扰动预算与攻击强度设置不同的权重系数,权重系数应遵循扰动预算与攻击强度越高权重越大的规律进行设置,所有对抗攻击种类的权重系数之和应为1。 5.3.4.3神经网络模型抗对抗攻击的鲁棒性度量方法见式(1)。 γ1=Σ ki∗TNiNini=1 (1) 其中: n 表示采用的攻击样本生成方法的类别数 ki 表示每一种对抗攻击的权重系数,其中Σkini=1=1 Ni 表示第i类对抗攻击的攻击次数(即攻击样本对的数量) T/SAIAS 001—2024 4 TNi 表示模型对第i类对抗攻击的抗攻击成功次数 5.4 中毒攻击测试方法 5.4.1 测试方法描述 5.4.1.1中毒攻击是指向神经网络分类模型的训练数据中投放中毒样本,从而影响神经网络分类模型的训练过程,使得模型分类准确率降低。 5.4.1.2投入中毒训练样本重新训练或微调模型,生成新的中毒攻击后的分类模型(简称中毒模型),通过对比原模型和中毒模型的在同一测试集上的结果差异来评价神经网络分类模型的抗中毒攻击鲁棒性。 5.4.1.3中毒样本投入方式有两类: a) 投放于模型初始训练阶段; b) 投放于模型迁移/增量训练阶段(即模型微调)。 5.4.1.4中毒模型生成方法: a) 初始训练:将设计的中毒样本投入原始纯净样本训练集,对神经网络分类模型进行重新训练,生成中毒模型; b) 增量训练:将设计的中毒样本投入增量训练集,并使用该训练集对原分类模型进行迁移/增量训练,生成中毒模型。 5.4.1.5准备一个测试样本集(设计原则见5.4.2e),分别使用原模型和中毒模型对该测试集进行测试,比较两个分类模型在该数据集上的表现差异。 5.4.2 测试方法、攻击样本、测试样本设计原则测试方法、攻击样本、测试样本设计原则如下: a) 中毒样本作用于模型预训练阶段或微调阶段; b) 若不能介入神经网络模型的训练(包括预训练或迁移/增量训练),则无法进行抗中毒攻击的鲁棒性测试; c) 中毒样本应具有破坏训练数据分布的能力; d) 应确保测试数据集中数据的多样性,即防止测试数据分布过于集中; e) 应确保测试数据集在原分类模型(即纯净样本训练的模型)上的准确率,越接近1越好。 注: 具体方法可参考附录A.2对中毒攻击方法进行设计。 5.4.3 测试流程若能对神经网络分类模型进行训练,则可进行测试,否则,则无需测试。神经网络分类模型抗中毒攻击鲁棒性测试流程为(如图2所示): a) 获取待评测的神经网络分类模型的网络结构和参数、原模型、训练数据; 注: 训练数据来源包括原始训练数据集、新的数据集等。 b) 在训练数据基础上,通过多种中毒样本生成方法生成中毒数据,对模型进行重新训练或微调,得到中毒模型(参考5.4.1.4); c) 分别向原分类模型和中毒模型输入同样的测试数据集,并记录分类结果; d) 通过式(2)计算模型的抗中毒攻击的鲁棒性,量化方法可根据情况选择精确率、F1、AUC等评价指标; e) 计算结果输出。 T/SAIAS 001—2024 5 图 2 中毒攻击鲁棒性测试流程图 5.4.4 度量方法 5.4.4.1通过观测原模型和中毒模型对同一组测试数据集的分类表现差异量化神经网络的抗中毒攻击的鲁棒性,差异越小即抗中毒攻击的鲁棒性越高,反之,鲁棒性越低。 5.4.4.2选定一个度量指标,记为F,分别通过该指标计算原模型和中毒模型的测试结果。神经网络模型抗中毒攻击的鲁棒性度量方法见式(2)。 γ2={1−(Fori−Fpoi)Fori−Fpoi≥01 其他 (2) 其中: Fori 表示原模型的测试结果 Fori 表示中毒模型的测试结果 5.5 后门攻击测试方法 5.5.1 测试方法描述 5.5.1.1后门攻击是指向训练集中投入后门样本,使用该训练集对神经网络分类模型进行训练,从而形成后门,使得训练出的神经网络分类模型能被含有后门触发器的样本针对性操控。 5.5.1.2设计含有后门触发器的测试样本对模型进行攻击,通过模型抗攻击成功率判断模型的抗后门攻击的鲁棒性。 注: 后门攻击的特点在于对不含触发器的测试样本表现正常,针对某一些加入触发器的样本能按照攻击人的意图被识别成特定的类别,从而出现异常表现。 5.5.1.3若预先知道被植入的后门,则可以针对性设计攻击样本进行测试;若不知道被植入的后门,可以按照常用的后门样本生成方法生成攻击样本,分别进行测试。若模型能正常识别攻击样本则模型抗后门攻击成功,反之,则攻击失败。 5.5.1.4通过多组次输入不同种类的后门攻击样本集,分别统计每一类样本攻击失败的概率,从而量化模型对抗不同后门攻击的鲁棒性指标。 5.5.1.5测试结果只表征对某一类特定后门攻击的鲁棒性。 5.5.2 测试方法、攻击样本、测试数据设计原则测试方法、攻击样本、测试数据设计原则如下: a) 后门攻击需同时作用于模型训练和推理阶段; T/SAIAS 001—2024 6 b) 作用于训练阶段的后门攻击应具有向模型植入后门以达到定向操纵识别结果的能力。且应具有不影响或者不显著降低模型对于正常样本的预测准确率的能力; c) 作用于推理阶段的测试样本应设置触发器以激活模型后门: ——对于已知被植入的后门种类的情况,可以针对性设计后门攻击样本; ——对于未知是否被植入后门或植入何种后门的情况,应尽量设计多种不同的后门攻击样本,从而探测模型对各种后门攻击的抗攻击鲁棒性。 d) 对于不同类别的后门攻击测试样本,应分别统计模型抗后门攻击鲁棒性量化指标。 注: 具体方法可参考附录A.3对后门攻击方法进行设计。 5.5.3 测试流程通过如下流程进行神经网络分类模型对抗后门攻击鲁棒性测试(如图3-4所示): a) 获取待评测的神经网络分类模型与测试数据; b) 已知神经网络分类模型被植入的后门种类的情况,利用测试数据,按照模型被植入的后门类型生成带有后门触发器的测试样本,形成测试样本集(如图3所示); c) 未知神经网络分类模型是否被植入后门或被植入何种后门的情况,利用测试数据,通过多种后门生成方法生成多类带有后门触发器的测试样本,形成多个测试样本集(如图4所示); d) 向模型输入设计好的带有后门触发器的测试样本集,进行分类,通过公式(3)分类统计各类后门攻击样本的攻击效率,量化模型抗后门攻击鲁棒性指标,攻击效率可根据情况选择精确率、F1、AUC等评价指标; e) 计算结果输出。 图 3 已知模型被植入的后门类型的后门攻击鲁棒性测试流程图图 4 未知模型被植入的后门类型的后门攻击鲁棒性测试流程图 5.5.4 度量方法 5.5.4.1观测模型抵抗每一类后门攻击的成功率来评价模型针对不同的后门攻击的鲁棒性,模型抗攻击成功率越高,模块的后门鲁棒性越强,反之则越弱。 5.4.4.2选定一个度量指标,记为F,则神经网络模型抗后门攻击的鲁棒性度量方法见式(3)。 T/SAIAS 001—2024 7 ??3=F(第i类后门攻击样本分类结果,label) (3) 其中: F 表示选择的度量指标的计算公式 label表示每一个测试样本的原标签 5.6 基本指标与测试报告神经网络分类模型鲁棒性基本指标包括对抗攻击鲁棒性、中毒攻击鲁棒性、后门攻击鲁棒性。 在测试神经网络分类模型鲁棒性时,神经网络分类模型鲁棒性测试报告中宜包含但不限于如下信息,测试报告内容和格式可参考附录B进行设计。 a) 基础信息: ——模型名称与版本号; ——模型功能描述; ——数据集描述与文件获取地址; ——测试环境说明,应包括且不限于硬件环境和软件环境说明。 b) 对抗攻击说明: ——攻击方法说明,若使用多种攻击方法应分别进行说明; ——对抗攻击测试集数据量; ——对抗攻击鲁棒性指标。 c) 中毒攻击说明: ——攻击方法说明,若使用多种攻击方法应分别进行说明; ——测试数据集数据量; ——中毒攻击鲁棒性指标; d) 后门攻击说明: ——攻击方法说明,若使用多种攻击方法应分别进行说明; ——后门攻击类别以及每个类别的测试集数据量; ——各类后门攻击鲁棒性指标; e) 统计表 f) 测试结论 T/SAIAS 001—2024 8 附录 A (资料性) 神经网络分类模型鲁棒性攻击/干扰方法 A.1 对抗攻击方法针对神经网络分类模型鲁棒性的对抗攻击方法包括且不限于: a) 基于随机噪声的攻击。基于随机噪声的攻击是通过向输入数据添加随机噪声来诱导神经网络分类模型对生成的攻击样本进行误分类; b) 基于干扰信息的攻击。基于干扰信息的攻击是通过向输入数据添加干扰信号或轻度扭曲输入数据来诱导神经网络分类模型对生成的攻击样本进行误分类; c) 基于梯度的攻击。基于梯度的攻击是通过对原始样本在梯度方向上添加增量扰动来诱导神经网络分类模型对生成的攻击样本进行误分类; d) 基于生成样本的攻击。基于生成样本的攻击是通过预先训练的对抗生成模型将原始样本生成对抗样本从而诱导神经网络分类模型对生成的攻击样本进行误分类; e) 基于优化的攻击。基于优化的攻击是通过优化迭代过程中,求解非线性优化问题,并使用梯度截断的技巧构造与洁净样本尽可能相似的对抗样本,从而诱导神经网络分类模型产生误分类的攻击方式; f) 基于决策面的攻击。基于决策面的攻击。基于决策面的攻击是在假设神经网络为线性模型的前提下,搜寻与决策超平面的合适距离,从而构造与洁净样本尽可能接近的对抗样本,使得神经网络分类模型对攻击样本进行误分类。 A.2 中毒攻击方法针对神经网络分类模型鲁棒性的中毒攻击方法包括且不限于: e) 纯净标签攻击。纯净标签攻击指的是在训练数据集中添加看似纯净无害的有毒数据,从而使得神经网络模型出现误分类情况; f) 生成式中毒攻击。生成式中毒攻击是指把用于生成有毒数据的自编码器看作生成对抗网络中的生成器,把目标神经网络看作生成对抗网络中的判别器,在对抗训练中以较高速率产生有毒数据的方法。 A.3 后门攻击方法针对神经网络分类模型鲁棒性的后门攻击方法包括且不限于: a) 生成的触发器与输入相关的后门攻击。这种攻击方式是指攻击者通过预先设置的触发器修改部分训练样本,其对应标记也将被攻击者指定的目标标签替换,从而生成被投毒样本。这些被投毒样本与正常样本将会被同时用于训练,以得到带后门的模型; b) 基于优化生成触发器的后门攻击。通常来说,后门攻击可以看作是一个分层优化问题。基于优化生成触发器的后门攻击会利用优化信息生成最优触发器,从而对神经网络分类模型进行干扰; c) 基于非优化生成触发器的后门攻击。基于非优化生成触发器的后门攻击是指触发器由手动设计得到,而非利用优化信息,从而对神经网络分类模型进行后门攻击。 T/SAIAS 001—2024 9 附录 B (资料性) 神经网络分类模型测试报告模板示例可用表B.1的形式记录神经网络分类模型鲁棒性测试的基础信息,包括模型名称、模型版本号、模型功能描述、数据集描述和获取方法、测试环境说明等信息。 表B.1 神经网络分类模型测试报告——基础信息模板基础信息模型名称模型版本号模型功能描述数据集描述文件获取地址测试环境说明可用表B.2的形式记录神经网络分类模型抗对抗攻击鲁棒性测试相关信息,包括每一类的攻击方法的说明、攻击次数、抗攻击成功次数、模型鲁棒性,以及总合的每类攻击的权重系数和模型鲁棒性。 表B.2 神经网络分类模型测试报告——对抗攻击模板对抗攻击鲁棒性攻击方法1 攻击方法说明攻击总次数抗攻击成功次数模型鲁棒性攻击方法2 攻击方法说明攻击总次数抗攻击成功次数模型鲁棒性…… 攻击方法n 攻击方法说明攻击总次数抗攻击成功次数模型鲁棒性每类攻击的权重系数模型鲁棒性 T/SAIAS 001—2024 1 0 0 可用表B.3的形式记录神经网络分类模型抗中毒攻击鲁棒性测试相关信息,包括是否可以进行中毒攻击测试(若无法介入模型训练,则不能进行中毒攻击测试),若能进行抗中毒攻击测试,则可记录测试集描述、测试集数据量、采用的量化指标、在原模型下的测试指标Fori、在中毒模型下的测试指标Fpoi, 以及最终计算得到的模型抗中毒攻击鲁棒性。 表B.3 神经网络分类模型测试报告——中毒攻击模板中毒攻击鲁棒性是否进行中毒攻击测试集描述测试集数据量采用的量化指标在原模型下的测试指标Fori 在中毒模型下的测试指标Fpoi 模型鲁棒性可用表B.4的形式记录神经网络分类模型抗后门攻击鲁棒性测试相关信息,包括每一类后门攻击的生成方法、测试样本集数量、采用的量化指标和模型抗后门攻击鲁棒性。 表B.4 神经网络分类模型测试报告——后门攻击模板后门攻击鲁棒性攻击类别1 攻击方法说明测试集数据量采用的量化指标模型鲁棒性攻击类别2 攻击方法说明测试集数据量采用的量化指标模型鲁棒性…… 攻击类别n 攻击方法说明测试集数据量采用的量化指标模型鲁棒性注:根据实际攻击方法的使用情况增减表格内容 T/SAIAS 001—2024 1 1 可用表B.5的形式记录神经网络分类模型鲁棒性测试的汇总数据。 表B.5 神经网络分类模型测试报告——统计表模板统计表对抗攻击攻击方法1 攻击次数失败攻击次数模型鲁棒性指标攻击方法2 攻击次数失败攻击次数模型鲁棒性指标攻击方法3 攻击次数失败攻击次数模型鲁棒性指标总体指标攻击次数失败攻击次数模型鲁棒性指标中毒攻击在原模型下的测试指标Fori 在中毒模型下的测试指标Fpoi 模型鲁棒性指标后门攻击攻击类别1 模型鲁棒性指标攻击类别2 模型鲁棒性指标攻击类别3 模型鲁棒性指标 T/SAIAS 001—2024 1 2 0 可用表B.6的形式记录神经网络分类模型鲁棒性测试的测试结论。 表B.6 神经网络分类模型测试报告——测试结论模板测试结论 T/SAIAS 001—2024 1 3 参考文献 [1] Goodfellow, I. J., et al. “Explaining and Harnessing Adversarial Examples.” ICLR 2015. [2] Madry, A., et al. “Towards deep learning models resistant to adversarial attacks.” ICLR 2018. [3] Carlini, N., et al. “Towards Evaluating the Robustness of Neural Networks.” IEEE S&P 2017. [4] Koh, P. W., et al. “Understanding black-box predictions via influence functions.” ICML 2017. [5] C Yang,Q Wu,H Li,Y Chen,” Generative Poisoning Attack Method Against Neural Networks” arXiv preprint arXiv: 1703.01340, 201 [6] Shafahi, A., et al. “Poison Frogs! Targeted Clean-Label Poisoning Attacks on Neural Networks.” NeurIPS 2018. [7] Nguyen, A., et al. “Input-Aware Dynamic Backdoor Attack.” NeurIPS 2020. [8] Nguyen, A., et al. “WaNet - Imperceptible Warping-based Backdoor Attack.” ICLR 2021. [9] 陈晋音,邹健飞等,“深度学习模型的中毒攻击与防御综述”信息安全学报,2020
下载地址
T/SAIAS 001-2024 神经网络分类模型鲁棒性测试方法 标准封面