近年来,生成式人工智能迅猛发展,大模型正深度嵌入社会生产与日常生活,技术的快速发展也伴随着新的网络安全风险。2026年3月15日,中央广播电视总台“3·15”晚会曝光了“投毒”AI大模型黑灰产业链,表明数据投毒问题已从商业推广蔓延至虚假信息传播、侵权内容生成等各个方面。该问题既关乎技术安全,又对网络生态与市场秩序造成实质性冲击,甚至对意识形态安全构成威胁。当前,监管部门已将其列为治理重点。如何从系统论视角出发,厘清数据投毒的技术机理与风险表现,进而构建技术防御、监管协同与法律规制互相支撑的协同治理体系,成为新时代人工智能技术发展亟须解决的重要课题。
AI数据投毒的概念厘定与技术机理
数据投毒是一种针对机器学习模型的攻击手段,利用人工智能系统对训练数据高度依赖的特性,用低成本方式对模型决策的准确性产生影响。2025年发布的《人工智能安全治理框架》2.0版将其列为人工智能的数据安全风险之一,表现为攻击者篡改、注入错误、误导数据,影响模型价值观对齐,“污染”模型概率分布,造成决策输出准确性、可信度下降,甚至输出违法有害信息。因此,从技术实施角度来看,数据投毒的本质是攻击者通过在模型的训练数据中注入恶意样本或者篡改数据,干扰模型的参数训练过程,从而使其在决策阶段产生错误结果。
然而,理解数据投毒,还需厘清其与数据污染的关系。数据污染是一个更宽泛的概念,泛指任何影响训练数据集真实性和准确性的行为或现象,侧重于对结果的描述,多半是源于数据采集时的失误、标注错误,甚至是系统处理问题导致的无效数据。换言之,数据投毒是数据污染的一种特殊形态,其核心特征在于攻击者的主观恶意。从攻击形态来看,数据投毒可以划分为三种类型:一是污染型投毒,即攻击者通过篡改现有数据集、向开源语料库注入恶意样本,使模型在学习过程中吸收错误信息。2026年“3·15”晚会曝光的生成式引擎优化(GEO)产业链就属于此类型。不法商户利用GEO工具批量生成虚假评测、伪造用户评价、杜撰行业排名,再通过自媒体账号在网络平台上大量发布。当用户向AI询问产品推荐时,这些被精心设计的虚假信息因数量庞大、角度丰富,更容易被AI判定为“高权重信息”而采纳,最终成为AI给出的“标准答案”。二是后门型投毒,攻击者在训练数据中植入带有特定触发模式(Trigger)的样本,使模型在正常运行状态下表现正常,一旦输入中包含该触发模式,模型便会按照攻击者预设的方式输出错误结果。三是偏好型投毒,通过向人类反馈强化学习(RLHF)阶段的偏好数据中注入恶意样本,污染用于训练奖励模型的数据,从而扭曲模型的价值对齐方向,使模型学会生成攻击者想要的有害内容。在实际攻击中,这三种类型往往组合使用以达到更深层次的模型操纵效果。
大模型的训练过程主要包含预训练、指令微调、人类反馈强化学习等阶段,攻击者可以利用各阶段的数据入口实施不同类型的投毒攻击。预训练阶段是数据投毒的最前端入口,大模型的通用认知能力来源于对海量无标注语料的深度挖掘。从攻击实施的角度来看,预训练阶段的投毒样本因数量庞大且与正常数据高度相似,能够较为轻松地绕开常规审查流程,实现对模型认知底层框架的渗透。指令微调阶段是数据投毒的精准介入点。在预训练模型基础上,指令微调通过用大量“指令—回应”数据对模型进行训练,使模型学会遵循用户指令并生成符合预期的结果。这一阶段对数据质量要求极高,意味着少量恶意样本就可能产生显著影响。人类反馈强化学习阶段是数据投毒的价值渗透通道。模型通过标注者对偏好数据的排序,学习何种回答更符合人类期望。由于偏好数据的标注往往依赖特定标注团队,攻击者可能通过渗透标注团队或在标注任务中混入大量带有偏见的样本,实现对模型价值取向的扭曲。因此,数据投毒的本质已超越单纯技术漏洞,演变为涉及数据供应链安全、算法治理效能与产业生态健康的多维问题。
AI数据投毒的多重风险
数据投毒作为人工智能时代安全领域的新型威胁,其危害已超越传统网络安全领域的单一技术风险范畴,呈现出从算法内部向现实世界、从个体权益向公共利益的链式传导。从数据投毒的攻击节点来看,其可能同时触及技术安全、产业秩序与法律规制,形成复合型风险。
从技术维度来看,数据投毒最直接的侵害对象是数据的完整性和真实性。在生成式人工智能的运行逻辑中,高质量、无污染的训练数据是模型产生可靠输出的前提。攻击者故意注入恶意样本,本质上是篡改、污染作为模型“生产资料”的关键数据,使其丧失真实性。更为关键的是,模型具有“黑箱”特性与自主学习能力,被注入的有毒数据并不是静止存在的,而是会通过训练被模型内化吸收,影响其内部的参数与决策逻辑,部分针对性后门投毒还会让模型在特定触发条件下失控,从而使其丧失正常功能。此外,数据投毒具有隐蔽性强、难以追溯的特点,被注入的恶意数据可隐藏在海量正常数据中,现有技术难以实现精准检测,同时投毒行为会破坏数据溯源链条,导致后续风险排查难以进行,进一步放大智能系统的安全漏洞。这就意味着攻击行为直接动摇了算法系统本身的可靠性与安全性。
从社会维度来看,数据投毒正在侵蚀市场经济秩序与社会公共安全。在市场经济秩序领域,类似GEO产业链以数据操控替代市场竞争的行为,不仅损害了合规企业的正当利益,更削弱了消费者对AI推荐算法的信任,进而扰乱市场公平秩序。在社会公共安全领域,数据投毒行为对自动驾驶、医疗诊断、工业控制等关键人工智能系统产生的危害将直接威胁人的生命安全。例如,在自动驾驶的感知模型训练集中注入“将路障标识为可通行”数据,就会导致算法在实际道路场景中做出致命的错误决策。在规模化和组织化实施的场景下,数据投毒行为还可能上升为对国家安全的威胁。生成式人工智能已经深度融入舆情分析、内容审核、战略研究乃至情报处理等领域。针对大语言模型训练数据战略性投毒,可能被用于操纵舆论认知、扭曲意识形态、干扰战略判断等,从而破坏网络信息安全甚至是动摇主流价值观,进而侵蚀网络空间主权、危害意识形态安全。
从法律维度来看,数据投毒对现行法律规制的适用性也提出挑战。数据投毒行为链条涉及网络安全、数据安全、反不正当竞争等领域,但现有法律规范在应对这一新型攻击形态时普遍面临适用困境。首先,数据投毒的非侵入性特征挑战了传统法律规制的前提预设。现行《中华人民共和国网络安全法》《中华人民共和国数据安全法》等法律在规制网络攻击行为时,大多以“侵入”“破坏”等行为为前提,而数据投毒行为一般发生在模型预训练阶段,攻击者无需突破任何系统安全防护就可以向训练数据集注入恶意样本,这就造成相关法律条款适用上的解释难题。其次,数据投毒的结果间接性对因果关系的认定构成困难。数据投毒的危害结果不是即时显现的,往往是在模型应用后才会出现,这种滞后性使行为和结果之间的因果关系变得更加模糊。最后,算法“黑箱”又加深了责任认定的难题。因大模型内部决策机制难以解释,监管部门和司法机关无法建立投毒行为与损害结果之间的清晰因果链条,使得数据投毒面临行为难以发现、证据难以固定、责任难以追究的三重障碍。
构建“技术—监管—法律”三位一体协同治理体系
数据投毒风险渗透到机器学习的全生命周期,并向社会各阶层逐层传导。通过技术防御、监管协同与法律规制构建系统的治理体系,成为破解数据投毒行为治理难题的关键路径。
“技术—监管—法律”三位一体协同治理体系框架图
在技术层面,应通过覆盖预处理、模型训练与缺陷阻断的全链条技术防御机制,从源头阻断投毒攻击的渗透路径。因此,有必要从数据全生命周期出发,构建多层次的技术防御体系。首先,建立训练数据溯源与质量认证机制。针对开源数据集这类易受攻击的数据来源,引入元数据、数字水印等手段实现不可见的溯源标记,确保进入训练语料库的数据均可溯源。其次,研发数据投毒检测技术。针对污染性投毒,开发基于统计异常检测、对抗性样本识别等技术筛查工具,在数据进入训练流程前进行有效过滤。针对后门型投毒,引入模型逆向工程、神经元激活分析等手段,对训练完成的模型进行安全检测,识别潜在触发模式。再次,探索价值对齐的技术实现路径。针对偏好性投毒,通过构建多维度价值对齐框架,将伦理约束编码为可量化的技术指标,在人类反馈强化学习阶段进行交叉验证。最后,建立动态的、可持续的技术治理体系。采用元学习和异常监测等技术,构建适应新型动态攻击的自适应防御体系,建立可信的评测标准,重点检测算法鲁棒性,为科学评测体系奠定良好基础,确保防御策略有效性。
在监管层面,应构建全生命周期的数据安全监管体系,实现从“被动响应”向“主动应对”的治理范式转变。数据投毒的隐蔽性特征要求必须将监管关口前移至数据进入训练流程之前,覆盖模型部署应用全过程。首先,落实大模型备案与算法安全评估制度。依据《生成式人工智能服务管理暂行办法》等规定开展安全评估,并按照相关要求履行算法备案。同时,要求大模型服务提供者在监管部门开展监督检查时及时响应配合,对训练数据来源、规模、标注规则等予以说明,并提供必要的技术支持,确保数据投毒风险值在事前环节得到有效管控。其次,将数据供应商、模型微调服务商等纳入治理范围,压实其在数据安全性上的主体责任。当前数据投毒产业链已部分形成专业化分工,建议监管部门将所涉及主体纳入监管范围,推动建立数据服务提供者的资质审查与行为规范,明确其在数据真实性方面的法律责任。最后,制定数据投毒事件的应急响应预案,明确事件分级标准、处置流程与信息通报机制,确保一旦发生重大投毒事件能够快速响应、有效处置,最大限度降低危害后果。
在法律层面,应完善行政规制与刑事规制相互衔接的责任体系,确立数据投毒行为的法律红线。就行政规制而言,应当明确数据投毒行为的违法定性。现行法律对“非法侵入”“非法破坏”等行为作出规制,但数据投毒的“非侵入性”特征在很多时候难以被涵盖。建议通过修订相关行政法规或出台专门规定,将“恶意污染训练数据”明确为独立的违法行为,并设立相应的行政处罚,形成对数据投毒行为的有力威慑。就刑事规制而言,应审慎评估数据投毒行为入刑的必要性与可行性。从侵害实质看,数据投毒不仅破坏市场秩序,更可能危害社会公共安全乃至国家安全,具有严重的社会危害性。对于数据投毒的刑事追责,可考虑根据数据投毒行为意图扭曲的数据内容及其最终导致的危害结果,以实质法益为核心进行处理,将其纳入现有刑法体系中最为匹配的罪名之下。例如,故意污染交易或精准营销的专属数据,使其失效或需要高昂的成本修复,可以考虑适用故意毁坏财物罪。在证明标准方面,可以在结果归责层面引入“风险升高理论”作为实质判断依据,将司法证明的焦点从“投毒是否必然导致该错误”转向“投毒行为是否显著且非法地提升了模型做出错误决策的风险”。
当前,我国人工智能法治建设正处于制度完善与能力提升的关键时期。《中华人民共和国网络安全法》等基础性法律的深入实施,监管部门对人工智能生成内容、算法安全的持续整治等,为数据投毒治理提供了有力的制度支撑与实践经验。面向未来,应当在技术创新与安全治理之间寻求动态平衡,将安全理念嵌入大模型研发应用全过程,以高水平安全护航高质量发展。唯有坚持发展与安全并重,方能确保我国人工智能产业在国际竞争中行稳致远,为网络强国建设筑牢安全基石,为全球人工智能治理贡献中国智慧。
来源:中国网信杂志