源信息经过deepseek翻译并总结

摘要：

AI模型面临对抗性攻击威胁，77%的企业遭遇此类攻击，41%涉及提示注入和数据投毒。红队测试需融入模型开发全流程，微软、NIST和欧盟《人工智能法案》均强调其重要性。传统网络安全方法难以应对AI特有威胁，如数据投毒和提示注入。Anthropic、Meta等公司通过自动化与人工评估结合强化防御。关键策略包括早期集成安全、实时监控、平衡自动化与人工判断、外部红队评估及动态威胁情报。红队测试已成AI安全与信任的必选项。

红队测试AI：为构建更安全、更智能的模型铺路 | VentureBeat

跳过主内容

活动
 视频
 特刊
 招聘

返回VentureBeat首页

订阅
 活动
 视频
 特刊
 招聘

红队测试AI：为构建更安全、更智能的模型铺路

Louis Columbus @LouisColumbus
2025年6月13日上午6:00

编者注：Louis将于本月在VB Transform活动上主持关于该主题的圆桌讨论。立即注册。

AI模型正面临围攻。随着77%的企业遭遇对抗性模型攻击，其中41%利用提示注入和数据投毒，攻击者的技术已超越现有网络防御。为逆转这一趋势，亟需重新思考如何将安全性融入当前构建的模型中。开发运维团队需从被动防御转向在每个环节实施持续的对抗性测试。

红队测试应成为核心
保护大型语言模型（LLM）需将红队测试作为模型创建过程的核心。不同于Web应用流水线中将安全视为最后关卡的做法，持续的对抗性测试必须融入软件开发生命周期（SDLC）的每个阶段。

Gartner技术成熟度曲线强调持续威胁暴露管理（CTEM）的重要性，印证了红队测试需全面集成至DevSecOps生命周期。 来源：Gartner《安全运营技术成熟度曲线，2024》

采用更集成的DevSecOps方法对缓解提示注入、数据投毒和敏感数据泄露等风险日益必要。此类严重攻击从模型设计到部署阶段愈发频繁，使得持续监控不可或缺。

微软近期发布的大型语言模型红队测试指南为启动集成流程提供了实用方法论。NIST人工智能风险管理框架同样强调需采取贯穿生命周期的主动对抗测试和风险缓解。微软对100多款生成式AI产品的红队测试表明，必须在模型开发全程结合自动化威胁检测与专家监督。

随着欧盟《人工智能法案》等法规要求严格对抗测试，持续红队测试既能确保合规，也能提升安全性。OpenAI的红队测试方法从设计初期到部署阶段引入外部测试，证实了预判性安全测试对LLM开发的关键作用。

Gartner框架展示红队测试从基础到高级演练的结构化成熟路径，这是系统性强化AI模型防御的基石。 来源：Gartner《通过红队演练提升网络弹性》

传统网络防御为何对AI失效
传统网络安全方法难以应对AI驱动的威胁，因后者具有本质差异。随着攻击技术超越传统手段，红队测试需要新方法。以下是专为攻击AI模型设计的部分技术：

数据投毒：攻击者向训练集注入污染数据，导致模型错误学习，造成持续误差直至被发现，通常削弱对AI决策的信任。
模型规避：精心构造的微妙输入变化使恶意数据绕过检测系统，利用静态规则和模式匹配防御的固有局限。
模型反演：系统性查询AI模型以提取机密信息，可能暴露敏感训练数据，持续引发隐私风险。
提示注入：特制输入诱使生成式AI绕过防护，产生有害或越权结果。
双重用途前沿风险：加州大学伯克利分校长期网络安全中心的研究人员在论文《早期基准与频繁红队测试：评估和管理AI基础模型双重用途风险的框架》中指出，先进AI模型大幅降低非专业人士实施复杂网络攻击、化学威胁等门槛，从根本上改变全球威胁格局。

集成的机器学习运维（MLOps）会放大这些风险。LLM和AI开发管道的互联性扩大了攻击面，要求改进红队测试。为应对新兴AI威胁，网络安全领导者正采用持续对抗测试。结构化的红队演练现已成为发现隐藏漏洞、在攻击前修复安全缺口的关键手段。

AI领导者如何通过红队测试领先攻击者
攻击者加速利用AI创造新型技术，目标是挖掘更多漏洞。主要AI公司通过将系统化红队策略嵌入安全核心作出回应。他们不将红队测试视为偶尔检查，而是结合专家洞察、自动化与迭代式人工评估，主动识别并降低威胁。

具体实践：

Anthropic将人工评估与自动化对抗攻击结合，持续提升模型可靠性。
Meta通过自动化优先的多轮红队测试（MART）快速发现漏洞。
Microsoft利用Python风险识别工具包（PyRIT）结合网络安全分析与人工验证。
OpenAI借助外部专家强化防御，针对性应对错误信息和提示注入。

简言之，AI领导者通过持续主动的监测，结合结构化人工监督与自动化，设定了可扩展的稳健AI标准。

Gartner描述对抗性暴露验证（AEV）如何优化防御、提升威胁感知并扩展攻击测试——这些是保护AI模型的关键能力。 来源：Gartner《对抗性暴露验证市场指南》

五项立即强化AI安全的策略
随着对LLM和AI模型的攻击快速演进，开发与安全团队需协同实施以下策略：

早期集成安全（Anthropic, OpenAI）：在模型设计初期即嵌入对抗测试。
部署自适应实时监控（Microsoft）：利用AI驱动工具快速检测异常。
平衡自动化与人工判断（Meta, Microsoft）：结合自动化测试与专家分析。
定期引入外部红队（OpenAI）：通过独立评估发现盲点。
维护动态威胁情报（Meta, Microsoft, OpenAI）：持续整合实时威胁数据。

这些策略共同确保开发流程在对抗威胁中保持韧性。

红队测试已成必选项
AI威胁已复杂到无法仅依赖传统被动防御。组织必须在模型开发的每个阶段持续主动地嵌入对抗测试。领先AI厂商通过平衡自动化与专家智慧证明，强劲的安全与创新可共存。最终，红队测试不仅关乎防御AI模型，更是确保未来AI驱动世界中信任与韧性的基石。

参加Transform 2025
我将在6月24-25日旧金山Fort Mason举办的Transform 2025中主持两场网络安全圆桌讨论，包括探讨AI红队测试与对抗性测试策略的专场。立即注册。

通过VB Daily获取商业用例每日洞察
订阅VB Daily，掌握企业应用生成式AI的最新动态，从监管变化到实际部署。立即订阅

隐私政策

企业AI实践前沿——参加VB Transform 2025
6月24-25日旧金山见，与顶尖领袖共商AI实际挑战与战略。了解更多

×### 您所需的深度洞察，远离喧嚣

提交

感谢您的订阅。查看更多VB新闻通讯请点击此处。

发生错误。

今日红队AI测试，铸就明日更安全、更智能的模型

摘要：

红队测试AI：为构建更安全、更智能的模型铺路