Q/GDLS 27003-2025《AI大模型应用防火墙技术规范》技术标准

前言

本标准依据GB/T 1.1-2020《标准化工作导则第1部分：标准化文件的结构和起草规则》的规定起草。

大语言模型等AI大模型的广泛应用，在带来巨大生产力的同时，也引入了全新的安全挑战。针对模型应用的提示词注入、数据泄露、恶意内容生成及模型滥用等攻击手段日益增多，传统网络安全防护措施难以有效应对。

AI大模型应用防火墙（AI-MAF）作为部署在用户与大模型应用之间的专用安全防护组件，通过实时检测、过滤和阻断恶意交互，成为保障大模型应用安全、可靠、合规运行的关键基础设施。为规范本公司AI-MAF产品的设计、开发、测试与部署，确保其防护能力满足企业级安全需求，特制定本标准。

本标准由深圳市蓝典信安科技有限公司提出并起草。

本标准起草部门：深圳市蓝典信安科技有限公司人工智能实验室

本标准主要起草人：叶绍琛、蔡国兆、黎治声、揭育奎、韩江、陈丹玲

本标准于2025年12月3日首次发布。

AI大模型应用防火墙技术规范

1 范围

本标准规定了AI大模型应用防火墙（以下简称“AI-MAF”）的技术要求，包括总体架构、核心功能、安全策略、管理运维及符合性测试等内容。

本标准适用于指导企业进行AI-MAF的规划、设计、开发、选型、部署、运维和评估，旨在防范与大模型应用相关的数据泄露、内容安全、模型滥用及业务风险。

2 规范性引用文件

下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件，仅注日期的版本适用于本文件。凡是不注日期的引用文件，其最新版本（包括所有的修改单）适用于本文件。

GB/T 22239-2019 信息安全技术网络安全等级保护基本要求

GB/T 35273-2020 信息安全技术个人信息安全规范

国家互联网信息办公室等《生成式人工智能服务管理暂行办法》

3 术语和定义

下列术语和定义适用于本文件。

3.1 AI大模型应用 AI Large Model Application

基于大规模预训练模型（如LLM、多模态模型）构建，提供文本生成、对话、内容分析、代码生成等能力的软件系统。

3.2 AI大模型应用防火墙 AI LLM Application Firewall (AI-MAF）

部署于用户/客户端与大模型服务之间，对双向流量进行监控、分析、过滤和管控的安全代理组件或系统。

3.3 提示词注入 Prompt Injection

通过精心构造的用户输入，诱导大模型突破预设指令、泄露敏感信息或执行非授权操作的安全攻击手段。

3.4 训练数据泄露 Training Data Extraction

攻击者通过特定查询，诱导大模型回复其训练数据中包含的、本不应公开的敏感信息。

4 总体要求

4.1 架构原则

AI-MAF应采用代理架构，支持串联或旁路部署模式。系统应具备高可用性、可扩展性和低延迟特性，不应成为大模型应用的单点故障或性能瓶颈。

4.2 安全目标

AI-MAF应实现以下核心安全目标：

a) 数据安全：防止敏感数据（如PII、商业秘密、源码）通过用户输入或模型输出泄露。
b) 内容安全：过滤违法违规、歧视偏见、不道德及与业务场景无关的输入与输出内容。
c) 资源防护：防止恶意调用导致的资源耗尽、模型滥用及API经济性攻击。
d) 合规审计：满足数据出境、个人信息保护、生成内容标识等监管要求。

4.3 性能要求

在典型业务负载下，AI-MAF对单次请求-响应的处理延迟应低于100毫秒，吞吐量应能满足上游应用的最大并发需求。

5 功能要求

5.1 输入侧防护

5.1.1 身份认证与访问控制

应支持对接企业统一身份认证系统（如IAM、OAUTH 2.0）。

应具备细粒度访问控制能力，可基于用户、角色、部门、时间段等属性限制对特定模型或API端点的访问频率和总量。

5.1.2 提示词安全检测

应能实时检测并阻断提示词注入攻击（如系统指令覆盖、越狱攻击）。

应支持对用户输入进行意图分类，识别并告警或阻断与业务无关的高风险请求（如模型角色扮演、内部指令探测）。

5.1.3 敏感信息过滤

应内置或可自定义敏感信息识别规则（如正则表达式、关键词、数据指纹），对输入文本中的身份证号、银行卡号、密钥、核心代码等进行实时脱敏或阻断。

应支持与数据分类分级系统联动，依据数据级别执行不同的控制策略。

5.1.4 内容安全过滤

应能对输入内容进行违法违规信息识别，参照《网络信息内容生态治理规定》等要求。

5.2 输出侧防护

5.2.1 输出内容安全过滤

应对模型生成的内容进行二次安全审查，过滤其中的违法违规、歧视性、攻击性信息。

应具备“幻觉”缓解能力，可对模型生成的关键事实声明（如人物、事件、数据）进行可信度标记或警示。

5.2.2 敏感信息防泄露

应对模型输出进行扫描，防止训练数据泄露或输入中的脱敏信息在输出中被逆向还原。

应能检测并阻断模型生成的恶意代码、钓鱼链接等。

5.2.3 格式与结构化输出校验

应能对模型承诺的结构化输出（如JSON、XML）进行语法和模式（Schema）校验，防止畸形输出导致下游系统故障。

5.3 审计与监控

5.3.1 全链路日志

应记录所有请求和响应的元数据（如时间戳、用户ID、模型ID、Token用量）。

应支持对敏感操作和策略匹配事件进行详细日志记录，日志保存时间不少于[例如：180]天。

5.3.2 实时监控与告警

应提供可视化仪表盘，展示调用量、延迟、异常请求率、策略命中率等关键指标。

应配置实时告警规则，对异常流量、高频敏感操作、系统故障等事件及时通知管理员。

5.3.3 溯源分析

应支持基于会话ID或用户ID，对完整的交互会话进行溯源查询，关联查看输入、输出及触发的安全事件。

6 管理要求

6.1 策略管理

应提供图形化策略管理界面，支持安全策略（如黑白名单、正则规则、语义规则）的灵活配置、启用、禁用和版本管理。

策略应支持按不同模型、不同用户组进行差异化配置。

6.2 系统管理

应具备完善的系统管理功能，包括管理员角色分权、操作日志、系统配置备份与恢复。

应定期进行系统漏洞扫描与安全评估。

6.3 模型与知识库管理

应与企业的模型管理平台联动，及时同步已上线模型列表与访问端点。

可支持对接外部威胁情报或安全知识库，用于更新恶意提示词模式等。

7 符合性测试

7.1 测试环境

应搭建与生产环境相似的测试环境，包含AI-MAF、模拟大模型服务及测试客户端。

7.2 功能符合性测试

依据第5章的功能要求，设计测试用例，验证各项防护功能的有效性。例如：

注入测试：验证是否能阻断典型的提示词注入攻击。

过滤测试：验证输入/输出中的敏感信息是否能被准确识别和处置。

性能测试：在额定负载下，验证系统延迟与吞吐量是否符合4.3要求。

7.3 审计符合性测试

验证日志记录的完整性、准确性和可查询性，以及告警功能是否按预期触发。

附录 A

（资料性附录）

敏感信息分类示例

极牛网精选文章《Q/GDLS 27003-2025《AI大模型应用防火墙技术规范》技术标准》文中所述为作者独立观点，不代表极牛网立场。如有侵权请联系删除。如若转载请注明出处：https://geeknb.com/28482.html