
前 言
本标准依据GB/T 1.1-2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定起草。
随着人工智能技术的深入发展,AI智能体已成为实现“人工智能+”行动、推动产业智能化转型的关键载体。AI智能体能够感知环境、进行决策并自主执行任务,其深度执行的能力带来了从“我说AI答”到“我说AI做”的范式转变,同时也引入了全新的、复杂的安全风险。
为确保本公司设计、开发、部署和运营的网络安全AI智能体具备高度的安全性、可靠性与可信度,防范因智能体行为失范、决策错误、数据泄露或被恶意利用而导致的网络安全风险,特制定本标准。本标准旨在构建覆盖智能体全生命周期的安全技术框架,为公司相关产品与服务的研发、测评及运营提供明确指引。
本标准由深圳市蓝典信安科技有限公司提出并起草。
本标准起草部门:深圳市蓝典信安科技有限公司人工智能实验室
本标准主要起草人:叶绍琛、蔡国兆、黎治声、揭育奎、韩江、陈丹玲
本标准于2025年12月2日首次发布。

网络安全AI智能体技术规范
1 范围
本标准规定了网络安全AI智能体(以下简称“智能体”)在安全设计、开发、部署、运行及互联协作过程中的技术要求、行为安全准则、测试验证方法和安全运营规范。
本标准适用于公司内部所有涉及AI智能体的项目,包括但不限于安全运维、威胁狩猎、自动化响应、风险评估等场景下的智能体。外部合作方为公司开发或集成的智能体也应符合本标准要求。
2 规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 22239-2019 信息安全技术 网络安全等级保护基本要求
GB/T 35273-2020 信息安全技术 个人信息安全规范
GB/T 37988-2019 信息安全技术 数据安全能力成熟度模型
GB/T 45958-2025 网络安全技术 人工智能计算平台安全框架
YD/T 4392.2-2025 人工智能开发平台通用能力要求 第2部分:安全要求
T/SIA 065-2025 智能体行为安全要求
3 术语和定义
下列术语和定义适用于本文件。
3.1 网络安全AI智能体 AI Agent for Cybersecurity
一种基于人工智能(尤其是大语言模型)构建的软件实体,能够感知网络与安全环境,通过自主规划、决策并调用工具(如API、脚本)来执行特定网络安全任务,例如日志分析、漏洞扫描、入侵检测、自动化响应等。
3.2 智能体工具 Tools for Agent
智能体为完成任务可以调用的外部资源或能力,包括应用程序接口(API)、命令行接口(CLI)、数据库查询接口、以及其他软件函数库。
3.3 智能体记忆 Memory of Agent
智能体在运行过程中,用于存储历史交互、任务上下文、学习到的经验或用户偏好的机制,以支持持续的多轮任务执行。
3.4 检索增强生成 Retrieval-Augmented Generation (RAG)
一种为智能体(或大模型)提供外部知识源的技术范式。通过从指定的知识库中检索相关信息,并将其作为上下文输入模型,以生成更准确、更具事实依据的响应。
3.5 可信互联 Trusted Interconnection
多个智能体之间,或智能体与其他系统之间,基于统一的安全框架建立连接、传递意图并执行授权动作的能力,其核心是解决跨实体的信任问题。
4 总体要求
4.1 核心安全原则
最小权限原则:智能体及其组件(如工具调用)应被授予完成其任务所必需的最小系统权限和数据访问权限。
人类监督与可控原则:对于高风险或关键操作,智能体的决策或执行链路上必须设置人工确认、审批或紧急干预(“急停”)机制。
可解释与可审计原则:智能体的关键决策逻辑、工具调用原因及输入输出应具备可解释性,所有操作必须生成完整、防篡改的审计日志。
纵深防御原则:应在智能体的输入输出、模型、工具链、运行环境及互联接口等多个层面部署重叠的安全控制措施。
隐私与伦理优先原则:智能体的设计与运行应贯穿隐私保护与科技伦理要求,确保其行为符合法律法规与社会公序良俗。
4.2 安全架构
智能体的安全架构应遵循分层防御思想,覆盖从基础平台到上层应用的完整技术栈,并与《人工智能计算平台安全框架》等国标要求相衔接。核心安全关注点应贯穿以下五个关键链路:
输入/输出安全:确保输入指令/数据的安全过滤与输出内容的安全合规。
大模型安全:保障核心推理模型的鲁棒性、可靠性并防范其固有风险(如“幻觉”)。
RAG与知识库安全:确保检索源可信、检索过程安全、输出结果准确。
记忆安全:保护记忆存储的机密性与完整性,防止记忆被污染或窃取。
工具调用安全:对工具调用的权限、参数进行严格校验与沙箱隔离,防止越权操作。
5 技术要求
5.1 智能体基础平台安全
智能体应运行在符合GB/T 45958-2025要求的安全可控的计算平台或训练环境中。
开发平台应具备安全模块,其功能、管理及角色职责应符合YD/T 4392.2-2025的相关规定。
平台应提供对计算资源、网络资源和存储资源的隔离与安全管控能力。
5.2 智能体行为安全要求
智能体的行为必须安全、可控,并保障用户权益,具体要求包括:
告知与同意:在智能体执行可能影响系统状态、访问用户数据或进行高风险操作前,应以明确易懂的方式告知用户其意图与潜在影响,并获得有效授权。
权限申请与管理:智能体应通过明确的流程申请和声明其所需的权限,权限的使用应受到持续监控和定期复核。
行为协作规范:在多智能体协同场景下,应明确协作协议,防止恶意指令传递或责任不清导致的连锁风险。
用户权益保障:智能体应提供用户查询、修正、删除其相关数据(如交互记忆)的渠道,并建立有效的投诉与反馈机制。
5.3 智能体可信互联安全
当智能体需要与其他智能体、外部系统或设备进行交互时,必须满足可信互联要求:
可信连接:建立安全加密的通信信道,确保交互数据的机密性与完整性。
可信身份:对交互双方进行双向身份认证,防止仿冒与中间人攻击。
可信意图:传递的指令、任务或意图应具备可验证的源和完整性,防止指令在传输过程中被篡改或注入。
可信授权:对跨域请求的操作进行细粒度的授权检查,确保执行的动作在预先约定的权限范围内。
5.4 全链路安全控制
针对第4.2条所述的关键链路,应实施以下具体控制措施:
输入/输出安全控制:部署输入验证、过滤(防注入、防恶意提示)和输出内容安全扫描(防敏感信息泄露、防有害内容生成)。
大模型安全增强:采用提示工程、安全对齐训练、对抗样本检测等技术,提升模型在专业领域的准确性和抗干扰能力。
RAG与知识库安全:对检索源进行来源可信验证和内容安全审核;对用户查询和检索结果进行必要的访问控制与日志记录。
记忆安全:对存储的记忆数据进行加密;实施记忆访问控制;定期检查和清理记忆数据,防止隐私泄露和上下文污染。
工具调用安全:
- 工具鉴权:每次工具调用前必须验证智能体当前会话是否有权调用该工具。
- 参数校验:对调用工具时传入的参数进行严格的类型、范围、内容安全检查,防范命令注入等攻击。
- 沙箱执行:高风险工具应在资源受限的沙箱环境中运行,以限制其可能造成的破坏范围。
- 模糊测试:应定期对智能体可调用的工具接口进行模糊测试,发现潜在的安全漏洞。
6 安全运营、测试与验证
6.1 安全运营要求
安全监控:建立对智能体运行状态的实时监控,覆盖异常行为(如高频失败调用、越权尝试)、资源滥用和性能瓶颈。
审计与溯源:记录智能体全生命周期的完整日志,包括用户指令、内部决策过程、工具调用详情(工具名、参数、结果)及系统状态变更,确保所有操作可追溯。
持续风险评估:定期对在运智能体进行安全风险评估,评估范围应覆盖其技术实现、业务流程和运行环境的变化。
事件响应:制定针对智能体安全事件(如模型被误导、工具被恶意利用、数据泄露)的专项应急预案和处置流程。
6.2 测试与验证方法
模型安全测试:对智能体核心模型进行针对性测试,包括对抗样本鲁棒性测试、价值观对齐测试和“幻觉”抑制能力评估。
功能安全测试:验证智能体在正常及异常输入下的行为是否符合预期,是否遵守既定的权限和流程边界。
工具调用安全测试:综合运用网络通信分析、工具模糊测试等方法,检验工具调用链路的安全性。
红蓝对抗演练:在可控环境(如数字靶场)中,组织红队对智能体进行模拟攻击,检验其整体安全防护和应急响应能力。
合规性验证:定期验证智能体的数据处理活动是否符合GB/T 35273-2020等个人信息保护标准的要求。
附录 A
(资料性附录)
网络安全AI智能体关键风险控制点示例

极牛网精选文章《Q/GDLS 27002-2025《网络安全AI智能体技术规范》技术标准》文中所述为作者独立观点,不代表极牛网立场。如有侵权请联系删除。如若转载请注明出处:https://geeknb.com/28481.html
微信公众号
微信小程序