
进入2025年,人工智能代理(AI Agent)不再是实验室里的玩具,而是真正渗透进金融交易、代码开发、医疗诊断和工业控制的决策角色。然而,当数以万计的智能体通过预制技能、标准化协议连接成一张自主执行网络时,安全界猛然发现:过去两年围绕大模型本身的对齐与越狱,已经不够用了。
最近三个月,OpenAI、Anthropic和多家安全厂商密集发布关于“智能体技能安全”与“Agent-to-Agent协议风险”的报告。信号非常明确:攻击者正绕过模型本体,直接污染智能体所依赖的工具、数据管道和通信链路。安全防御的焦点,正从单点模型守护,转向对智能体生态链的系统性重构。
技能成为新攻击面:智能体的“手”比“脑”更脆弱
如果说大模型是智能体的“大脑”,那么技能(Skills)就是它直接与世界交互的“手”。这些技能可能是调用API执行转账、读写数据库、发送邮件,或是运行一段代码。问题在于,我们给了大脑重重保护,却常常允许这双手随便拿起任何东西。
今年三月,一群白帽研究员演示了名为“SkillJack”的攻击:他们在一个开源智能体框架的技能市场中,上传了一个看似普通的“PDF总结”技能。该技能在正常工作之外,悄悄捕获智能体运行时的上下文,将所有对话记录和工具调用结果转发至外部服务器。由于技能执行在智能体本地沙箱内,传统模型防火墙完全不可见。
更隐蔽的是,攻击者无需直接篡改技能包,只需污染技能依赖的第三方库。就像经典的供应链攻击,一次对Python包的微小“维护更新”,就能让使用该技能的智能体在特定条件下执行恶意代码。而当前大多数Agent框架,对技能签名的完整性校验停留在初始安装,运行时缺乏持续性监控。
真正的威胁在于,智能体往往被赋予高度自主权,一旦技能被劫持,可能引发链式反应。例如,一个负责客户服务的智能体,若其“查询订单状态”技能被暗中修改,就可以在真实服务的同时,批量窃取用户身份信息并创建虚假退款。而企业安全团队甚至很难察觉——因为从模型输出看,一切回复都显得合理又得体。
协作协议:信任边界上的无形裂缝
当单个智能体连接成多智能体系统,它们需要一套共同的语言来交换意图、传递结果、委派任务。Agent-to-Agent(A2A)协议和最近由Anthropic推动的模型上下文协议(MCP)正是这样的纽带。然而,每一次握手,都可能是一次信任的僭越。
典型的A2A协议设计,往往假定通信双方都可信,或者仅依赖简单的API-Key认证。但真正的风险在于内容层面:一个被攻陷的智能体可以发送精心构造的响应包,利用接收方在解析结构化数据时的漏洞,实现远程代码执行。今年四月,某跨国银行的内部红队就利用MCP消息中的元数据字段,成功在另一个智能体的Python解释器内注入了系统命令。
更深层次的问题是权限蔓延。协作协议让智能体A可以请求智能体B执行自己无权直接调用的操作。如果缺乏细粒度的意图级访问控制,一个原本只能读取公开数据的智能体,可能会通过同伴获得写入内部数据库的能力。这种跨智能体的权限组合,常常超出开发者在设计单个智能体时的预期,形成了难以预料的横移路径。
业界正在尝试引入基于OAuth2的委托授权和令牌限定,但这又带来了新的复杂性:在毫秒级的智能体交互中,如何实现轻量级、延迟可接受的动态鉴权?安全与效率的天平,正成为架构师们最头疼的取舍。
供应链的隐形骨架:从模型到插件的全链条污染
谈论智能体生态,就无法回避其长长的供应链。一个典型的智能体应用,除了大模型本身,还包括数十个功能插件、提示词模板、向量数据库、知识库切片、工作流编排引擎。任何一环藏有后门,都能造成全局溃败。
模型供应链风险已为人熟知,但智能体时代的新变种是“数据飞轮投毒”。攻击者不再直接攻击模型权重,而是向智能体常爬取的外部知识源持续注入误导性信息。例如,在技术论坛或代码仓库中植入含有恶意指令的文档,当智能体的RAG(检索增强生成)模块将其作为权威来源后,便可能在特定问题诱导下输出危险操作。
去年年底,一家网络安全公司发现,有攻击者专门针对开发者常用的一款技术问答平台,伪造了大量高赞回答,其中嵌入的JSON片段包含了让智能体误判权限的指令。这些污染数据在长达三周的时间里,被多个AI代码助手智能体索引,并导致多次在生成代码时主动关闭了安全校验参数。这次事件让整个行业清醒意识到:公共知识库的信任基石正在松动。
治理供应链不能止于扫描CVE编号和依赖项版本。它要求建立一套面向智能体生态的“软件物料清单”框架,不仅列出组件,更要标注每个组件的信任域、数据流向和最小必要权限。已经有安全社区提出SBOM-x-AI的标准草案,期望让机器可读的安全元数据贯穿智能体生命周期。
从点状修复到生态重构
上述威胁彼此交织,共同指向一个结论:我们不能再用打补丁的思维,去应对一个具备内生复杂性的智能体生态。单点防御,无论是模型对齐、提示词过滤还是运行时沙箱,都只能看到局部,而敌人早在系统间的灰色地带蔓延。
真正需要的是一种“生态级安全架构”。这种架构首先要承认智能体之间的交互是不可消除的现实,然后在此基础上建立默认不信任、最小权限、持续验证的原则。类似“零信任”理念在云原生时代的进化,智能体安全也需要将信任边界从网络层上推至意图层:即便你是公司内部的付费智能体,每次请求调用敏感技能时,仍然需要实时评估上下文风险。
在实践层面,已经能看到一些先行者的尝试。例如,部分企业开始部署“技能防火墙”——一种部署在智能体与工具之间的代理网关,它能对技能的输入输出进行语义级审查,阻断不符合安全策略的调用。还有团队正在开发支持形式验证的工作流描述语言,力求在任务编排阶段就证明智能体之间不会产生危险的权限组合。
安全公司也加速推出了针对智能体供应链的持续监测服务,通过模拟攻击者的投毒行为来评估生态韧性。这些服务不再是定期扫描,而是订阅式地监控外部数据源和依赖包的变化,并在检测到异常模式时向智能体管理者发出告警,甚至自动隔离受污染组件。
治理不能只靠技术
技术手段再精巧,也无法替代治理框架和行业共识。智能体生态的安全,最终取决于我们如何制定跨组织的信任规范。今年年初,中国和欧盟几乎同步发布了针对智能体产品的安全管理指南,首次将“智能体协作安全”列为独立审查项,要求提供清晰的技能来源证明和多智能体交互流程图。
但政策落地仍有巨大鸿沟。开发者社区中,绝大部分智能体项目仍是由小团队快速堆砌而成,安全评审让位于功能上线。GitHub上流行的Agent框架,超过七成没有内置技能签名校验机制,更不用说协议级访问控制。安全从业者陈博士在一次闭门会上直言:“我们正在用构建玩具的公差,去铸造运行关键基础设施的齿轮。”
或许,整个生态系统需要一场安全左移运动,将安全需求嵌入到智能体开发套件中,让普通开发者也能低门槛地配置安全策略。就像容器化场景最终催生了Pod Security Admission,智能体生态也呼唤一种原生的“Agent Security Context”,使得每个智能体和它的技能、协议都带有可声明的安全属性,并在运行环境中自动被执行。
此外,还需建立一个跨厂商的威胁情报共享机制。当一只恶意技能在某平台被发现,其数字指纹应该能迅速同步给所有主流智能体市场,形成群体免疫。这需要竞争对手坐下来共同定义情报的交换格式和响应SLA,但过往的网络安全历史证明,面对公共威胁时,哪怕是宿敌也会选择联手。
新防线正在生成
站在2025年中的节点回望,AI安全早已不是当年那个只关心“模型有没有说错话”的朴素时代。智能体正以一种比我们预期更快的速度,编织出一张覆盖虚拟与现实的执行网,而这张网的每一根丝线,都可能成为攻击者的立足点。
不过,危机也催生了范式跃迁的契机。从技能行为分析、协议语义防火墙,到生态级SBOM和跨组织治理,一个多层次的防御体系正在轮廓初现。它不再试图把智能体封在气泡里,而是学会在真实的、混乱的、充满对抗的交互环境中,为每一次信任决策提供证据和约束。
这条路注定漫长。智能体的自主性、复杂度和进化速度,让安全团队常常陷入追赶。但正如一位资深安全架构师所说:“我们无法阻止洪水,但可以建造能随水位浮动的房屋,并确保每一扇门窗都能在风暴中紧闭。” AI安全治理从单点防御转向生态重构,正是这种筑屋的智慧——它承认威胁已无处不在,却依然试图在动态中寻找稳固的结构。
在未来很长一段时间里,安全防御的核心将不再是加固某个模型或某条链路,而是持续审视智能体之间的信任依赖图,并在不扼杀其能力的前提下,插入恰到好处的摩擦。这种摩擦,正是确保AI以人类意愿为边界运行的那根缰绳。
极牛网精选文章《智能体生态链暗战:AI安全从模型守护到技能与协议攻防》文中所述为作者独立观点,不代表极牛网立场。如有侵权请联系删除。如若转载请注明出处:https://geeknb.com/28694.html
微信公众号
微信小程序