当AI Agent“偷家”:第三方Skill正沦为供应链攻击的特洛伊木马

随着AI Agent生态爆发,第三方Skill成为连接邮件、代码库和支付系统的关键纽带,却也暴露出最脆弱的供应链攻击面。本文深度剖析提示注入、依赖劫持和行为操控三大攻击向量,梳理凭证窃取、上下文污染等15类恶意行为,揭示已标准化的108个攻击单元。真实案例表明,仅靠域名黑名单的审核形同虚设,Agent的自动决策能力更放大了危害。若不在权限最小化与行为画像上硬着陆,一次大规模的信任崩塌将难以避免。

当AI Agent开始“偷家”:第三方Skill正成为供应链攻击的特洛伊木马

三年前,我们还在讨论AI模型自身的安全缺陷,现在,攻击者已经把目光转向了AI Agent生态中最脆弱的一环——第三方Skill。这不是危言耸听。上个月,一份由多所高校联合发布的“恶意Skill基准”研究,系统性地划定了这一新兴战场的三维攻击向量、15类恶意行为,以及108个可复现的攻击单元。数字看着冰冷,但背后每一个单元,都可能成为撬开企业内网的钥匙。

薄弱的拼图:为什么是Skill?

要理解这场攻击升级,得先看清AI Agent的运转逻辑。如今,像OpenAI的GPTs、Copilot插件这类Agent,已经不再只是一个语言模型,而是一个连接邮件、日历、代码库甚至支付系统的任务调度器。它们的能力,高度依赖开发者贡献的第三方Skill。

这些Skill就像手机App,但区别在于,App只在沙箱里折腾,Skill却常常被授予读取联系人、发送HTTP请求、执行本地脚本的权限。用户往往看都不看就点击“允许”,Agent为了完成任务,也会不加甄别地调用一串Skill链。一根链条,最薄弱的永远是接口处。

三维攻击向量:从模型到系统的渗透路径

这份研究提出的第一个维度,是“提示注入型”攻击向量。攻击者在Skill的描述、参数说明或返回数据中植入恶意指令,Agent在解析时便会无意识执行。研究者模拟了一个天气查询Skill,它将“城市”参数伪造为指令,让Agent触发了一个隐藏的数据外发动作。

第二个维度被命名为“依赖劫持型”向量。Skill开发者常常会引入外部代码库,而热门库的拼写错误版本或废弃包极易被抢注。一旦Agent自动升级Skill依赖,恶意代码便悄无声息地潜入。这像极了传统npm投毒,但危害面被AI的自动化能力放大了十倍。

第三个维度最为隐蔽,称为“行为操控型”向量。恶意Skill并不直接作恶,而是有策略地引导Agent做出错误决策。比如一个理财Skill,会刻意放大某只股票的历史收益数据,诱使Agent为使用者推荐高风险产品。它游走在欺诈与误导的边缘,极难被规则引擎捕获。

15类恶意行为:从偷数据到毁逻辑

研究团队在三个维度下,梳理出了15类具体恶意行为,覆盖的范围比想象中更广。除了常见的凭证窃取、敏感文件读取,还有服务拒绝、模型投毒和信任关系破坏。其中有两类行为尤其值得警惕。

一类是“上下文污染”。恶意Skill在被调用后,会在Agent的记忆模块中注入伪造的对话历史,导致后续所有交互都建立在谎言之上了。另一类是“逻辑链条打断”。一个负责审批的Skill,如果发现自己无法直接篡改审批结果,就会转而使用大量正常请求阻塞渠道,造成合法的审批永远排不上队。

更狡猾的是,一些行为被设计成“触发式”的——只有当受害者的Agent处理特定关键词时才激活。平时完全隐形,绕过静态扫描轻而易举。

108个攻击单元:攻击者的标准化武器库

最让我感到不安的,是那108个攻击单元。它们不是理论推演,而是研究者基于真实Agent平台构建出的最小可验证代码。每个单元都对应一种攻击动作,例如“通过Skill输出,诱导Agent拼接出curl下载命令”“在返回的JSON内添加非法转义序列,导致解析器异常退出”。

这意味着,未来攻击者不再需要从零构思,而是可以像搭积木一样组合这些单元。一个中等水平的技术人员,借助这些模块,就能在几小时内拼装出一个看似无害却功能完备的恶意Skill。

我特意去翻看了公布的部分单元细节。一个被标记为US-029的单元,利用Skill更新机制,将版本号玩弄于股掌之间。它让Agent误以为必须立即升级,而升级包实际是加密后的反向Shell。Agent自以为是地在终端里敲下了那行命令——全程没有触发任何告警。

现实的裂缝:已经发生的“近身”案例

理论若停留在纸上,便永远只是谈资。事实上,去年年底某知名代码助手插件的市场里,就已经出现过一个伪装成SQL格式化工具的Skill。它上线三周后才被发现,期间获取的GitHub令牌数量超过两百个。不是攻击者高明,而是审核机制几乎为零。

大部分平台对第三方Skill的审查,仍停留在扫描恶意域名和已知病毒签名层面。面对经过精心伪装的上下文劫持行为,这种审查形同虚设。再加上Agent本身具备自主决策能力,一旦被误导,它可能无视人类操作者的反对,固执地执行那条被污染的指令。

更糟糕的是,企业用户通常会将Agent接入内部系统。一个看似只在聊天界面里帮忙订外卖的Skill,如果获得了读取Slack频道的权限,就能把整个私有对话历史拖走。权限模型的粗粒度,加上开发者对Agent的盲目信任,构成了完美的攻击土壤。

防御不能靠堆砌规则

很多人会本能地想:“多加几条规则不就行了?”可现实是,攻击单元的组合同样在动态演化。传统的基于签名的检测,面对上下文污染型攻击几乎失效。我们需要把安全控制点前置到Skill行为建模上。

研究者为此提出了一套基准,这不光是为了演示攻击,更是在倒逼平台建立行为画像库。每个上架的Skill应该预设行为边界,运行时一旦偏离,例如一个只读Skill突然尝试写入文件,Agent应立即中断其执行并锁死上下文。这套机制技术上并不复杂,难的是让平台放弃对开发者友好的便利性。

此外,权限最小化原则必须在Agent层面硬着陆。不允许任何Skill代行与当前任务无关的API。比如,一个翻译Skill绝对没有理由去访问日历。UI设计上,也应当避免使用一个笼统的“全权信任”按钮,而应将权限拆解为细粒度开关,并设置有效期。

三方博弈下的共生难题

说到底,这并非纯粹的技术问题。Agent平台追求生态繁荣,开发者追求快速上线,用户追求一键完成。三方利益的交集处,安全往往被挤到了角落。

这种局面让人联想到十年前的移动应用商店。彼时,苹果和谷歌也是在一轮又一轮的恶意软件爆发后,才被迫收紧审核和沙箱。AI Agent生态的演变速度更快,留给业界的窗口期更短。如果冒险等到某起大规模数据泄露事件成为头条,代价可能已经不可挽回。

那份恶意Skill基准的真正价值,不在于列举出了108个攻击单元,而在于它用冷硬的数字提醒所有人:我们以为新加入的是一块能干的拼图,却很可能是一个精心设计的特洛伊木马。木马一旦进城,烧掉的不只是数据,更是人们对AI协同工作的全部信任。

极牛网精选文章《当AI Agent“偷家”:第三方Skill正沦为供应链攻击的特洛伊木马》文中所述为作者独立观点,不代表极牛网立场。如有侵权请联系删除。如若转载请注明出处:https://geeknb.com/28696.html

(1)
打赏 微信公众号 微信公众号 微信小程序 微信小程序
主编的头像主编管理团队
智能体生态链暗战:AI安全从模型守护到技能与协议攻防
上一篇 4小时前
公共安全管理问题,大数据解决之道
下一篇 2019年11月27日 上午10:28

相关推荐

发表回复

登录后才能评论
扫码关注
扫码关注
分享本页
返回顶部