当AI Agent“偷家”：第三方Skill正沦为供应链攻击的特洛伊木马

三年前，我们还在讨论AI模型自身的安全缺陷，现在，攻击者已经把目光转向了AI Agent生态中最脆弱的一环——第三方Skill。这不是危言耸听。上个月，一份由多所高校联合发布的“恶意Skill基准”研究，系统性地划定了这一新兴战场的三维攻击向量、15类恶意行为，以及108个可复现的攻击单元。数字看着冰冷，但背后每一个单元，都可能成为撬开企业内网的钥匙。

薄弱的拼图：为什么是Skill？

要理解这场攻击升级，得先看清AI Agent的运转逻辑。如今，像OpenAI的GPTs、Copilot插件这类Agent，已经不再只是一个语言模型，而是一个连接邮件、日历、代码库甚至支付系统的任务调度器。它们的能力，高度依赖开发者贡献的第三方Skill。

这些Skill就像手机App，但区别在于，App只在沙箱里折腾，Skill却常常被授予读取联系人、发送HTTP请求、执行本地脚本的权限。用户往往看都不看就点击“允许”，Agent为了完成任务，也会不加甄别地调用一串Skill链。一根链条，最薄弱的永远是接口处。

三维攻击向量：从模型到系统的渗透路径

这份研究提出的第一个维度，是“提示注入型”攻击向量。攻击者在Skill的描述、参数说明或返回数据中植入恶意指令，Agent在解析时便会无意识执行。研究者模拟了一个天气查询Skill，它将“城市”参数伪造为指令，让Agent触发了一个隐藏的数据外发动作。

第二个维度被命名为“依赖劫持型”向量。Skill开发者常常会引入外部代码库，而热门库的拼写错误版本或废弃包极易被抢注。一旦Agent自动升级Skill依赖，恶意代码便悄无声息地潜入。这像极了传统npm投毒，但危害面被AI的自动化能力放大了十倍。

第三个维度最为隐蔽，称为“行为操控型”向量。恶意Skill并不直接作恶，而是有策略地引导Agent做出错误决策。比如一个理财Skill，会刻意放大某只股票的历史收益数据，诱使Agent为使用者推荐高风险产品。它游走在欺诈与误导的边缘，极难被规则引擎捕获。

15类恶意行为：从偷数据到毁逻辑

研究团队在三个维度下，梳理出了15类具体恶意行为，覆盖的范围比想象中更广。除了常见的凭证窃取、敏感文件读取，还有服务拒绝、模型投毒和信任关系破坏。其中有两类行为尤其值得警惕。

一类是“上下文污染”。恶意Skill在被调用后，会在Agent的记忆模块中注入伪造的对话历史，导致后续所有交互都建立在谎言之上了。另一类是“逻辑链条打断”。一个负责审批的Skill，如果发现自己无法直接篡改审批结果，就会转而使用大量正常请求阻塞渠道，造成合法的审批永远排不上队。

更狡猾的是，一些行为被设计成“触发式”的——只有当受害者的Agent处理特定关键词时才激活。平时完全隐形，绕过静态扫描轻而易举。

108个攻击单元：攻击者的标准化武器库

最让我感到不安的，是那108个攻击单元。它们不是理论推演，而是研究者基于真实Agent平台构建出的最小可验证代码。每个单元都对应一种攻击动作，例如“通过Skill输出，诱导Agent拼接出curl下载命令”“在返回的JSON内添加非法转义序列，导致解析器异常退出”。

这意味着，未来攻击者不再需要从零构思，而是可以像搭积木一样组合这些单元。一个中等水平的技术人员，借助这些模块，就能在几小时内拼装出一个看似无害却功能完备的恶意Skill。

我特意去翻看了公布的部分单元细节。一个被标记为US-029的单元，利用Skill更新机制，将版本号玩弄于股掌之间。它让Agent误以为必须立即升级，而升级包实际是加密后的反向Shell。Agent自以为是地在终端里敲下了那行命令——全程没有触发任何告警。

现实的裂缝：已经发生的“近身”案例

理论若停留在纸上，便永远只是谈资。事实上，去年年底某知名代码助手插件的市场里，就已经出现过一个伪装成SQL格式化工具的Skill。它上线三周后才被发现，期间获取的GitHub令牌数量超过两百个。不是攻击者高明，而是审核机制几乎为零。

大部分平台对第三方Skill的审查，仍停留在扫描恶意域名和已知病毒签名层面。面对经过精心伪装的上下文劫持行为，这种审查形同虚设。再加上Agent本身具备自主决策能力，一旦被误导，它可能无视人类操作者的反对，固执地执行那条被污染的指令。

更糟糕的是，企业用户通常会将Agent接入内部系统。一个看似只在聊天界面里帮忙订外卖的Skill，如果获得了读取Slack频道的权限，就能把整个私有对话历史拖走。权限模型的粗粒度，加上开发者对Agent的盲目信任，构成了完美的攻击土壤。

防御不能靠堆砌规则

很多人会本能地想：“多加几条规则不就行了？”可现实是，攻击单元的组合同样在动态演化。传统的基于签名的检测，面对上下文污染型攻击几乎失效。我们需要把安全控制点前置到Skill行为建模上。

研究者为此提出了一套基准，这不光是为了演示攻击，更是在倒逼平台建立行为画像库。每个上架的Skill应该预设行为边界，运行时一旦偏离，例如一个只读Skill突然尝试写入文件，Agent应立即中断其执行并锁死上下文。这套机制技术上并不复杂，难的是让平台放弃对开发者友好的便利性。

此外，权限最小化原则必须在Agent层面硬着陆。不允许任何Skill代行与当前任务无关的API。比如，一个翻译Skill绝对没有理由去访问日历。UI设计上，也应当避免使用一个笼统的“全权信任”按钮，而应将权限拆解为细粒度开关，并设置有效期。

三方博弈下的共生难题

说到底，这并非纯粹的技术问题。Agent平台追求生态繁荣，开发者追求快速上线，用户追求一键完成。三方利益的交集处，安全往往被挤到了角落。

这种局面让人联想到十年前的移动应用商店。彼时，苹果和谷歌也是在一轮又一轮的恶意软件爆发后，才被迫收紧审核和沙箱。AI Agent生态的演变速度更快，留给业界的窗口期更短。如果冒险等到某起大规模数据泄露事件成为头条，代价可能已经不可挽回。

那份恶意Skill基准的真正价值，不在于列举出了108个攻击单元，而在于它用冷硬的数字提醒所有人：我们以为新加入的是一块能干的拼图，却很可能是一个精心设计的特洛伊木马。木马一旦进城，烧掉的不只是数据，更是人们对AI协同工作的全部信任。

极牛网精选文章《当AI Agent“偷家”：第三方Skill正沦为供应链攻击的特洛伊木马》文中所述为作者独立观点，不代表极牛网立场。如有侵权请联系删除。如若转载请注明出处：https://geeknb.com/28696.html