内容安全转向行为安全
-
当AI开始“动手”:从内容安全到行为安全的临界点
今年五月德国法院裁定谷歌须为AI生成的虚假搜索结果担责,这标志着AI安全关注点从‘内容’延伸至‘行为’。当AI智能体具备自主订票、发送邮件、调用API等行动能力,内容层面的关键词过滤已无法阻止恶意指令劫持。攻击者可通过隐蔽文本诱导Agent转账、窃取数据,行为风险正从理论变为现实。文章分析了内容安全护栏的失效、Agent行为劫持的攻击链,以及法律如何将AI行为视为部署者的延伸。防御方面提出最小权限沙箱、行为序列审计与意图验证等机制,要求安全团队转型为行为监护者。从‘AI说了什么’到‘AI做了什么’,安全边界正在重绘。