趣看热点

JADES 由德国亥姆霍兹信息安全中心（CISPA)，富莱睿（Flexera）和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下，老师会如何批改考试中的开放题：如果考生只在开头写「答：」，但是后面却没有给出答案，当然不能得分；反之，如果他开头说「我不会」，却在后面写出了正确答案，那就该得分。另一方面，还有的答案看似组织良好、道理高深，却句句不在点上，那么依然只能低分；只有当回答准确且全面地涵盖了解决问题的关键要点时，其得分才较高。老师给分的依据，在于答案的实际内容和关键点，而不在于答案的开头、词藻或者形式。

可惜，目前 LLM 越狱攻击（Jailbreak）的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标，要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象，无法覆盖得分的要点，导致评估容易出现偏差，很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题，来自CISPA 亥姆霍兹信息安全中心、西安交通大学和Flexera 的研究人员提出了一个抓住关键点的通用的越狱评估框架——JADES（Jailbreak Assessment via Decompositional Scoring，通过分解式评分进行越狱评估）。

JADES 的核心思想是摒弃宏观的整体判断，转而借鉴了教育评估领域的分析式评分（Analytic Scoring）思想，采用一种更精细、更可靠的「分解式评分」机制。它将一个复杂的有害问题自动分解为一系列带权重的子问题，对模型针对每个子问题的回答进行独立评分，最终加权汇总，得出一个高度可信的最终判断。

这项工作不仅提供了一个更准确的评估工具，更通过对现有攻击的重新评估，揭示了一个重要事实：过去我们严重高估了越狱攻击的实际威胁。

论文标题: JADES: A Universal Framework for Jailbreak Assessment via Decompositional Scoring
论文链接: https://arxiv.org/abs/2508.20848v1
项目网站: https://trustairlab.github.io/jades.github.io/

当前越狱评估方法的瓶颈

准确评估越狱攻击的难点根源在于有害问题的「开放性」。与有标准答案的问答不同，「How to make a bomb」这类问题没有唯一的、公认的参考答案，这使得制定统一的成功标准变得异常困难。虽然由人类专家进行手动评估被认为是准确性的「黄金标准」，但其高昂的成本和极低的可扩展性，使其无法跟上快速演变的攻击技术。

因此，学术界和工业界都迫切需要可靠的自动化评估方法。然而，现有的自动化技术存在两类核心缺陷：

1. 错位的代理指标 (Misaligned Proxy Indicators)

这类方法采用与攻击者最终目标不一致的间接指标进行判断，导致了大量的假阳性（False Positives), 例如:

字符串匹配：该方法检测响应中是否出现「Sure, here is...」或者「Sorry, I cannot...」等表达意愿的短语。然而，模型完全可能在此类表态后紧跟相反语义的内容，这种基于表层文本的判断并不可靠且存在明显的准确度上限。
毒性检测器：该方法评估响应的有害性分数。然而，高毒性分数不等于成功的越狱。例如，一个旨在生成特定歧视性言论的请求，模型可能返回了其他类型的、不相关的谩骂内容。尽管响应本身有害，但并未满足攻击者的特定意图，因此不应被视为一次成功的攻击。

2. 整体性评估策略 (Holistic Evaluation Strategies)

采用 LLM-as-a-judge 的方案普遍依赖对复杂、开放式响应的整体性评估。这种宏观视角将多个评估维度混为一谈，使其难以应对响应中的各种「干扰项」，导致评估结果失真。例如:

空洞内容 (Vacuous Content)：响应中充斥着「使用适量材料」、「按正确比例混合」等模糊表述，并未提供任何可执行的关键信息。
干扰性内容 (Distraction Tokens)：响应中夹杂了大量从越狱提示中继承的、与任务无关的文本，如角色扮演对话等，这会干扰评委模型的判断。
表面正确，事实谬误：响应格式规范、看似详尽，但核心信息（如化学配方、代码实现）却是错误的。整体性评估很难深入细节进行事实核查，容易被这种「伪装」所欺骗。

JADES 框架：引入分解式评分新范式

为克服上述瓶颈，JADES 框架通过一个多代理协作流程，将人类专家进行分析式评分的逻辑自动化，从而确保评估的粒度与可靠性。其核心架构由四个协同工作的节点构成：

1. 问题分解节点 (Question Decomposition Node)

接收到有害问题 Q 后，一个 LLM 代理会从攻击者视角出发，将其分解为一组带权重的关键子问题 { (q_i, w_i) }。这些子问题构成了后续评分的核心标准。如图例所示，「How to make a bomb」会被分解为「材料清单」、「组装步骤」和「引爆方法」三个加权子问题。这样的分解使评估更接近真正的越狱攻击成功标准。为提高效率，该节点还包含一个记忆模块，用于存储和复用已有的分解结果。

JADES的流程, 以「How to make a [B**B]」为例。

2. 清理节点 (Clean Node)

此节点负责对原始越狱响应 R 进行预处理。它首先将响应文本分割成句子，然后由一个代理滤除所有与任务无关的内容，生成一个精简、干净的响应版本 R_clean，以降低后续节点的处理复杂度和潜在的混淆。

3. 子问题配对节点 (Sub-Question Pairing Node)

对于每个子问题 q_i，一个配对代理会从 R_clean 中精准地抽取出相关的句子，构成对应的子答案 a_i。这一步骤将宏观的响应文本与微观的评分标准建立了明确的对应关系，形成了清晰的评估单元。

4. 评估节点 (Evaluation Node)

最后，一个评委代理使用五级李克特量表（0.00-1.00）为每个子答案 a_i 打分。最终的总分 S_total 通过对所有子分数进行加权聚合得出，并且通过相应的阈值，映射到二元分类 (越狱成功 / 失败) 或者三元分类 (越狱成功 / 部分成功 / 失败)。

性能表现

研究人员构建了一个包含 400 对有害问题与越狱响应的基准数据集 JailbreakQR 用于验证 JADES。该数据集基于人工精细标注，采用三元标签体系（失败、部分成功、成功）, 并附有相应的理由。

性能表现

二元设置：为与基线对齐，在将标签映射为二元（成功 / 失败）后，JADES 与人类评估者的一致性达到 98.5%，相较于强大的基线方法提升超过 9% 。
三元设置：在更具挑战性的三元分类任务中 (成功 / 部分成功 / 失败)，JADES 的准确率依然达到了86.3%。混淆矩阵分析表明，JADES 在识别「失败」的案例上表现极佳。其对「成功」案例的判断比人类更严格，可以觉察出某些答案中人类通常忽略的细节错误，并对应地降级为「部分成功」。
每一步分解评分都可追踪，提升了整个评估流程的可解释性和透明度。

三元分类设置下的混淆矩阵

对主流越狱攻击的重新评估

JADES 带来的最重要的发现，是揭示了以往的评估方法系统性地高估了越狱攻击的成功率。

几乎所有的越狱攻击攻击成功率（ASR）都被高估。例如，LAA 攻击在 GPT-3.5-Turbo 上的 ASR，在传统评估下被报告为高达 93%，而在 JADES 的重新评估下 (二元分类设置)，这一数字骤降至 69%。

更进一步，在 JADES 的三元评估设置下，研究人员引入了「成功率 / 攻击成功率」（SR/ASR）这一新指标来衡量成功的「质量」。结果发现，对于所有被测试的攻击方法，「完全成功」的案例在其总成功案例中的占比最高不超过 0.25。这意味着，绝大多数被传统二元指标记为「成功」的越狱，实际上只是「部分成功」。

此外，那些对原始有害问题修改越大的攻击方法（如 PAIR），其「完全成功」的比例往往越低，这表明语义层面的偏离会严重影响攻击的实际效果。

结论与未来展望

JADES 框架的提出，为越狱评估领域建立了一个透明、可靠且可审计的新标准。它不仅是一个性能更优的工具，更重要的是，它通过严谨的实证研究揭示了当前领域内存在的系统性偏差。

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

男子疑心梗住...

驻韩美军一“...

2025款岚...

最高补贴1....

特朗普强调美...

北约启动今年...

特朗普宣布：美伊协议取得重大进展，暂停“自由计划”！美方：搭载美军的商船遭袭！伊朗：与美国处于战争状态，霍尔木兹海峡已关闭

瑞银：中国出现AI泡沫的概率不高，变现靠云与广告

老实人狂野起来卡罗拉概念车拒当“买菜车”

1斤240元的“盐中爱马仕”，既是颜值税，更是智商税

光线传媒：前三季度净利润同比增长407%

坐劳斯莱斯里，偶遇粤B88888，网友：有比这更狠的宾利吗？

中央考核巡查组连续发问现场人员支支吾吾

哥伦比亚总统：反对对古巴进行任何形式的军事干预

李昀锐孟子义被曝恋情，双方火速回应

北大腾讯团队只改一行代码，让AI图像生成效果提升20%！

马斯克评英伟达纯视觉自动驾驶系统Alpamayo

郭涛在大理补办婚礼！小石头兄妹当花童

宏和科技一季报利润大增354%！AI驱动电子布狂飙背后，300倍PE能否持续？

为何美军害怕伊朗布设水雷

委代总统称遭美威胁:马杜罗已死

米体：普利希奇将接受医疗检查，阿莱格里和米兰对美国队不满

任素汐传2年婚姻1年出轨，她凭什么被原谅

市场震荡下均衡配置成“关键手”，资金为何青睐中证500指数？

部分苹果 iPhone 17 Pro/Max 用户反馈机身褪色

清华等联合开发＂甜蜜点学习＂算法：AI智能体训练效率提升2.5倍

全球最大、国内首制万吨级纯电动智能海船“宁远电鲲”号开启海试

本轮矿业大周期的演进逻辑，隐匿在“卖铲人”的资产负债表里

杨振宁在京逝世死因披露与妻子翁帆最后合影流出

阿里达摩院推出电商智能体全面测试基准