关闭广告

深度搜索如何学会自我监督:来自脑科学的启发

科技行者864人阅读


你有没有经历过这样的情况:当你在网上搜索某个问题时,一开始找到的信息看起来很有道理,但继续查阅下去却发现前面的理解完全错了?这个过程中,你之所以能意识到错误,是因为你在不断监督自己的思考过程,检查新信息是否与之前的判断相符。现在,人工智能的深度搜索系统也面临同样的问题,但它们往往缺乏这种自我监督的能力。

这项由人民大学、国际商务与经济大学、腾讯搜索应用部、北京邮电大学等机构联合研究的工作,于2026年发表在学术期刊中,针对深度搜索智能体的这一关键缺陷提出了创新解决方案。研究团队从人类大脑的运作方式中获得灵感,设计了一套分层次的自我监督机制,帮助搜索系统在执行复杂任务时不断检查自己的推理过程是否合理。这项研究的成果不仅在多个基准测试中表现出色,甚至让开源系统的性能超越了一些商业产品。

一、问题的根源:AI搜索系统为什么容易犯错

现在的大型语言模型驱动的深度搜索系统已经相当强大,它们能够进行多步骤的信息检索、复杂的推理甚至长期的任务规划。但在实际使用中,这些系统经常出现令人困惑的失败,而且这些失败往往不是因为单一步骤出错,而是因为一连串的小错误逐步累积。想象一下,如果你第一步就记错了一个关键信息,但没有意识到,那么后续的所有推理都会建立在错误的基础上,最后得出的答案自然是错的。

具体来说,这些系统面临的问题包括:当面对模棱两可或相互矛盾的信息时,系统仍然会盲目自信地做出决定;当搜索到的证据不清晰时,系统仍然坚持原有的观点,而不是灵活调整;搜索行为也常常陷入重复的循环,徒劳地获取已经知道的信息。这些现象反映出一个更深层的问题:系统缺乏一个机制来持续监督自己的推理和搜索状态,判断什么时候出现了问题,什么时候应该改变策略。

二、人类大脑如何处理这个问题

进化赋予人类一个精妙的解决方案。人类的元认知能力(简单说就是"思考自己的思考")并不是一个单一的过程,而是分成两层的。第一层是快速的、隐性的异常检测机制,位于大脑的前扣带皮层区域。这个"快速卫士"时刻在守卫,它不需要深思熟虑就能察觉到矛盾、冲突或意外,像是一个灵敏的警报器。当这个警报器响起时,才会触发第二层——缓慢的、体验驱动的反思机制,这部分涉及前额叶皮层和海马体。这个"慢速顾问"会基于过往的经验回忆和深度思考,给出更精细的诊断和改正方案。

关键的是,这两层并不总是同时工作。快速监督在任何时候都在进行,但缓慢监督只有在快速监督发出警告时才被激活。这种设计既节省了大脑的能量,又确保了在真正需要时能进行深入的反思。现有的人工智能系统完全缺乏这种结构。它们要么没有任何监督机制,要么就是每一步都进行昂贵的评估,不管是否真的需要。

三、研究团队的创新方案:分层监督的深度搜索系统

基于对人类脑科学的这些洞察,研究团队提出了一个叫做DS-MCM(Deep Search with Meta-Cognitive Monitoring,带元认知监督的深度搜索)的框架。这个框架就像给AI搜索系统装上了一对新的眼睛,让它能够持续观察自己的工作状态。

快速一致性监督器就像那个敏锐的前扣带皮层。它在每一步搜索后都会进行一个轻量级的检查,比较两个关键的"熵"指标。这里的"熵"是一个物理学概念,用来衡量混乱或不确定的程度。搜索熵(SE)用来量化系统从网络上获得的信息有多么自相矛盾、多么不清晰。推理熵(RE)用来量化系统内部推理过程的不确定性。关键的洞察是:当面对模棱两可的证据时,高推理熵是正常的,就像你在看一个多角度的故事时会感到困惑一样。但是当证据很清楚而推理依然不确定时,或者证据很混乱但推理却过于确信时,那就是警告信号。

实现这个想法的具体方式是这样的。系统首先将检索到的文档转换为语义向量表示,然后根据语义相似性对它们进行聚类。这就像把信息按照其含义进行分类,而不是按照表面的词汇。通过计算这些语义簇的分布,系统可以得到搜索熵值。同时,系统也会分析其推理过程中每个词汇的预测分布,计算出推理熵。然后,系统用一个简单的线性关系(类似于y=ax+b的公式)来描述这两个熵之间的预期关系。如果实际观察到的推理熵与预期不符太多,系统就会拉响警报。

四、缓慢的经验驱动监督:学习过去的智慧

当快速监督器发现异常时,它会激活缓慢经验驱动监督器。这个部分对应人类大脑中的反思机制,利用过往的经验来诊断问题并提出改正建议。

系统如何获得这些"经验"呢?研究团队从历史搜索任务的轨迹中提取。具体来说,他们从成功的搜索任务和失败的搜索任务中都学习。对于每一个完成的搜索任务,他们把它分解成一个个单独的步骤,每个步骤包含当时的查询、系统的推理过程、执行的动作和得到的反馈。这些步骤被压缩成简洁的记忆条目,重点记录系统在这一步做了什么、之前的背景是什么,以及一个自然语言的摘要,描述这一步的认知行为。重要的是,对成功的步骤和失败的步骤,摘要的风格是不同的。对成功的步骤,系统会提取"什么做对了";对失败的步骤,系统会总结"什么地方出错了,为什么"。

这样,系统就构建了两个记忆库:一个存储成功的认知模式,一个存储失败的认知模式。当当前搜索步骤被快速监督器标记为异常时,系统会在这两个记忆库中搜索最相似的历史案例,然后通过一个评估模型(相当于"思考者")来对比当前情况和历史情况。这个评估模型会给出两个输出:第一,确认当前是否真的有认知错误;第二,如果有的话,基于历史经验建议应该怎么改正。这个建议然后被用来调整系统后续的推理和行动。

五、实验验证:从理论到实践

研究团队对这个框架进行了全面的测试。他们在四个不同的深度搜索基准上评估了系统:BrowseComp-Plus测试系统在受控英文搜索环境中的表现,BrowseComp-ZH是中文版本的高难度多步骤问题,xbench-DeepSearch注重工具使用和信息寻求,GAIA评估通用助手在真实世界任务中的表现。

在所有这些测试中,DS-MCM都表现得更好。最令人印象深刻的结果是,一个开源的搜索系统(Tongyi DeepResearch)加上DS-MCM框架后,在平均性能上超过了多个商业产品,包括OpenAI的o3、Gemini 2.5 Pro等。这表明,高性能不一定要靠更大的模型或更多的计算,而可以通过更聪明的监督机制来实现。

研究团队也对框架中的各个组件进行了消融实验,即逐个移除组件来看效果。结果显示,快速监督器和缓慢监督器都是必需的,它们相辅相成。只有快速监督而没有经验记忆,系统会退化为一个没有记忆的评估器,无法提供有针对性的改正建议。只有经验记忆而没有快速异常检测,系统就会浪费时间去评估每一步,即使其中大多数步骤根本不需要反思。

此外,研究员还考察了系统的效率。有趣的是,虽然加入了监督机制,DS-MCM的时间开销却远小于一个朴素的方案,后者会在每一步都调用一个评估模型。DS-MCM只增加了3-7%的运行时间,而朴素方案会增加12-22%。这正是因为分层设计的妙处:快速监督器非常轻量,而昂贵的缓慢监督只在必要时触发。

六、系统的灵活性与泛化能力

研究还验证了这个框架的灵活性。当用不同的数据集来构建经验记忆时,系统仍然能保持很好的性能。比如,即使用来自一个完全不同基准的经验记忆,系统在另一个基准上的改进仍然显著。这说明系统学到的不是某个特定任务的技巧,而是真正通用的认知模式。

在一个特殊的评估中,研究者还测试了系统是否能够识别和定位具体的推理错误。在这个任务中,系统需要指出一个多步骤过程中哪一步出错了。结果显示,带有DS-MCM的系统在这方面的准确率大幅提升,特别是在步骤级别的错误定位上。这进一步验证了框架中的经验驱动机制确实在发挥作用。

人类评估也支持这些结果。研究员抽取了100个被缓慢监督器标记需要改正的案例,请人类评估这些改正建议是否合理。DS-MCM生成的建议得到的同意度(75-80%)明显高于一个没有经验驱动的基线(64-69%)。这表明经验记忆确实帮助系统给出更符合实际需要的建议。

七、超越现有方法

这项工作与之前的研究有什么关键不同呢?之前的工作常常采用单一的"评估者"来审视系统的推理,但这个评估者是无记忆的,就像一个医生每次看病都没有患者历史记录一样。或者,他们依赖原始的不确定性指标,比如某个词的预测概率,但这在深度搜索中常常产生误导,因为多种不同的搜索路径都可能是合理的。

DS-MCM的创新在于它同时采用了两个维度的改进。在"快"的层面,它用一个经过精心设计的一致性检查来替代原始的不确定性指标,这个检查专门针对深度搜索的独特特征。在"慢"的层面,它引入了经验记忆,让监督不再是通用的,而是根据过去的成功和失败经验进行定制。这种组合的方法产生了更强大的效果。

八、实际应用的意义

这项研究的实际意义在于它表明,一个相对较小的开源模型,只要配备了适当的自我监督机制,就可以在性能上与远大于它的商业系统竞争。这对很多想要部署搜索系统的组织都有重要意义,因为这意味着他们不必一定要依赖最大、最昂贵的商业模型。通过更聪明的系统设计,可以用更经济的方式达到类似的效果。

此外,这项工作也为AI系统的可靠性提供了一个新的思路。在医疗、法律、金融等高风险领域,AI系统的可靠性至关重要。一个能够自我监督、能够识别不确定情况、能够基于经验调整行为的系统,显然比一个只会盲目输出结果的系统更值得信任。

研究团队还指出,这套框架可以应用到不同的搜索任务中,不限于网络搜索。任何涉及迭代推理和信息获取的任务,比如数据分析、科学研究、决策支持等,都可能从这种分层的元认知监督中受益。

总的来说,这项研究通过从人脑的运作方式中汲取灵感,为深度搜索系统添加了一套聪明的自我监督机制。它不仅在多个基准测试中表现出色,还在思维方式上提供了一个新的视角:不是简单地让模型更大、更强,而是让它更聪明地认识自己的局限,更有智慧地寻求外界的帮助。这项工作为未来更健壮、更可靠的AI系统指明了方向。

Q&A

**Q1:什么是搜索熵和推理熵,它们为什么重要?**

A:搜索熵衡量的是系统从网络获得的信息有多模棱两可、多么自相矛盾,推理熵则衡量系统内部推理的不确定程度。它们之间应该相互匹配——面对混乱的信息时推理也应该不确定,面对清晰的信息时推理应该更有把握。如果两者不匹配,比如面对清晰信息却仍然推理不确定,或者面对混乱信息却过度自信,都是危险信号。

**Q2:为什么快速监督器和缓慢监督器需要分开?它们能合并吗?**

A:不能。快速监督器像一个警报器,需要在每一步都工作但消耗很少的资源。缓慢监督器则需要深入思考和回忆过去经验,成本很高。如果什么时候都进行深度思考,系统会变得很慢。分开设计既节省成本,又能确保在必要时进行充分的反思。

**Q3:这个系统怎样处理完全陌生的问题,过去没有相似的经验?**

A:系统仍然会进行快速监督,检查当前步骤的一致性。如果快速监督检测到异常,系统会在经验记忆中搜索最相似的过去案例,即使不完全相同。这些相似案例仍然能提供有价值的参考,告诉系统类似的异常在过去是如何被处理的。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美控制马杜罗花了5分钟 特朗普像看电视剧一样"旁观"

中国新闻周刊 浏览 3830

Jane Street、Citadel Securities三季度业绩强劲,全年有望创纪录

华尔街见闻官方 浏览 1461

李湘账号被封;蔡依林鸟巢开唱:张水华直播道歉

娱乐圈那档子事儿 浏览 1018

澳海滩枪击惊魂50分钟:枪手占据天桥向下扫射

澎湃新闻 浏览 4698

到了秋天才知道,年纪大的女人要告别“小脚裤”,这样穿显瘦

静儿时尚达人 浏览 1937

陈乔恩带老公和父母聚餐,Alan负责拍照

黄谋仕 浏览 1063

豆包手机最高被炒至1.29万元 日租费高达1600元

极目新闻 浏览 5280

"商务部公告附件首次改为wps格式"不实 至少5年前已用

极目新闻 浏览 8540

比亚迪锂电、钠电池量产 电动车或有4大变化

电动车的那些事儿 浏览 1218

如何在全球高端设备领域掌握话语权?“深圳智造”又传喜报

南方都市报 浏览 1700

理财的,注意这两个风险!

米筐投资 浏览 1354

欧尔班:乌克兰和欧盟认为匈牙利很碍事 企图更迭政府

文汇报 浏览 8809

警惕特朗普TACO交易割韭菜

尺度商业 浏览 1973

我国计算机软件事业先驱者之一、中国科学院院士董韫美因病逝世

IT之家 浏览 904

72岁大佬完美谢幕,套现22亿无人反对,国资和股民都很满意

壹只灰鸽子 浏览 1240

区委书记别硬演,黄晓明拿腔捏调,好出戏,有人却演成了干部本尊

娱乐圈笔娱君 浏览 1001

黑芝麻控制权转让新进展:尽职调查10月底前收尾,国资注入能否解 “冲饮困局”?

时代周报 浏览 2057

伊敏百台无人矿卡常态化安全稳定运行超180天,单日产量创新高

IT之家 浏览 1020

京东造车!刘强东有新玩法?

百姓评车 浏览 1936

直击现场!看东部战区演习高燃瞬间

环球网资讯 浏览 1162

邱毅:两岸统一的脚步越来越近

环球网资讯 浏览 1574
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
Copyright © 2020-2022,版权所有 qukanredian.com
沪ICP备20002587号-1