趣看热点

这项由云拒科技、哈尔滨工业大学和中国科学技术大学联合开展的研究，于2026年1月发表在arXiv平台上，论文编号为arXiv:2601.18226v1。这是首个真正实现"零起点自我进化"的智能代理系统研究，为人工智能领域带来了全新的突破。

现代的AI助手系统就像是一位经验丰富的工匠，拥有一个装满各种工具的工具箱。但是传统的AI工匠面临一个严重的问题：当遇到新任务时，如果工具箱里没有合适的工具，他们就束手无策了。更糟糕的是，这些工匠无法学会制造新工具，只能使用预先准备好的固定工具集。

云拒科技的研究团队发现了这个痛点，决定创造一个全新的AI系统——Yunjue Agent。这个系统最神奇的地方在于，它可以像一位聪明的工匠一样，在面对新任务时不仅能够使用现有工具，还能临时创造出专门的新工具，并且把这些工具永久保存在自己的工具箱里，供将来使用。

想象一下，如果你有一个助手，第一次帮你修理自行车时需要学会使用螺丝刀，第二次帮你做饭时学会了使用锅铲，第三次帮你修电脑时又掌握了螺丝批的用法。随着时间推移，这个助手的工具箱越来越丰富，能力也越来越强。Yunjue Agent正是这样一个能够不断自我提升的智能系统。

这项研究的创新之处在于提出了"原位自我进化"的概念。传统的AI系统就像工厂流水线上的工人，需要事先接受大量培训才能工作，而且一旦开始工作就无法学习新技能。而Yunjue Agent更像是一位学徒工匠，能够在实际工作中不断学习和成长，遇到新的挑战时会主动开发新工具，并将这些经验积累下来。

研究团队设计了一套精巧的"并行批量进化"策略。这就像是让多个工匠同时工作，当他们各自创造出不同的工具时，系统会自动识别哪些工具功能相似，然后将它们合并成一个更完善的通用工具。这样既避免了工具箱过度膨胀，又确保了每个工具都是经过实战检验的优质产品。

更令人惊喜的是，研究团队开发了一个叫做"进化通用性损失"的指标，就像给这个自我进化过程安装了一个仪表盘。通过观察这个指标的变化，我们可以清楚地看到系统什么时候还在快速学习新技能，什么时候已经达到了相对稳定的状态。这就像监控学生的学习进度一样，让我们能够实时了解系统的成长情况。

一、从理想到现实：智能助手进化的必然之路

当前的AI发展面临着一个有趣的悖论。最强大的AI系统往往是那些"黑盒子"产品，比如某些大型科技公司的专有模型，它们能力强大但原理不透明。而那些开放源码、可以自由研究的AI系统，虽然透明度高，但性能往往落后一大截。这就像在汽车行业中，顶级跑车的制造秘密被严格保护，而开源的汽车设计虽然人人可以学习，但性能总是差那么一点。

云拒科技的研究团队认为，要让开源AI真正缩小这个性能差距，关键不在于简单地模仿那些封闭系统，而在于开发一种全新的能力：让AI系统能够在使用过程中不断自我改进。这就像让一辆汽车在行驶过程中自动升级自己的引擎和零部件一样神奇。

真正的人工通用智能应该具备三个核心能力：工作流程的适应、上下文记忆的管理，以及工具的动态进化。工作流程适应就像是学会根据不同任务调整工作方式；上下文记忆管理类似于将过往经验转化为可用的知识；而工具的动态进化则是能够创造和改进解决问题的手段。

在这三个能力中，研究团队特别关注工具进化，原因很简单：这是唯一一个可以提供客观、可验证反馈信号的领域。当系统创建一个新工具时，这个工具要么能成功完成任务，要么会报错失败，没有中间模糊地带。这种明确的成功失败信号为系统的自主学习提供了坚实的基础。

相比之下，工作流程的优化和用户偏好的对齐往往依赖于主观或延迟的反馈。比如判断"用户是否喜欢这个总结"这样的问题，答案往往是模糊的，而且可能需要很长时间才能得到反馈。但工具的功能测试是立即的和客观的：代码要么运行成功，要么抛出异常，没有歧义。

二、Yunjue Agent的核心创新：让AI成为真正的工匠

Yunjue Agent的设计哲学可以用一个简单的比喻来理解：传统的AI助手就像是一个带着固定工具箱的维修工，无论遇到什么问题，都只能从有限的工具中选择。而Yunjue Agent更像是一个聪明的铁匠，不仅会使用现有工具，还能根据需要打造新工具。

整个系统采用了多代理协作架构，就像一个小型的工作坊，里面有几个专门负责不同职责的工匠。管理员负责分析任务和协调资源；工具开发师专门负责创造新工具；执行者负责使用工具完成实际任务；整合者则负责将所有结果汇总成最终答案。

当系统收到一个新任务时，管理员首先会检查现有的工具库，看看是否有合适的工具可以直接使用。如果没有，就会指派工具开发师创建专门的新工具。这些新工具以Python代码的形式实现，创建后立即投入使用。更重要的是，一旦验证这些工具确实有效，它们就会被永久保存在系统的工具库中，供未来的类似任务使用。

系统的一个巧妙设计是支持动态运行时适应。执行者在使用工具解决问题的过程中，如果发现缺少某些必要功能，可以暂停当前工作，向管理员请求开发新工具，然后无缝地继续完成任务。这就像一个木匠在制作家具过程中发现需要一种特殊的刨子，于是停下来制作这个工具，然后继续完成家具制作。

三、并行批量进化：效率与质量的完美平衡

在实际应用中，如果系统每次只处理一个任务，虽然能够最大化工具重用，但效率会很低。另一方面，如果完全并行处理所有任务而不进行协调，又会导致大量重复和冗余的工具被创建。

为了解决这个矛盾，研究团队开发了"并行批量进化"策略。这个策略的工作原理类似于一个智能的工具管理系统：系统会同时处理一批任务，每个任务都可以根据需要创建自己的专用工具。但在这批任务全部完成后，系统会启动一个智能的工具整理过程。

在这个整理过程中，系统首先识别功能相似的工具。比如，可能有三个不同的任务分别创建了"网页搜索"、"在线查询"和"互联网搜索"三个工具，虽然名字不同，但功能本质上是一样的。系统会将这些功能相似的工具聚类到一起，然后通过一个智能合并机制，将它们整合成一个更强大、更通用的工具。

这个过程就像是让多个工匠各自独立工作，最后再让一个经验丰富的老师傅来整理所有工具，去除重复，保留精华，并将相似的工具改进合并。这样既保证了并行处理的效率，又避免了工具库的无序膨胀。

研究团队发现，这种批量处理方式类似于机器学习中的小批量梯度下降算法。就像小批量训练可以通过平均多个样本的梯度来减少训练的随机性一样，批量工具进化通过合并多个相似的工具实例来提高工具的稳定性和通用性。同时，这也相当于进行了多次并行的工具创建尝试，然后选择最好的结果保留下来。

四、实战验证：从数学难题到金融分析的全方位测试

为了验证Yunjue Agent的实际能力，研究团队选择了五个完全不同领域的基准测试，这就像让一个全才工匠接受各种不同类型的挑战。这些测试涵盖了从高难度学术问题到实用的商业任务，确保系统的通用性得到全面验证。

第一个测试是"人类最后考试"，这是一个包含数学、人文和自然科学等多个学科专家级问题的测试集。这些题目的难度相当于人类知识边界的水平，是对AI系统综合推理能力的极限挑战。

第二个测试是"深度搜索问答"，主要考查系统进行复杂网络搜索、信息收集和多来源证据整合的能力。这就像让系统成为一个调研专家，需要在海量信息中找到准确答案。

第三个测试使用了xBench平台的中文专业评估套件，包括科学问答和深度搜索两个部分。这个测试特别重要，因为它验证了系统的跨语言适应能力，确保系统不仅在英语环境中表现优秀，在中文环境中也同样出色。

第四个测试是金融搜索竞赛的双语任务，包括简单历史数据查询和复杂历史调研两个难度层次。这个测试模拟了金融分析师的实际工作场景，需要系统具备精确的时间敏感数据检索能力和复杂的定量推理能力。

在所有测试中，Yunjue Agent都是从完全空白的状态开始，没有任何预设工具。这种"零起点"设置确保了测试的公平性，真实反映了系统的自主进化能力。

测试结果令人印象深刻。在"深度搜索问答"测试中，Yunjue Agent达到了73.5分的成绩，相比基础模型的56.6分有了显著提升。在金融任务中，系统获得了65.0分，而基础模型只有49.9分。最令人惊喜的是在中文科学问答测试中，系统达到了76.5分的优异成绩。

更重要的是，研究团队统计了系统在所有测试中创建的工具使用频率，发现了一个有趣的现象：使用频率最高的工具都是一些基础功能，如网页搜索、网页内容获取和数学表达式计算。这证明系统确实学会了识别和创造真正有用的通用工具，而不是临时性的专用工具。

五、跨领域迁移：真正的知识积累与传承

为了进一步验证系统积累的知识是否具有真正的通用价值，研究团队进行了一项特别的"热启动"实验。他们首先让系统在大规模的综合性测试上完成学习，积累了一套丰富的工具库，然后将这个工具库应用到全新的领域中。

结果显示了系统知识迁移的强大能力。在新领域的测试中，系统不仅保持了原有的性能水平，甚至还有小幅提升，而最重要的是，新工具的创建数量大幅减少。在某些测试中，系统完全不需要创建新工具就能完成任务，这意味着之前积累的工具库已经具备了足够的通用性。

这种现象类似于一个经验丰富的工匠转换工作领域。一个熟练的木工在转行做家具维修时，发现自己的大部分工具和技能都能直接应用，只需要学习少量专门的新技术。系统展现出了类似的知识迁移能力，证明了其学习的知识确实具有深层的通用价值。

研究团队通过详细分析不同实验设置下创建的工具，发现了一个有趣的现象：无论从哪个领域开始学习，系统最终都会收敛到一个相似的核心工具集。这些工具包括基础的搜索功能、数据处理能力、文件操作工具等。这就像不同的工匠虽然专业方向不同，但都会掌握一些共同的基础技能一样。

六、进化收敛的量化监控：为AI进化装上仪表盘

传统的机器学习训练过程有一个重要的指标叫做"训练损失"，它能告诉我们模型的学习进度如何。但是对于自我进化的AI系统来说，如何衡量进化的进程一直是一个难题。

研究团队创造性地提出了"进化通用性损失"这个指标，为系统的自我进化过程装上了一个实时监控仪表盘。这个指标的计算方法很巧妙：它统计每个任务中新创建工具的数量，然后除以总的工具调用次数，再乘以1000得到一个标准化的数值。

在系统进化的早期阶段，由于工具库几乎是空的，几乎每个任务都需要创建新工具，所以这个指标会很高。随着系统逐渐积累更多通用工具，新工具创建的需求会越来越少，指标值也会相应下降。当系统达到相对成熟的状态时，这个指标会趋于稳定的低值，表明系统已经具备了处理大多数常见任务的能力。

通过在实际测试中追踪这个指标，研究团队发现了一个清晰的收敛模式。在处理约1000个任务后，指标值开始显著下降并逐渐稳定。为了验证这个收敛确实代表能力的成熟，他们在不同的进化阶段取出系统快照进行测试，结果证实了系统的任务完成能力确实随着指标的收敛而稳步提升。

这个发现具有重要的实用价值。在实际部署中，管理员可以通过监控这个指标来判断系统是否已经为特定应用领域积累了足够的能力，或者是否还需要更多的训练数据。这就像给汽车安装了里程表，让我们能够清楚地知道"行驶"了多远。

七、批量大小的平衡艺术：效率与稳定性的权衡

在并行批量进化策略中，一个关键的参数是批量大小的选择。研究团队通过系统性实验发现了一些有趣的规律。

较大的批量大小会导致系统在进化初期创建更多的工具，这是因为多个任务同时进行时，发现新需求的速度更快。但是随着时间推移，无论批量大小如何，系统最终都会收敛到相似的工具库规模，这证明了进化过程的内在稳定性。

更有趣的是，研究团队发现批量处理在工具质量方面也有明显优势。通过对比单独处理和批量处理创建的工具，他们发现批量处理创建的工具不仅成功率更高，而且计算效率也更好。这是因为批量处理相当于为同一类型的工具进行了多次独立尝试，然后选择最优结果，类似于"最优选择"的测试时优化策略。

在令牌消耗方面，系统表现出了明显的学习曲线。在进化初期，由于需要频繁创建新工具，系统的计算开销较高。但随着工具库的完善，平均每次工具调用的成本快速下降，最终稳定在一个很低的水平。这种效率改进不仅来自于工具重用，还因为成熟的工具往往比临时创建的代码更加精炼和高效。

八、不同后端模型的适应性：证明框架的通用价值

为了验证Yunjue Agent框架不是针对特定AI模型的专用解决方案，研究团队使用了多种不同的后端语言模型进行测试。结果显示，这个框架具有良好的模型无关性。

使用不同后端模型时，系统表现出了不同的行为特征，这些特征反映了各个模型的独特"性格"。某些模型比较"自信"，倾向于使用较少的工具来完成任务，但有时会出现过度自信导致的错误。而另一些模型则比较"谨慎"，会创建更多工具并进行更多验证步骤，虽然过程更复杂，但结果往往更可靠。

有趣的是，即使使用参数量相对较少的轻量级模型，系统仍然能够取得竞争力的性能。这证明了框架本身的价值：通过提供动态工具创建和积累机制，即使是能力相对有限的基础模型也能通过不断学习来提升实际应用能力。

这种模型无关性对于实际应用具有重要意义。用户可以根据自己的计算资源和性能需求选择合适的后端模型，而不必担心框架的兼容性问题。这就像设计了一个通用的工具箱系统，可以配合不同品牌的电动工具使用。

九、与传统方法的对比：进化式学习的独特优势

为了突出Yunjue Agent方法的独特价值，研究团队设计了一个对照实验，将系统与仅使用Python解释器的传统方法进行比较。这个对比揭示了进化式学习与传统即时编程之间的根本差异。

传统的Python解释器方法虽然也能动态生成代码，但存在几个严重缺陷。首先是成功率问题：由于每次都需要从零开始编写代码，出错率高达18.2%。其次是效率问题：平均每次操作需要消耗518个令牌，而进化式系统成熟后只需要约100个令牌。

更重要的是上下文污染问题。传统方法会将所有的执行痕迹，包括失败的尝试和错误信息，都保留在对话上下文中。随着任务复杂度增加，这些"噪音"会严重影响系统的推理能力，就像在一个越来越嘈杂的环境中工作，注意力不断被干扰。

相比之下，Yunjue Agent的进化式方法将工具创建和使用分离，成功的工具被精炼保存，失败的尝试不会留下痕迹。这确保了系统的工作环境始终保持清洁，推理能力不会因为历史包袱而下降。

这种差异可以用两种不同的学习方式来类比：传统方法像是一个学生在考试时临时抱佛脚，每次遇到问题都要重新思考解决方案；而进化式方法则像是一个勤奋的学生平时就做好笔记，考试时可以直接查阅之前整理好的知识要点。

十、实际应用前景：从理论突破到实用价值

Yunjue Agent的成功不仅是学术研究的突破，更重要的是为AI应用开辟了新的可能性。这种自我进化的能力使得AI系统能够适应快速变化的应用环境，无需频繁的人工更新和维护。

在企业应用场景中，这种能力尤其宝贵。传统的AI系统部署后，当业务需求发生变化时，往往需要重新训练或手工添加新功能。而具备自我进化能力的系统可以在实际使用中自然地适应新需求，大大降低了维护成本。

研究团队的开源策略也值得称赞。他们不仅公开了完整的代码实现，还提供了详细的系统执行轨迹和进化过程中积累的工具库。这种透明度为后续研究提供了宝贵的资源，也让更多开发者能够在此基础上继续创新。

从技术发展趋势来看，这项研究指向了一个重要方向：AI系统的"预训练-微调"范式可能会扩展到整个智能代理系统层面。未来，我们可能会看到专门为代理系统设计的大规模"系统级预训练"，让AI系统在部署前就已经积累了丰富的工具库和问题解决经验。

说到底，Yunjue Agent代表的不仅是技术进步，更是AI发展理念的转变。从依赖静态知识库转向动态能力积累，从被动响应转向主动学习，这种变化可能会深刻影响未来AI系统的设计思路。虽然目前这项技术还处于研究阶段，但它所展现的可能性让我们看到了更加智能、灵活的AI助手的雏形。对于普通用户来说，这意味着未来的AI助手不仅能够回答问题，更能够在帮助我们的过程中不断成长，真正成为我们生活和工作中不可缺少的智能伙伴。

Q&A

Q1：Yunjue Agent和普通AI助手有什么区别？

A：最大区别在于Yunjue Agent能够自我进化。普通AI助手只能使用预设的固定功能，而Yunjue Agent可以在遇到新任务时临时创造新工具，并将这些工具永久保存下来供将来使用，就像一个会不断学习新技能的工匠。

Q2：这个自我进化系统的学习能力有多强？

A：测试结果显示相当强大。系统从零开始，在处理约1000个任务后就能达到稳定的能力水平。在跨领域应用时，之前积累的工具有很强的通用性，在新领域中甚至可能完全不需要创建新工具就能完成任务。

Q3：普通人什么时候能用上Yunjue Agent？

A：目前这项技术还处于研究阶段，研究团队已经开源了完整代码和数据。虽然暂时没有面向普通用户的产品，但这种自我进化的理念很可能会被集成到未来的AI助手产品中，让我们的数字助手变得更加智能和贴心。

云拒科技推出Yunjue Agent：能够从零开始自我进化的助手系统

官方：朴茨茅...

特朗普称俄为...

希勒评英超第...

全身爱马仕的...

金球奖红毯：...

因场地积水严...

铜价历史新高推动“复合集流体”量产提速，易开盖龙头“英联股份”能否成为跨界黑马？

美国早就被预言搞AI电力要吃紧，为何电荒这么快就来了？

评论丨网购衣服上的“密码锁”，是商业诚信的刺眼“疤痕”

鹿晗关晓彤恋爱期间毫不避讳？

拥抱变局！2025外滩年会揭幕，聚焦新秩序、新科技

“贝果夹克”今年冬天爆火，怎么搭都时髦！

精致詹詹，美媒晒出詹姆斯更衣室座位边摆满护肤品的照片

英媒：由于伊萨克受伤，利物浦预计不会在冬窗放走萨拉赫

“金九”上海房价走势分化：新房领涨全国，二手房5连跌，专家预计跌幅有望趋于稳定

白银LOF变成了一种分级B

韩国延世大学AI新突破：让视频生成快65%的＂拼配＂技术

光峰科技“认领”闪极AI显示眼镜S1：采用蜻蜓G1 mini光机

智能设备迭代更新酒泉将精准“跟拍”神舟回家影像

马竞重新投入训练备战贝蒂斯，卡多佐是唯一缺席训练的球员

车企“偷换”电池背后：产能不足还是另有隐情

“内鬼”赶走老板！300多亿中国资产，要被抢了

莱巴透露战斯瓦泰克的两大关键，丝袜称气温还这么高会手足无措

山东99-75战胜宁波球员评价：3人优秀，5人及格，2人低迷

斋戒期间突尼斯联赛下午一点比赛，终场哨响两队球员体力不支均趴窝

美国抓走马杜罗计划曾外泄美媒收到计划后未公布

315风波后续来了！鹿哈取消直播被追着维权

刚刚，全线大反攻！发生了什么？

五粮液是会计差错还是财务造假？

英媒：面对美国欧洲领导人＂必须学会反击＂