关闭广告

图宾根大学等机构突破:AI实现模块化人体动作分解与合成

科技行者890人阅读


这项由德国图宾根大学人工智能中心与马克斯·普朗克信息学研究所联合开展的研究,发表于2026年1月的arXiv预印本平台(论文编号:arXiv:2601.10909v1),有兴趣深入了解的读者可以通过该编号查询完整论文。

要理解这项研究的价值,我们先回想一下小时候玩积木的经历。当我们想要搭建一个复杂的城堡时,我们会先准备不同形状的积木块——有些是方形的,有些是三角形的,有些是圆柱形的。然后,我们按照自己的想象,将这些基础积木块组合在一起,最终创造出一个独特的城堡。这个过程的关键在于,我们既要有丰富的基础积木块,又要知道如何将它们巧妙地组合起来。

人体动作的生成其实也遵循着类似的原理。当我们描述"一个人走路、转身、坐下、站起来再走路"这样一个复杂动作序列时,实际上是在描述多个基础动作的组合。就像积木城堡由不同形状的积木块组成一样,复杂的人体动作也可以分解为头部转动、手臂摆动、腿部弯曲、身体旋转等基础动作元素。

然而,现有的人工智能系统在理解和生成人体动作时,往往只能处理整体描述,就像只能按照固定图纸搭积木,而不能灵活地拆分和重新组合。这就导致了一个问题:当我们想要生成一个训练数据中没有出现过的动作组合时,比如"坐着的时候举起左手",现有系统往往束手无策。

研究团队发现,解决这个问题的关键在于建立一个能够理解"部分与整体"关系的系统。他们开发了一个名为FrankenMotion的框架,这个名字很有意思,让人联想到科学怪人弗兰肯斯坦——通过组装不同部分创造新生命的故事。不过在这里,研究团队是在组装不同的身体部位动作来创造新的动作序列。

这个系统最大的突破在于,它能够同时理解三个不同层次的动作描述。第一个层次是整体描述,比如"一个人在打招呼";第二个层次是动作阶段描述,比如"站立、挥手、放下手臂";第三个层次是身体部位描述,比如"头部保持直立、右手向上挥动、左手放在身侧、双腿保持站立姿势"。这种多层次理解就像是拥有了一副多焦点眼镜,既能看清整个森林,又能观察到每一棵树,甚至每一片叶子的细节。

为了训练这样一个系统,研究团队面临的第一个挑战是数据问题。现有的动作数据集就像是一本只有整本书评价的图书馆——你知道这本书总体上讲的是什么,但不知道每个章节、每个段落具体说了什么。研究团队需要创建一个既有整本书评价,又有章节总结,还有段落分析的详细数据集。

他们的解决方案非常巧妙,利用了大语言模型强大的推理能力。就像请一位经验丰富的动作指导来分析现有的动作视频一样,研究团队让人工智能助手FrankenAgent观察已有的动作数据,然后详细分解每个动作中各个身体部位在不同时间段内的具体表现。这个过程就像是让一位细心的观察者观看一段舞蹈表演,然后详细记录下"在第1到3秒,舞者的头部向左转动,右手向上举起,左手保持在腰部位置,双腿做踏步动作"。

通过这种方式,研究团队构建了一个名为FrankenStein的数据集,包含了39小时的动作数据和多达138,500个不同层次的标注。这个数据集的规模相当可观,就像是创建了一个巨大的动作百科全书,不仅记录了每个动作的整体效果,还详细描述了构成这个动作的每个细节。

有了这个详细的数据集,研究团队接下来要解决的是如何让AI系统学会"积木式"的动作生成。他们设计了一个基于扩散模型的架构,这种模型的工作原理就像是从一团混乱的噪音中逐步"雕刻"出清晰的动作序列。

这个过程可以比作艺术家创作雕塑的过程。一开始,艺术家面对的是一块粗糙的石头(对应于随机噪音),然后根据心中的构想(对应于文本描述),一点点地雕琢,去掉多余的部分,保留需要的部分,最终创造出一个精美的雕塑(对应于流畅的人体动作序列)。

FrankenMotion系统的独特之处在于,它能够同时接收三个层次的"创作指导"。艺术家在雕刻时,既要考虑整体的美感(序列层次描述),也要注意各个部分的协调(动作层次描述),还要精确处理每个细节(身体部位层次描述)。系统通过精心设计的文本编码器来理解这些不同层次的指导,然后通过变换器架构来协调不同身体部位之间的关系。

在训练过程中,研究团队还采用了一种巧妙的策略来增强系统的鲁棒性。他们有意识地随机"遮挡"一些文本描述,就像是在教一个学生在信息不完整的情况下也能完成任务。这种训练方式使得系统在实际应用中即使只有部分描述,也能合理地推断出完整的动作序列。

为了验证系统的效果,研究团队进行了全面的对比实验。他们将FrankenMotion与现有的几种主流方法进行比较,包括STMC、DART和UniMotion等。实验结果显示,FrankenMotion在各个评价指标上都表现出色,特别是在语义正确性和动作真实性方面都超越了现有方法。

更令人兴奋的是,FrankenMotion展现出了强大的组合创新能力。系统可以生成训练期间从未见过的动作组合,比如"一个人坐着的时候举起左手"。这种能力就像是教会了AI如何用有限的积木块创造出无限可能的组合,而不是仅仅重复已经见过的搭建方式。

研究团队还进行了详细的消融实验,验证了多层次条件输入的重要性。实验发现,即使只使用身体部位级别的描述,系统也能产生相当好的结果,但加入动作级别和序列级别的描述后,生成的动作会更加自然流畅,语义也更加准确。这就像是在积木搭建中,有了整体规划图(序列描述)和分步骤指导(动作描述)后,最终的作品会更加精美和协调。

为了评估数据质量,研究团队还请人类专家对FrankenAgent生成的标注进行评估。结果显示,93.08%的标注被认为是正确的,这个准确率相当高,证明了自动标注方法的可靠性。专家之间的一致性评分也达到了0.91,说明评估标准是客观和一致的。

这项研究的应用前景非常广阔。在虚拟现实和增强现实领域,FrankenMotion可以让虚拟角色的动作更加自然和多样化。在游戏开发中,它可以大大降低动作设计的成本,让游戏制作者能够快速生成各种复杂的角色动作。在电影制作中,它可以用于预可视化,帮助导演在实际拍摄前预览角色的动作效果。

在健康和康复领域,这种技术也有着重要意义。物理治疗师可以使用这个系统来设计个性化的康复动作序列,根据患者的具体需求组合不同的基础动作。在体育训练中,教练可以用它来分析和设计训练动作,帮助运动员改进技术。

研究团队也诚实地提到了当前系统的局限性。目前的FrankenMotion还不能在单次处理中生成超长时间的动作序列,比如几分钟的连续动作。这是因为处理长序列需要更多的计算资源和更复杂的模型架构。不过,这个问题可以通过分段处理和拼接的方式来缓解。

另一个挑战是如何处理更加复杂的人物交互和环境交互。当前的系统主要关注单个人物的动作生成,但现实世界中的动作往往涉及多个人物之间的互动,或者人物与环境中物体的交互。这些更复杂的场景需要考虑更多的约束条件和关系。

从技术发展的角度来看,这项研究代表了人体动作生成领域的一个重要进步。它不仅提出了一种新的多层次控制框架,更重要的是,它展示了如何通过巧妙的数据构建和模型设计来实现复杂系统的组合能力。这种"分解-重组"的思路不仅适用于动作生成,也可能启发其他领域的研究,比如音乐生成、故事创作等。

说到底,FrankenMotion的核心价值在于它重新定义了我们对人体动作的理解方式。它不再将动作视为一个不可分割的整体,而是将其视为可以灵活组合的元素集合。这种理解方式更接近人类自己对动作的认知——我们在学习新动作时,往往也是通过分解和重组已知的动作元素来实现的。

归根结底,这项研究为我们展示了人工智能在理解和生成复杂行为方面的巨大潜力。通过将复杂问题分解为可管理的部分,然后学会如何重新组合这些部分,AI系统能够展现出类似人类的创造性和灵活性。这不仅在技术上是一个突破,在哲学层面上也给我们提供了新的思考角度:智能可能不在于完美地重现已知的模式,而在于创造性地组合基本元素来应对新的挑战。

对于普通人来说,这项技术的成熟可能会让我们与虚拟世界的交互变得更加自然和直观。当我们能够用简单的语言描述就生成复杂的虚拟角色动作时,虚拟现实、游戏、甚至视频制作都会变得更加平民化。更进一步地,这种技术可能会改变我们学习和教授复杂技能的方式,让知识的传播变得更加高效和个性化。

随着这类技术的不断发展,我们可能正在见证一个新时代的开始——一个AI不再只是模仿现有内容,而是能够真正理解和创造新内容的时代。FrankenMotion只是这个宏大愿景中的一小步,但它所展示的原理和方法论,很可能会在更广阔的人工智能领域产生深远的影响。

Q&A

Q1:FrankenMotion是什么?

A:FrankenMotion是德国图宾根大学开发的一个AI动作生成系统,它能像搭积木一样将基础动作元素组合成复杂的人体动作序列。系统的特点是可以同时理解整体动作、动作阶段和身体部位三个层次的描述,从而生成更精确和灵活的动作。

Q2:FrankenMotion和现有动作生成技术有什么区别?

A:传统技术只能根据整体描述生成动作,就像按固定图纸搭积木。而FrankenMotion可以分别控制不同身体部位在不同时间的动作,还能组合生成训练时没见过的新动作。比如可以生成"坐着时举起左手"这样的新组合,而不局限于训练数据中的固定模式。

Q3:FrankenMotion技术有什么实际应用?

A:这项技术可以应用于游戏开发、电影制作、虚拟现实等娱乐领域,让虚拟角色动作更自然多样。在医疗康复领域,物理治疗师可以用它设计个性化的康复动作。在体育训练中,教练可以用它分析和设计训练动作,帮助运动员改进技术。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

E句话| 这俩的婚纱照,还挺甜?

仙女事件簿 浏览 1967

女子不喜欢名字"丽春"多次申请改名被拒 县公安局回应

环球网资讯 浏览 6728

特斯拉与迪士尼合作引争议:车机引入《创:战神》车模被指广告

IT之家 浏览 1964

一个手机壳卖200,这家深圳公司靠什么掏空老外钱包?

花朵财经 浏览 855

定位大型SUV 腾势N8L将于10月28日上市

车质网 浏览 1769

“金九”上海房价走势分化:新房领涨全国,二手房5连跌,专家预计跌幅有望趋于稳定

时代周报 浏览 1945

旅拍这赛道,还得看倪妮

时尚COSMO 浏览 1635

刚刚,“海澜之家号”升空!

江南晚报 浏览 2015

剖析智元机器人:一场关于人才与资本的博弈

虎嗅APP 浏览 1864

古利特:皇马3个前锋无球时做的太少,贝林厄姆成为受害者

懂球帝 浏览 1342

2165.1亿件!2025年我国邮政快递业业务规模创新高

央视财经 浏览 899

美防长被指佩戴与俄国旗颜色一致领带引猜测 万斯回应

环球时报新闻 浏览 7916

香港重磅活动,17日盛大开启!

中国基金报 浏览 1336

霸榜热搜,尺度惊人,他绝对值得你追

Yuki女人故事 浏览 859

哪吒汽车“重启”新进展

大象新闻 浏览 1308

Perplexity Comet浏览器iOS版发布,AI驱动超厉害!

IT之家 浏览 375

晕了晕了!机构大动作调仓,55只行业主题ETF被疯狂扫货,而热门的半导体竟被悄然抛售

每经牛眼 浏览 1614

小区因千万接口费欠款致600户居民3年未供暖 多方回应

大象新闻 浏览 6806

脱口秀演员杨笠清空社交账号 她到底经历了什么?

代军哥哥谈娱乐 浏览 1648

热议日本3-2巴西:几十年认准一条路;人家从容我们连滚带爬

懂球帝 浏览 2025

明抢!中国企业147亿半导体资产被荷兰政府冻结,CEO被停职;小米第三款车YU9多张实车谍照曝光;美团外卖骑手能屏蔽顾客了丨雷峰早报

雷峰网 浏览 2045
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
Copyright © 2020-2022,版权所有 qukanredian.com
沪ICP备20002587号-1