题目:Large and small-scale models’ fusion-driven proactive robotic manipulation
control for human-robot collaborative assembly in industry 5.0
发表时间:2025年6月12日
期刊:《Robotics and Computer-Integrated Manufacturing》
作者:西安交通大学博士生马东旭,张超副教授等
简介:本文提出了一种大小模型融合驱动的人机协同装配机器人主动式控制方法。利用云端大模型进行规划决策,并由边缘端的小模型执行实时的装配需求感知和数字孪生验证。这种“云-边”协同架构使机器人能够主动、柔性地适应动态装配任务,实验证明了该方法的高效性与准确性。
原文链接:https://www.sciencedirect.com/science/article/pii/S0736584525001322
引用本文:Ma, D., Zhang, C., Xu, Q., & Zhou, G. (2026). Large and small-scale models’ fusion-driven proactive robotic manipulation control for human-robot collaborative assembly in industry 5.0. Robotics and Computer-Integrated Manufacturing, 97, 103078.https://doi.org/10.1016/j.rcim.2025.103078.
数据集地址:Ma, D., Zhang, C., Xu, Q., & Zhou, G. (2025). MCV-Intention: A Multimodalities and Cross-View Dataset for Human Assembly Intention Recognition (1.0) [Dataset]. Zenodo.https://doi.org/10.5281/zenodo.15083791.
摘要:针对当前人机协同装配系统依赖预定义代码、适应性差的问题,本文提出一种基于大小模型结合的主动机器人操作控制方法。该方法利用云端大模型(large-scale model,LSM)的认知与推理能力进行动态路径规划,并结合部署在边缘端的小模型(small-scale model,SSM)进行需求感知和约束验证。具体来说,边缘端的小模型包含三部分:一个用于实时人类动作检测的集成编码器模型,一个生成操作关键点图像的视觉模型,以及一个生成机器人控制指令的精调模型。这些模型共同感知控制需求并输入给云端大模型,后者则生成相应的控制约束。随后,边缘端的机器人控制约束验证模型通过数字孪生技术验证这些约束的有效性,通过验证的约束才会被用于实际机器人控制。实验结果表明,该方法在人机协同装配任务中最高达到了80%的执行准确率,验证了其可行性与有效性。
关键词:大小模型融合,人机协同装配,机器人控制,工业5.0.
一、方法部分:
1、论文整体框架
该研究提出了一个基于大、小模型(LSM-SSMs)融合的机器人操作规划框架,旨在实现人机协同装配的主动性与灵活性,以克服传统预定义代码的局限性。该框架采用“云-边”协同架构,结合大模型强大的认知能力和小模型的感知能力,将任务智能规划与实时感知验证有效分离,论文整体框架如图1所示。
1)云端:LSM作为决策中心
部署在云端的大模型是整个系统的“大脑”,负责高级认知与决策。它接收来自边缘端小模型的两大关键输入:一是包含操作关键点的图像,二是带有机器人装配指令的prompt。利用其强大的推理和代码生成能力,大模型将这些输入信息转化为具体的机器人操作计划。该计划被分解为一系列子目标和路径约束。子目标定义了装配过程中的离散步骤(如对准、抓取、放置),而路径约束则规定了在这些步骤之间机器人应遵循的规则(如保持抓取姿态),从而构成一个完整的、可执行的优化问题。
2)边缘端:SSMs负责感知与验证
边缘端部署了两类轻量级的小模型,确保规划的实时性与安全性。
(1)机器人控制需求感知模型:该模型负责实时理解装配场景,并为云端大模型生成输入。它包含三个子模型:
● 装配意图检测模型:通过融合RGB视觉和人体骨骼数据,实时检测操作员的装配动作。
●关键点生成模型:利用预训练视觉模型(Dinov2),从现场图像中自动识别出操作对象上的关键交互点。
●装配指令生成模型:结合装配过程分层知识图谱,将检测到的人类意图转化为结构化的机器人控制文本指令。
(2)机器人控制约束验证模型:该模型是物理空间执行安全性的关键保障。利用数字孪生技术,在虚拟环境中对大模型生成的控制约束进行仿真和验证。只有当仿真成功,确认操作无碰撞、可达后,指令才会被发送给物理机器人执行。若验证失败,则会中止操作并提示人工干预,从而有效避免了因大模型“幻觉”而可能导致的错误或危险。
通过这种云-边融合的模式,该框架将大模型的通用智能与小模型的领域专用效率相结合,形成了一个从感知、规划到验证和执行的完整闭环,为实现真正主动、安全、高效的人机协同装配提供了可行蓝图。
图1面向人机协同的大小模型融合驱动的机器人控制框架
2、云端大模型部署
部署在云端的LSM是整个系统的智能决策核心,其主要任务是将边缘端SSMs提供的带有关键点标注的图像和文本指令,转化为机器人可执行的具体操作代码。通过API调用,LSM利用其强大的多模态理解与代码生成能力,合成一份包含完整操作规划的原始输出,该输出详细定义了任务的子目标(如对准、安装)和路径约束(如保持抓取姿态)。随后,系统会自动解析这份原始输出,将其中的Python函数代码提取并保存为结构化的文件以备调用。至关重要的是,为确保安全性和可靠性,这些由LSM生成的约束并不会直接发送给物理机器人,而是首先被送入数字孪生模型中进行严格的仿真验证。只有当操作计划在虚拟环境中被确认为安全可行后,指令才会被下发执行;若验证失败,则会立即中止并请求人工干预,从而形成一个完整的安全闭环,有效规避了潜在的执行风险,如图2所示。
图2基于大模型的约束生成
3、边端小模型部署
1)装配需求感知模型
(1)装配意图识别
在主动人机协同装配的背景下,机器人必须能准确、实时地理解装配工人的动作,以便提供有效的辅助。然而,现有方法通常只依赖单一数据源,难以捕捉复杂装配场景中的完整上下文信息,导致识别准确率不高。为解决此问题,该研究提出了一种基于集成编码器的人类装配动作检测模型。该模型的核心创新在于其多模态融合能力,它不依赖单一信息源,而是同时处理和融合两种互补的数据,如图3所示。
图3意图识别网络架构
(2)装配关键点生成模型
为了让机器人能够灵活适应多变的任务,利用预训练视觉模型自动生成操作关键点,旨在为LSM提供精确的空间认知能力。因此,该方法通过强大预训练视觉模型Dinov2,来充当LSM的“眼睛”。首先,Dinov2模型接收实时捕获的装配场景图像,并提取出patch-wise的密集特征,这些特征能够捕捉图像中不同物体的细微信息。随后,对这些特征进行聚类分析,将相似的特征区域分组。接着,通过合并相邻的聚类中心点,定位出对机器人装配至关重要的关键点,例如零件的抓取点、安装孔位或目标放置区域。最后,这些被精确识别出的关键点会被重新投影到原始图像上,形成一张带有明确视觉标记的输入图片,连同文本指令一起发送给LSM。这种方法有效地将复杂的视觉理解任务转化为一个简单的“看图说话”问题,极大地降低了LSM理解空间任务的难度,为后续生成精确的机器人控制约束奠定了坚实的基础。
(3)装配指令生成模型
为实现机器人控制指令的动态、精准生成,该研究提出了一种基于微调小语言模型的指令生成方法。此方法的核心在于将LSM的专业知识迁移到一个能够高效在边缘端运行的SSM上。整个流程始于构建一个分层知识图谱(Hierarchical Knowledge Graph, HKG)。这个知识图谱并非简单的任务列表,而是一个结构化的数据网络,详细描述了整个装配流程中的任务、子任务、步骤、所需工具及其相互关系。它为后续生成与当前装配进度完全匹配的指令提供了坚实的上下文基础。在此基础上,研究采用了两阶段知识蒸馏(Two-Stage Knowledge Distillation)策略来训练一个本地化的小语言模型(以Qwen2-1.5B为例),如图4所示:
图 4两阶段知识蒸馏策略
2)机器人装配约束验证模型
为解决LSM输出结果可能存在“幻觉”而导致装配失败甚至安全事故的问题,构建了一个机器人操作约束验证模型,其本质是一个基于NVIDIA的Isaac Sim平台创建的高保真数字孪生环境。其核心工作原理是将LSM生成的控制约束视为一个优化问题,在虚拟环境中,系统会调用专门的求解器,在充分考虑碰撞、可达性等物理限制的条件下,为机器人规划出一条满足所有约束的无冲突轨迹。只有当这一系列操作在数字孪生中被成功验证、确认为安全可行后,相应的控制指令才会被发送给物理机器人执行。这一验证步骤构成了一道至关重要的安全屏障,在将LSM的智能规划应用于现实世界之前进行严格审查,从而确保了整个主动操作流程的可靠性与安全性。
二、案例验证
1、数据集采集
1)装配意图检测数据集
为训练和评估其基于集成编码器的人类动作检测模型,研究团队创建了一个全新的、专有的多模态数据集,命名为HRCDataset,数据集已经上传并开源至zenodo数据库,可通过https://zenodo.org/records/15083791下载,介绍见https://mdx-box.github.io/MCV_Intention。
2)指令生成模型微调数据集
为了训练能够生成专业机器人控制指令的小语言模型(Qwen2-1.5B),采用了一种知识蒸馏的方法来创建训练数据。首先,如表1所示,设计了结构化的提示词,引导一个强大的云端大模型(ChatGPT-40)充当“专家教师”。基于这些提示,大模型生成了30,000条符合规范、逻辑清晰的机器人控制指令样本。
2、部署与应用
1)装配意图识别方法
首先,研究人员设置了不同的模型配置进行对比实验,包括三种不同规模的变体(models,modelm,modell),主要区别在于编码器的层数和维度。实验结果(如表1所示)清晰地表明,模型的性能与RGB编码器的深度正相关。其中,规模最大的modell版本,在结合了12层RGB编码器和4层骨骼编码器后,在自建的HRCDataset上取得了高达99.30%的识别准确率,有力地证明了该集成编码器架构的有效性。
表1不同模型尺寸在HRCDataset上的表现
模型名称 |
RGB编码器层数 |
Skeleton编码器层数 |
准确率 |
models |
4 |
4 |
89.52% |
- |
5 |
4 |
91.16% |
- |
6 |
4 |
92.52% |
- |
7 |
4 |
94.20% |
modelm |
8 |
4 |
94.53% |
- |
9 |
4 |
96.60% |
- |
10 |
4 |
96.52% |
- |
11 |
4 |
97.62% |
modell |
12 |
4 |
99.30% |
综上所述,该部分的实验结果全面证实了所提出的动作检测模型不仅具有极高的准确度,还兼具实时高效和主动预测的优异性能,使其非常适合应用于动态、复杂的人机协同装配场景。
2)基于知识蒸馏的模型微调
本节的核心目标是验证通过知识蒸馏方法,能够高效地将大型模型的专业知识迁移到一个轻量级的本地语言模型(Qwen2-1.5B)中,从而使其能生成专业、准确的机器人控制指令。为实现这一目标,研究采用了参数高效的LoRA方法进行监督式微调。LoRA的优势在于无需训练模型的全部参数,只对模型中部分参数进行微调,这极大地提升了训练效率并保留了模型原有的泛化能力。实验结果(如图6所示)表明,该方法的训练过程极为高效,模型在短短20分钟内即可达到收敛,证明了其在工业应用中的快速部署潜力。
3)基于大模型的装配约束生成及数字孪生模型验证
本节通过一个实际且具有挑战性的电池模块安装任务,对所提出的完整框架进行了端到端的验证,旨在评估其在真实场景中的鲁棒性与效率。实验的核心是利用NVIDIA的Isaac Sim平台构建了一个高保真的数字孪生环境,用于验证由云端LSM生成的机器人控制约束。在这个任务中,机器人需要按照特定顺序,将四节电池精确地安装到四个不同的插槽中,这比简单的抓放任务对精度和环境理解的要求更高。
为了全面评估系统的性能,实验对比了两种为LSM提供空间关键点信息的方法:1)全自动方式:完全依赖前述的视觉模型自动识别并生成所有操作关键点(如电池的抓取点和目标插槽)。2)协作方式:由人类操作员介入,对视觉模型生成的关键点进行确认或微调,尤其是在区分多个相似目标(如四个外观相同的插槽)时。实验结果(如表2所示)清晰地揭示了两种方式的性能差异:在人机协作方式下,由于人类能够利用其卓越的认知能力轻松解决场景中的模糊性,系统的任务成功率接近80%。而全自动方式的成功率则低得多,因为它难以精确区分多个相似的安装插槽,经常导致关键点生成错误。
表2不同情况下的装配成功率
装配任务 |
自动关键点选取 |
人为关键点选取 |
成功率 |
自动 |
人为 |
|
|
|
6/10 |
7/10 |
|
|
|
4/10 |
6/10 |
|
|
|
5/10 |
5/10 |
|
|
|
6/10 |
8/10 |
三、未来与展望
未来的研究将主要聚焦于三大挑战。首先,将引入更有效的装配反馈机制,通过力反馈或视觉检测等手段,实现对装配质量更精细的评估,而不仅是判断成功与否。其次,将深入探索大、小模型间的协同推理与演化机制,使大模型能根据任务需求,灵活地调用多样化的开源小模型,以降低开发与计算成本。最后,将致力于研究更长期、更可靠的人机协同任务规划方法,以应对复杂制造环境中动态、多变的挑战,进一步增强系统的鲁棒性与自主性。
【作者简介】:
马东旭(第一作者),西安交通大学机械工程学院博士在读,主要研究方向为:人机协同装配,数字孪生。
张超(通讯作者),西安交通大学机械工程学院副教授,航天制造与信息工程研究所副所长。主要研究方向为:人机协同装配、数字孪生以及大语言模型驱动的智能制造。入选全国博士后创新人才支持计划、陕西省青年人才托举计划、2024年度全球前2%顶尖科学家,中国图学学会数字孪生专委会委员、中国机械工程学会高级会员、SCI期刊客座主编。发表SCI论文60余篇,其中2篇论文入选ESI高被引论文数据库,授权国家发明专利20项,。
周光辉(通讯作者),西安交通大学机械工程学院教授,博士生导师,机械工程学院副院长,主要研究方向为:工业数字孪生、大数据驱动的智能制造、深度学习与决策支持系统、绿色制造与低碳制造。近年来围绕智能制造与产品服务系统技术、复杂机电产品协同优化设计与低碳设计、离散车间制造执行系统高效低碳运行理论与方法三个研究方向,先后承担包括国家973、863、国家自然科学基金、科技部创新方法专项、科技部科技支撑计划、工信部智能制造专项、工信部数控重大专项、广东省教育部产学研项目等国家省部及企业级纵横向项目40余项,发表学术论文200余篇,SCI/EI检索150余篇次,出版学术专著2本,主编/参编教材及教学参考书12部;申报国家发明专利54项,授权33项;登记计算机著作版权28项;获教育部自然科学一等奖、陕西省高等学校自然科学一等奖、陕西省科学技术三等奖各1项,陕西省学位与研究生教育学会研究生教学成果一等奖、二等奖各1项,西安交通大学教学成果(研究生)一等奖1项、二等奖2项;获陕西省优秀博士学位论文。