中心计划用3年时间完成“白虎”数据集的构建,一方面建设超过100个高精度运动采集设备,另一方面共享业界其他单位采集的数据,实现清洗后的高质量数据总量超过1PB,覆盖超过100个场景、2000个任务。如果1部高清电影占用的数据空间大约是1GB,那么1PB的数据量大约可以存储100万部这样的电影。
训练场:人形机器人的学校
“人为演示一个动作大约50次,机器人就能学会。”在2024世界人工智能大会的国家地方共建人形机器人创新中心展区,记者看到了一个小型的机器人“训练场”,现场工作人员如同一个熟练的“老师傅”做着生产线上的抓取动作,4个机器人则跟着他同步做出了一样的动作。
为什么要搭建训练场?中心技术负责人刘宇飞说,构建智能训练场,模拟产线及工业流水线,收集多模态数据,并搭建数据管理平台,将有效提升人形机器人在不同场景下的作业能力,加速具身智能技术的发展与应用落地。
在位于上海张江的国家地方共建人形机器人创新中心,记者看到更多机器人在努力学习人类本领:它们有的在学习高负载状态下稳定快速地行走,有的在练习拿饮料、饼干等不同形状和重量的物品……
“归根结底,训练场是数据生产和数据规模化的场地。”刘宇飞表示,训练场分为感、存、算、学、用五个部分。“感”和“存”主要用来做云端数据的采集,包括要操作的数据、音频数据、自然语言、运动捕捉等。“算”和“学”是指机器人的技能模仿学习和强化学习,主要是做单臂、双臂以及全身行为的运动训练。“用”则是在工业生产线及服务等场景里实现人形机器人最新的模拟和应用。
刘宇飞介绍,训练场数据的生产方法包括三个阶段:
第一步是打造单臂的单技能学习与作业对象环境的泛化能力。
第二步是基于协作臂把这套技术路线迁移到“青龙”的上肢。
“青龙”的上肢单臂拥有7自由度+6自由度的灵巧手,协作臂是单臂6自由度+夹爪;为了使灵巧手拥有更广的作业空间,没有加入手腕相机。迁移时,我们对采集数据实时优化,在时间上严格对齐动作轨迹和图像,以达到和三相机(1头部+2手腕)同样的学习效果。
第三步则是生产大规模、低成本的人类作业视频。
训练场不仅关注“小脑”模型的训练,还涉及“大脑”模型,如环境感知、行为控制、人机交互、云端网联等能力的训练。
“2024年,我们会在上海打造100+人形机器人的产品、100+人形机器人的训练场。到2027年,我们期待能够在多个城市、面向各类场景,搭建1000+人形机器人训练场来服务整个人形机器人生态。”刘宇飞说。