【WRC 大咖观点】张建伟《敏捷服务机器人的多模态学习》

时间: 2022-09-15

编者按：

2022世界机器人大会主论坛群星璀璨，产、学、研各领域大咖齐聚首，共话巅峰，为机器人未来发展领航。

峰会现场，张建伟发表了题为《敏捷服务机器人的多模态学习》的演讲。以下为张建伟演讲内容的整理。

尊敬的世界机器人大会议的各位嘉宾、各位观众，大家好！我是来自德国汉堡大学的张建伟。首先祝贺2022年世界机器人大会的成功开幕！尽管今年新冠疫情仍在持续，困难重重。我今天演讲的题目是：敏捷服务机器人的多模态学习。在我的演讲中，我将首先介绍人工智能时代的出现，以及人工智能物联网（AIoT）如何赋能机器人系统。然后，我将介绍汉堡与北京合作的国际协作研究中心，以及我们在机器人应用中的实践。最后，我将总结对未来机器人研究的展望。

众所周知，过去30年里，计算能力呈指数级增长，而且90%的处理器都是隐藏式的。今天，我们身处大数据时代，可以通过数据集成实现数据发现和数据利用。今天，我们也有了多模态大数据可以实现用于自主决策的自主数据分类。图灵测试是一种测试方法，测试在针对某种任务时人工智能和机器人技术可以如何与最优秀的人类相抗衡。我个人也参加过有多个任务场景的图灵测试，例如，基于图像的深度学习，机器人要与真正的人类羽毛球运动员抗衡还差距甚远。但在这个例子中可以实现实时跟踪和防止碰撞。如果机器人与最优秀的人类篮球运动员比赛，它可以在静态环境中打败一个人类运动员。但是，如果我们让目标移动机器人要处理这些运动状况以及环境的不确定性就存在很多困难。今天，我们也可以让机器人自主检测其他无人驾驶车辆，并捕获到另一个机器人。然而，多个机器人的知觉和行动，以及很多限制因素仍需要得到改进。

另一个展示机器人智能的图灵测试是让机器人，总结他的情景记忆，并用人类属性的语言加以解释。今天我们可以相当真实的方式模拟这样的机器人头，但机器人真正的记忆开发，仍然需要进一步的研究。20年前，我们已经开发了生物技术环境中的移动机械手系统，这个机器人配备了很多传感器，包括激光扫描仪、便携式相机、力矩传感器等，可以操控真实实验室环境中的管状容器。10年前，我们的机器人实验室与一家英国卫生机构合作，展示这只多手指的手可以完成很多视觉处理任务。在当前应对新冠疫情的背景下，我们已经看到了很多机器人应用，包括自主物体运输还有自主受力控制的新冠疫情取样。最近，我们还开发了一种方法，该方法基于机器人和动画技术中通用全身逆运动学的模因进化原理。接下来我们可以看到机器人如何实现不同的姿势，我们在与几家初创公司的合作中应用了很多软件知识，包括思灵机器人。这种力控和声控协作机器人，可应用于卫生工程、触觉制造业和零情景的未来工业。梅卡曼德机器人也是一家初创公司，在北京和慕尼黑等地有布局，该公司的主打产品是基于3D点云的智能相机，可在物流和制造场景的应用中对该产品进行评估，然后针对机器人运动进行规划。

4年来，我们也在组织机器人比赛，人形智能机器人的比赛。我们设计了一个比赛场景，让机器人利用在线感知能力，识别桥梁、矿坑、应对阻力、踢球等等。这些机器人完成任务只要几分钟。在这里我们也看到了我们汉堡大学的学生，参加本次在北京开展的比赛和展览。最近，自主灵巧机器人也应用于农业机器人技术。这里展示的是汽车机器人的几个场景，分别在剑桥和上海启动，涵盖了物流、喷洒以及收割机器人。我们与上海理工大学合作、开发了一个可动态步行以及拥有类皮肤触觉的人形机器人。该人形机器人还会有一个机器人脑袋。我们还应用了机器学习和机器人技术，来实现这个人机打乒乓球的场景。这个机器人因为在一个多小时的时间里，与一位人类对手打了6000多个回合，而获得了吉尼斯世界纪录。我们还对这个机器人应用了强化学习，能让机器人把球打到任何位置。我自己协调了一个欧洲项目，是基于经验学习的机器人项目。机器人可以基于八种类型的知识进行建模，并对餐厅场景和图书馆服务进行经验学习。学习结束后，人类指导它的时间大大减少了。机器人也可以对环境理解有更精确的建模。

在另一个欧盟项目，我们实现了这样一个服务机器人。它能帮助人类拿取不同物品，并有一个直观的界面。在这一年里，我们还开发了用于机器人和变量的，双曲面弹性触觉传感器皮肤。这里我们看到一个人正在进行灵巧操控，我们可以了解在现实中如何检测到触觉传感器信息。然而，对于实际的应用，机器人仍然需要稳健的智能。由于机器人执行仍是脆弱的，从错误中恢复是非常重要的。我们看到很多自动驾驶的车祸，工业机器人事故，网络中的干扰还有误判和错误的决定。这就是为什么我们需要更多的基础研究。从2017年开始，我们就开始了一个交叉模型学习项目，研究多模态机器人系统的适应性、预测性和交互性。该项目是由DFG（德国科学基金会）和中国国家自然科学基金委员会联合发起的。我们的目标是迎接人-信息-物理系统中，不断变化的信息环境的挑战。我们看到了数据有许多不同的种类，例如视频、图像、文本、声音、触觉、非欧几里德数据、神经认知系统，非常高效和有效地学习和集成多模态信息。人工机器人系统必须学会在动态、不确定和嘈杂的现实世界条件下处理多模态信息。除了单模态深度学习，还需要新的计算范式。此外，需要更好地理解作为人类思维和大脑基础的多感官过程。

因此，我们的目标是建立一个理论框架来描述多模态学习的神经、认知和计算机制。我们相信学习，是应对现实世界的正确手段，可以适应不断变化的潜在不确定环境，利用注意力、情感、协同和冗余，将机器人的自上而下和自下而上建模相结合，使用抑制来选择多感官数据，并将新的、学到的信息来源与已有的知识来源相整合，可以巩固预期和预测的所学知识，即内部模型。我们可以从认知系统学到很多，如自上而下控制多模态整合、决策、沟通、行动执行，尤其是效率和稳健性，如何建立人类探索多模态信息模型来提高预测的稳健性和效率。我们认为多模态学习是人类理解世界的核心，通过整合视觉、听觉、躯体感觉和其他方式。人类习得的大多数技能是多模态的，如抓取和操纵对象、理解语言和参照物、学会读写、确定位置和方向，并且越是高级的技能，越具有多模态的性质，如社会认知、理解他人的意图、语言和非语言交流。我们是最感兴趣的是感觉模态如视觉、听觉、躯体感觉，以及人工感觉，作为信息来源，如过程传感器、声呐、测距仪、RGBD传感器、大脑信号、短信等等。如何随时随地集成不同类型的传感器，就像人类一样，对我们来说这是一个很有吸引力的研究课题。在我们的中德跨区域合作研究中心，我们试图理解多模态学习的神经、认知和计算机制，并且尝试利用这种理解来改善人为表现，并且提高人工系统，如机器人的性能。

—— Jianwei Zhang

上一篇：习近平：致2015世界机器人大会贺信
下一篇：北京欢迎你！2024世界机器人大赛北京锦标赛开幕！

要闻发布

【WRC 大咖观点】张建伟《敏捷服务机器人的多模态学习》