1.3 智能机器人
1.3.1 智能机器人的定义
人工智能与机器人,前者主要解决学习、感知、语言理解或逻辑推理等任务,若想在物理世界完成这些工作,人工智能必然需要一个载体,机器人便是这样的一个载体。机器人是可编程机器,通常能够自主或者半自主地执行一系列动作。机器人与人工智能相结合,由人工智能算法程序控制的机器人称为智能机器人(见图1-7)。
图1-7 智能机器人
智能机器人在近几十年里迅速发展,代表性的工作包括:1988 年,日本东京电力公司研制的具有自动越障能力的巡检机器人;1994 年,中科院沈阳自动化所等单位研制成功的中国第一台无缆水下机器人“探索者”;1999 年,美国直觉外壳研制的达芬奇机器人手术系统;2000 年,日本汽车厂商本田研发的双足步行人形机器人阿西莫(ASIMO);2005 年,波士顿动力公司研制的四足大狗机器人、双足机器人 Atlas;2015 年,软银控股研制的情感机器人Paper;2016年,北京钢铁侠科技研制的双足仿人机器人Artrobot。
1.3.2 脑科学与智能机器人
虽然人工智能科学发展得如火如荼,但总有一个界限无法逾越,那就是人类大脑的思维能力,比如拥有随机搜索和卷积神经网络技术的阿尔法狗也只是下棋的高手而已。全球科学家也逐步达成共识,即要想突破人工智能的技术壁垒,必须先在脑科学领域有所建树。中国科学院谭铁牛院士曾说向生物学习,开展生物启发的模式识别有望实现模式识别理论与方法的新突破,达到对不同任务无缝切换、对环境自主适应、对知识凝练抽取等,这一认识具有十分广阔的创新空间与发展前景。
脑是人类的决策、情感、感知、控制等中枢,是人体最为核心的组成部分,脑可大体分为大脑、小脑和脑干。大脑支配人的一切生命活动,如语言、运动、听觉、视觉、情感表达等;小脑的主要功能是协调骨骼肌的运动,维持和调节肌肉的紧张,保持身体的平衡。脑干主要是维持个体生命,包括心跳、呼吸、消化、体温、睡眠等重要生理功能。
人工智能是计算机科学的一个分支,它涉及如何创建计算机和计算机软件使之具有智能行为,主要承担学习、感知、语言理解或逻辑推理等任务,类似模拟实现人体大脑的功能。机器人工程是自动化学科的一个分支,是可编程机器,其通常能够自主地或半自主地执行一系列动作,类似实现人脑中运动皮层、小脑等与运动控制及规划相关的功能。
1.3.3 人工智能在机器人中的应用
人工智能技术的应用提高了机器人的智能化程度,同时智能机器人的研究又促进了人工智能理论和技术的发展。智能机器人是人工智能技术的综合试验场,可以全面地检验人工智能在各个研究领域的技术发展状况。人工智能在机器人中的应用如图1-8所示。
传感器是指能够感受被测量并按照一定规律变换成可用输出信息的器件或者装置,是机器人获取信息的重要源头,类似人的“五官”。从仿生学观点来看,如果把计算机看作处理和识别信息的“大脑”,把通信系统当作传递信息的“神经系统”,那么传感器就是“感官系统”。
以下将重点介绍人工智能技术在机器人“视觉”“触觉”“听觉”三类最基本的感知模态中的应用。
图1-8 人工智能在机器人中的应用
1.视觉在机器人中的应用
人类获取的70%的信息来自视觉。因此,为机器人配备视觉系统是非常自然的想法。机器视觉可以通过视觉传感器获取环境图像,并通过处理器进行分析和解释,让机器能够辨识物体并确定其位置,以此来辅助机器人完成作业。类比人的视觉系统,摄像机等成像设备是机器的眼睛,而计算机视觉就是实现人类大脑(主要是视觉皮层)的视觉能力。
机器视觉的应用包括为机器人的动作控制提供视觉反馈、移动机器人的视觉导航、代替或帮助人工进行质量控制、安全检查所需的视觉检验,以及无人驾驶等方向。
2.触觉在机器人中的应用
触觉传感器是机器人中用于模仿触觉功能的传感器,如压力传感器、接近传感器等,触觉传感器对灵巧手的操作意义重大。在过去的三十年,人们一直尝试在灵巧手端加触觉传感器来提高抓取能力,但由于触觉传感器所传输的信息十分复杂且高维度而导致灵巧手功效性较低。
近年来,随着传感器、控制和人工智能技术的发展,科研人员对触觉传感器所采集的信息结合不同的机器学习算法实现对灵巧手抓取物体的检测识别,以及抓取稳定性分析等展开了研究,主要通过机器学习中的聚类、分类等监督或无监督学习算法来完成触觉建模。
3.听觉在机器人中的应用
人的耳朵同眼睛一样是重要的感觉器官,声波叩击耳膜,刺激听觉神经的冲动,之后传给大脑的听觉区形成人的听觉。
听觉传感器是一种可以检测、测量并显示声音波形的传感器,被广泛用于日常生活、军事、医疗、工业等众多领域,并且成为机器人发展必不可少的部分。声源定位、语音唤醒、语音合成、语音识别、语义交流、语音控制等技术使人机交互更加智能,其中自然语言处理与语音处理技术起到了重要作用。
随着传感器技术的迅速发展,不同模态(如视、听、触)的动态数据正在以前所未有的速度涌现。对于一个待描述的目标或场景,通过不同的方法或视角收集到的是一个多模态的数据。通常把收集这些数据的每一种方法或视角称为一个模态。多模态感知与学习这一问题与信号处理领域的“多源融合”“多传感器融合”,以及机器学习领域的“多视学习”或“多视融合”等有密切联系。
机器人系统上配置的传感器复杂多样,从摄像头到激光雷达,从听觉到触觉,几乎所有的传感器在机器人上都有应用。但限于任务的复杂性、成本和使用效率等因素,目前市场上的机器人采用最多的仍然是视觉和语音传感器,这两类模态一般独立处理(视觉用于目标检测,听觉用于语音交互)。