第一章绪论
1.1论文选题背景及研究意义
随着机器人技术的发展和社会需求的进一步提高,机器人的应用领域不断扩展⑴。在机器人的许多新的应用领域,例如大型复杂产品的生产、无人飞机自主作业、未知星球的探索以及深海勘探等应用领域,多个机器人通过协作可以完成单个机器人难以完成甚至无法完成的任务。因此,在机器人学的研究过程中,一方面注重机器人个体能力的提高,另一方面从生物学和社会学的角度针对机器人共同环境中个体与个体、个体与环境的交互作用等方面展开研究,使机器人能够与人、其他机器人以及周围环境进行社会性交互,这种交互体现出类似人类社会的群体性的行为与特征,多个机器人通过协调与协作能够完成复杂的任务[2]。多机器人系统的研究始于20世纪70年代后期,研究人员将人工智能中的多智能体理论应用到多机器人系统中,幵始了机器人领域的多机器人技术的研究。初期的研究主要集中在系统体系结构、多机器人运动规划及系统可重构等几个方面,随着分布式人工智能、复杂系统、社会学、生物学等研究领域的理论与方法的引入,多机器人系统的研究幵始探讨系统组织形式、信息交互方式、进化学习机制等关键的理论技术问题。目前,虽然对多机器人系统关键问题的研究取得了相当的进展,但作为一个研究领域其理论框架和实现方法均需要得到进一步完善。
.......
1.2多机器人系统研究综述
随着机器人技术在各个领域的广泛应用,机器人所面临的任务也越来越复杂,然而就目前的机器人技术水平而言,单机器人在信息的获取、处理及控制能力等方面都存在较大的局限性,对于复杂的工作任务及动态的工作环境,单机器人的能力更显不足。多智能体理论为解决这些瓶颈问题提供了一种新的思想与技术实现途径。在多智能体系统中多个共同作业的自治、交互智能体通过传感器感知外部环境,并利用执行器执行相应的动作,智能体通过实时、动态地交互实现系统的协调与分布式处理。1989年R. Brooks在MIT向NASA提交了一个题为“快速、廉价和无控制(Fast, Cheap and Out ofControl)"的技术报告,首次建议向火星发送几百个蚂蚁一样的廉价反应式机器人[5],大量机器人通过协作完成复杂的任务,系统具有更高的冗余度。目前基于多智能体理论的多机器人系统被广泛应用于多个领域,包括机器人编队、分布式控制、协作决策支持系统及空中交通控制等。多机器人技术研究智能体所必须的知识模型、交互机制、协调策略等,多机器人系统在社会性交互作用中逐渐演化,突现出复杂的群体行为与群体智能。
......
第二章机器人基本行为强化学习方法
2.1引言
强化学习利用类似于人类思维中的试错(trial-and-error)的方法来发现最优行为策略,目前已经在机器人行为学习方面展现出了良好的学习性能[79,71]。机器人强化学习时,首先基于环境信息获得当前状态,然后选择相应的动作并执行,环境响应当前动作给出立即回报,并产生后继状态。机器人强化学习的任务就是学习一个策略,使得机器人获得最大的累积回报。Q学习算法是求解信息不完全Markov决策问题的一种强化学习方法,根据环境状态和上一步学习获得的立即回报,修改从状态到动作的映射策略,以使行为从环境中获得的累积回报值最大,从而获得最优行为策略标准Q学习算法一般将Q值初始化为0或随机数,机器人没有对环境的先验知识,学习的初始阶段只能随机地选择动作,因此,在复杂环境中算法收敛速度较慢为了提高算法收敛速度,研究人员提出了许多改进的Q学习算法对机器人行为进行学习。通常情况下,加速Q学习收敛速度的方法主要包括两个方面:一种方法是设计更加有效的回报函数,另一种方法是合理初始化Q函数。目前,研究人员已经提出了许多改进的Q学习算法,使机器人在强化学习的过程中能够获得更加有效的回报,主要包括:关联Q学习算法、惰性Q学习算法、贝叶斯Q学习算法等[74,75]。其主要目的就是将对于机器人有价值的隐含信息融入到回报函数中,从而加速算法收敛速度。关联Q学习将当前回报与过去时刻的立即回报进行比较,选择回报值更大的动作,通过关联回报方法能够改善系统的学习能力,减少获得最优值所需要的迭代步数。
.........
2.2 Q学习算法
...............
2.3神经网络模型
2.3.1神经网络体系结构
机器人工作空间为二维有界环境,神经网络与机器人工作的结构空间具有相同的拓扑结构[77,78]。神经网络中每个神经元与其邻域内神经元的连接形式都相同,其中第/个神经元与其邻域内神经元的连接形式如图2-1所示。每个神经元对应于机器人工作空间的一个离散的状态点,整个神经网络由TVXiV个神经元组成二维拓扑结构。神经网络具有高度并行的体系结构,所有连接权都相等,神经元之间信息的传播是双向的,具有较高的计算效率。神经网络在演化过程中根据每一个离散状态的输入更新其邻域内神经元的状态,直到系统达到平衡状态。达到平衡状态时,神经网络中神经元输出值就形成一个单峰值的曲面,曲面上每一点的值就表示所对应状态能够获得的最大累积回报。神经网络中神经元某一时刻的输出值只与其邻域内的神经元状态有关。
........
第三章机器人协作行为强化学习方法.........37
3.1引言.........37
3.2问题描述.........38
3.3基于聚类方法的追捕团队形成算法.........40
3.4基于知识共享的机器人协作追捕算法.........43
3.5 会吉.........54
第四章机器人协作行为数学建模.........55
4.1引言.........55
4.2机器人协作行为分形建模.........56
4.3机器人群体行为宏观描述方法.........59
4.4群体行为数学模型.........63
4.5结论.........75
第五章机器人协作行为定量分析方法
5.1引言
多机器人系统是由一些相互联系和相互作用的机器人组成的集合,系统的性质可以由一些状态变量来进行表征,系统的当前状态完全由某一指定时刻的历史状态所决定,动力学系统就是研究系统的状态变量随时间变化的规律[1^]。系统状态变量是指能够完全描述系统动态行为的变量集合,在多机器人系统中任何能够决定系统性质的物理对象都可以作为状态信息,如速度、加速度、姿态、位置、行为以及机器人之间的相互关系等。在第四章我们将机器人不同行为的组合作为系统状态,建立了描述系统演化的微分方程,从行为演化的层次刻画了系统的动态特性。多机器人系统通过机器人之间、机器人与环境之间的交互作用涌现出复杂的群体行为,而机器人交互作用是一个随机过程,导致系统具有内随机性,而且交互作用的动力学方程往往是混纯的对于移动机器人,机器人的运动轨迹是与机器人行为联系最为紧密的参数之一,利用机器人位置随时间变化关系可以重构机器人的相空间。多机器人系统的相空间维数较高,系统中任一机器人的演化都是由与之相互作用着的其他机器人所决定的,因此,系统相关信息隐念在任一机器人演化过程之中。这样,可以从一个机器人的演化轨迹恢复出系统在高维相空间中的演化规律,机器人系统产生的轨迹经过一段时间的变化,最终会做一种有规律的运动,产生一种规则的轨迹。在相空间中建立系统的动力学模型,通过研究其吸引子的性质,根据系统特征值对系统进行量化分析。
........
第六章总结与展望
6.1总结
随着机器人技术的发展和社会需求的进一步提高,机器人的应用领域不断扩展,多个机器人通过协作可以完成单个机器人难以完成甚至无法完成的任务。因此,在机器人学的研究过程中,一方面注重机器人个体能力的提高,另一方面从生物学和社会学的角度针对机器人共同环境中个体与个体、个体与环境的交互作用等方面展开研究。机器人群体行为研究的重点是机器人之间及机器人与环境进行社会性交互的机制,机器人在社会性交互作用中涌现出复杂的群体行为。由于机器人群体行为是在机器人之间及机器人与环境之间的交互作用过程中涌现出来的,是一个高度复杂的动态的过程,其运动形式经常是混纯的。因此,现有的机器人行为建模与设计方法还不足以从机理上描述机器人群体行为的复杂性。本文运用机器学习、系统辨识、混纯与分形理论对机器人之间及机器人与环境交互作用的内在机理进行研究,通过机器人任务建模及机器人与环境交互建模获得机器人群体行为的完整数学模型,通过对数学模型的研究与分析深化对机器人行为系统内部作用规律的理解。本论文的主要研究内容及创新性工作总结如下:
........
参考文献(略)