菜单
  

    (2)Q-学习算法(Q-Learning Algorithm)[6,7]
    Q学习算法是由Watkins在1989年提出的一种无模型强化学习算法。Q学习可以看做一种增量式动态规划。它通过直接优化一个可迭代计算的动态值函数Q(s,a)来找到一个策略使得期望折扣报酬总和最大,而非TD算法中的状态值V(s)。这样,Agent在每一次的迭代中都需要考察每一个行为,可确保学习过程收敛。
    (3)Sarsa算法[8]
    Sarsa算法是Rummery和Niranjan于1994年提出的一种基于模型的算法,最初被称为改进的Q-学习算法。它仍然采用的是Q值迭代。Sarsa是一种在策略TD学习(on-policy TD)。Sarsa与Q-学习的差别在于Q-学习采用的是值函数的最大值进行迭代,而Sarsa则采用的是实际的Q值进行迭代。除此之外,Sarsa学习在每个学习步agent依据当前Q值确定下一个状态时的动作;而Q-学习中依赖修改后的Q值确定动作。因此称Sarsa是一种在策略TD学习。
    (4)R-学习算法(R-Learning Algorithm)[8]
    第一个基于平均报酬模型的强化学习算法是有Schwartz提出的R学习算法,它是一个无模型平均报酬强化学习算法,类似于Q-学习算法,用动作评价函数R(s,a)表示在状态S下执行以动作a为起点的策略π的平均校准值,随后Singh对这基本的R-学习算法进行了改进,用实际获得的报酬作为样本来估计平均报酬,并在每个时间步对平均报酬进行更新。除此之外,基于平均报酬模型的强化学习算法还有H-学习,LC学习,R-MAX学习等算法[8]。相比于基于折扣报酬的学习算法,对于基于平均报酬模型的强化学习算法研究尚不够成熟。
    上述算法中,TD算法和Q-学习算法中,无需学习马尔可夫决策模型的知识,直接学习最优策略,属于典型的模型无关法。Sarsa算法先学习模型知识,后根据模型知识推导优化策略,属于基于模型法。模型无关法每次迭代计算量较小,但是由于没有充分利用学习中获取的知识,其收敛速度要比基于模型法慢的多。
    2.3 研究趋势
    近年来,强化学习的理论与应用研究日益受到重视,但是由于所面临真实世界的复杂性,在实际应用中仍有许多问题有待解决。目前,有关强化学习的课题得到了美国国防部、美国国家科学基金以及国家青年科学基金以及美国海军、空军研究办公室的资助。另外,德国、韩国、澳大利亚等国家的学者都在开展有关强化学习的理论和应用研究。目前,强化学习在国际上是十分活跃的研究领域,研究中的问题如下:
    (1)环境的不完全感知,即部分可观马尔可夫模型问题,环境从一个状态转移到另一个状态不一定是马氏过程,若环境是非马氏过程,一些算法的学习效果可能不好,甚至不收敛[19]。
    (2)连续状态和连续动作问题,通常研究的强化学习系统,其状态和动作都是有限的集合,而在实际问题中,其状态和动作往往是连续的,而连续空间的强化学习问题,目前研究的还不够深入[9]。
    (3)还有探索(exploration)和利用(exploitation)问题。强化学习系统必须对这二者进行折衷处理,即获得知识和获得高回报之间进行折衷。探索对学习来说是重要的,只有通过探索才能确定最优策略,而过多的探索会降低系统的性能,甚至在某些情况下对学习产生不利的影响[3]。
    近年来,随着生物学研究的发展,发现大脑皮层下的一群神经核团(基底神经节)在脊椎动物动物行为控制中发挥重要作用,新的仿生强化学习算法也成为研究热点[11]。因此,本文以基底神经节为切入点,研究机器人的强化学习机制。
    2.4 基底神经节的生物学基础知识
    2.4.1基底神经节
    基底神经节是脊椎动物大脑皮层下一群核团的总称,又称为“基底核”,包括尾状核和豆状核(纹状体)、苍白核、黑质和底丘脑核[14],其结构和位置如图2.2所示。
  1. 上一篇:网络环境下一类中立型神经网络的自适应同步控制算法研究
  2. 下一篇:MATLAB空炸射击高炮武器系统毁伤概率的计算
  1. 基于oversim的P2P通信仿真系统设计

  2. 基于力控组态软件的PLC系...

  3. 基于SIMATICS7-200的小型锅炉...

  4. 基于Arduino的自动浇花系统设计+电路图+程序

  5. DC-DC基于超级电容的电梯弱电供电系统设计

  6. 基于图像识别的电子锁设计+PCB电路图+程序

  7. 单片机的信号发生器的设计任务书

  8. 巴金《激流三部曲》高觉新的悲剧命运

  9. C++最短路径算法研究和程序设计

  10. 中国传统元素在游戏角色...

  11. 高警觉工作人群的元情绪...

  12. 江苏省某高中学生体质现状的调查研究

  13. g-C3N4光催化剂的制备和光催化性能研究

  14. 上市公司股权结构对经营绩效的影响研究

  15. 浅析中国古代宗法制度

  16. 现代简约美式风格在室内家装中的运用

  17. NFC协议物理层的软件实现+文献综述

  

About

优尔论文网手机版...

主页:http://www.youerw.com

关闭返回