菜单
  
    摘要本论文受生物学中有关基底神经节的研究启发,对机器人的强化学习方法展开了研究,具体讨论了Izhikevich尖峰神经元模型,同时还探讨了生物学中的多巴胺调节机制在机器人学习中的应用,主要内容包括:(1)在生物学层面,讨论了脊椎动物学习的神经机理,明确了基底神经节在脊椎动物学习中的作用;(2)利用尖峰神经元模型研究了多巴胺在条件反射过程中的活动特性及其对突触的调节作用;(3)在Simbad仿真平台上,设计基于尖峰神经元模型的多神经元作用下的机器人走迷宫实验,编写仿真程序,通过多次模拟训练,实现机器人强化学习,并以此验证基于基底神经节的机器人强化学习机制的可行性。6500
    关键词  机器人  强化学习  基底神经节   Simbad
    毕业设计说明书(论文)外文摘要
    Title   Study of Robot Reinforcement Learning Mechanism Based on Basal Ganglia             
    Abstract
    This dissertation studies robot reinforcement learning mechanism inspired by recent discovers of basal ganglia,which plays an important role in the control of animal’s behavior. Except for the efforts of dopamine on reinforcement learning, the spike neuron model of Izhikevich is specifically discussed as well. The main parts are concluded as follows:(1)The learning mechanism of animals is discussed at the biological level, and the effects of basal ganglia on animal’s learning are confirmed.(2)Dopamine activities during condition response, as well as its modulation effect on synapse plasticity is studied under the spike neuron model of Izhikevich.(3)On the platform of Simbad, simulated maze robot experiment is designed under spike neuron model. The robot successfully realizes reinforcement learning after training, which proves the feasibility of the robot reinforcement learning mechanism based on basal ganglia.
    Keyword  Robot,  Reinforcement Learning,  Basal Ganglia,  Simbad
    目  次
    1    绪论    1
    1.1 研究的背景及意义    1
    1.2 设计任务    2
    1.3 论文结构安排    2
    2    强化学习介绍以及基底神经节模型    4
    2.1 强化学习概述    4
    2.2 几种强化学习算法    4
    2.3 研究趋势    6
    2.4 基底神经节的生物学基础知识    6
    2.4.1基底神经节    6
    2.4.2 基底神经节核团之间的相互关系    7
    2.5 典型强化学习算法与基底神经节的结合    8
    2.5.1 Actor-Critic模型与基底神经节的相关性    9
    2.5.2 与多巴胺神经元相关的TD差分算法    9
    2.6 神经元模型    10
    2.6.1 神经元基础知识    10
    2.6.2 神经元模型    12
    2.6.3 尖峰神经元模型    13
    2.6.4 Izhikevich模型    13
    2.7 本章小结    14
    3    基于Izhikevich模型的强化学习算法    16
    3.1 脑皮层尖峰神经元的动力学描述以及MATLAB仿真    16
    3.2 基底神经节相关的强化学习机制    21
    3.2.1 条件反射与多巴胺神经元活动    21
    3.2.2 多巴胺调节的突触可塑性    22
    3.2.2.1 多巴胺调节的LTP    23
    3.2.2.2 多巴胺调节的LTD    25
    3.2.3 多巴胺延时释放时间 对突触强度的影响    26
    3.2.3.1 仿真设置    26
    3.2.3.2 突触强度以及突触后神经元膜电位比较    27
  1. 上一篇:网络环境下一类中立型神经网络的自适应同步控制算法研究
  2. 下一篇:MATLAB空炸射击高炮武器系统毁伤概率的计算
  1. 基于oversim的P2P通信仿真系统设计

  2. 基于力控组态软件的PLC系...

  3. 基于SIMATICS7-200的小型锅炉...

  4. 基于Arduino的自动浇花系统设计+电路图+程序

  5. DC-DC基于超级电容的电梯弱电供电系统设计

  6. 基于图像识别的电子锁设计+PCB电路图+程序

  7. 单片机的信号发生器的设计任务书

  8. 巴金《激流三部曲》高觉新的悲剧命运

  9. C++最短路径算法研究和程序设计

  10. 中国传统元素在游戏角色...

  11. 高警觉工作人群的元情绪...

  12. 江苏省某高中学生体质现状的调查研究

  13. g-C3N4光催化剂的制备和光催化性能研究

  14. 上市公司股权结构对经营绩效的影响研究

  15. 浅析中国古代宗法制度

  16. 现代简约美式风格在室内家装中的运用

  17. NFC协议物理层的软件实现+文献综述

  

About

优尔论文网手机版...

主页:http://www.youerw.com

关闭返回