全文总字数:5537字
1. 研究目的与意义(文献综述)
1 目的及意义(含国内外的研究现状分析)
1.1 研究目的
随着计算机科学技术的迅速发展,人工智能(Artificial Intelligence)作为研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学,开始走进人们的视野。与此同时,基于人工智能算法的各种产品及应用也应运而生。强化学习(Reinforcement learning)作为目前AlphaGo、AlphaGo Zero等人工智能软件的核心技术,随着高性能计算、大数据和深度学习技术的突飞猛进,也得到了更为广泛的关注和更加快速的发展。因此,强化学习从计算机博弈中的巨大成功延申开来,渗透到了智能驾驶,过程优化决策与控制等领域。
关于自主导航智能驾驶这一方面的研究并不少见,但关乎于人类生命安全,财产安全的应用势必要经过反复模拟,深思熟虑地研究。由于在实际生活中存在着环境、天气、载具状态等多种因素的影响,存在着大量的不确定性,模型的构建变得非常困难,机器需要学习的样本也越来了复杂,这也是目前自主导航面临的一个难题。
本课题针对这一难题,尝试引入前文提到的强化学习算法,结合并完善目前的环境与载具模型,拟设计出基于强化学习的自主导航控制算法,提高机器适应实际环境的能力。
2. 研究的基本内容与方案
2 研究(设计)的基本内容、目标、拟采用的技术方案及措施
2.1 研究内容
自主导航控制是目前智能驾驶各项研究及应用中最基本和最重要的问题。在动态或者未知环境中,由于载具缺少先验知识,如何提高载具对环境的自学习和自适应能力,是实现移动机器人在复杂多变环境中自主导航的关键。近年来,一类与运筹学和最优控制理论密切联系的强化学习控制理论得到了广泛的研究。本课题着重采取多种当前主流强化学习算法,应用于搭建好的载具模型以及现有环境上,尝试验证载具自主导航控制的可行性。
2.2 研究目标
基于强化学习的自主导航控制算法的研究,其一,需要利用计算机语言将多种强化学习算法的思想编写出来;其二,需要借助平台构建环境模型,编写载具模型。
本课题拟设计一种自主导航控制算法,用于实现船舶的自主规划路径行驶。在深入研究自主导航控制相关理论的基础上,引入机器强化学习方法,完成算法的设计,并对算法的可行性进行验证,分析算法的性能和结果。
2.3 技术方案
对于强化学习算法思想的运用,笔者既会使用传统的基于表格的强化学习方法,如Q-learning,Sarsa;同时也会尝试近期发展的深度学习强化算法,如DQN。在于分析何种算法具有跟好的自学习性能。
目前在人工智能领域,Python是开发者使用的主流语言之一。因此,对于强化学习算法更新的实现,我们使用Python语言进行编写,根据笔者当前的实际情况,一方面方便于借鉴和学习;另一方面,对于一些现有的,前人完善的资源可以相互衔接。
对于环境和模型的构建,则会根据载具的动力学模型,构建相应的函数进行反馈,尝试应用在OpenAI的gym平台上,进行可视化处理。使用该平台的优势在于该强化学习算法测试平台背后有Pieter Abbeel、Sergey Levine等率领的强大团队的支持。
对于训练策略,拟采用“试错法”实现。强化学习的“试错法”原理能够在与环境的交互过程中根据评价的反馈信号实现决策的优化,提高载具的环境适应性。
|
图1技术路线图
如图所示,本课题预备工作在于构建载具模型,搭建环境库,再选取多种不同的强化学习算法,对其核心思想进行代码实现。之后在搭建好的环境下对载具模型进行训练,每次训练将会对算法的参数进行更新,经过大量个回合的训练之后,对载具模型的功能进行检验,从而对算法进行评测。
3. 研究计划与安排
3 进度安排
(1)第1-4周:查阅相关文献资料,明确研究内容,了解研究所需理论基础。确定方案,完成开题报告。
(2)第5-6周:熟悉掌握基本理论,完成英文资料的翻译,熟悉相关工具软件的使用。
(3)第7-9周:利用python语言完成算法的设计
4. 参考文献(12篇以上)
4 参考文献
[1] 王涛, 王立强, 李宇飞. 一种基于强化学习的自主导航控制算法研究[J]. 计算机仿真, 2018, (11):294-298.
[2] 郭宪, 方勇纯. 深入浅出强化学习:原理入门[M]. 北京:电子工业出版社, 2018.
[3] Magnus Lie Hetland. Beginning Python: From Novice to Professional, Third Edition[M]. Apress L.P, 2017.
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。