1. 研究目的与意义
随着信息技术的发展,信息建设在我国取得了迅猛的发展,为了提高生产效率,降低生产成本,数字识别技术的应用前景越来越广泛(如车牌识别,统计,财务报表的自动化处理 ,邮政编码的识别,银行票据等),计算机视觉与图像处理越来越受到关注,并且逐渐从成为一门重要的科学领域,称之为光学字符识别技术(Optical Character Recognition 下文简称为OCR),而作为OCR的一个分支,手写体数字识别(Handwritten Numeral Recognition)的研究对象是,使计算机能够识别人手写出来的数字。
此类识别一般通过特征匹配及特征判别的方法来进行处理,前者一般适用于规范化的印刷体字符识别,后者多用于手写字符识别,其研究还处于探索阶段,识别率还比较低,其主要的原因在于手写体的随意性很大,同一个数字有很多不同的写法,即使是同一个人写出来的也不完全一样,其差别主要在于笔画的粗细,字体的大小,连笔,倾斜角度等等,都会影响到字符的正确识别。
随着国家信息化进程的加速,手写体数字识别的应用需求将越来越广泛,因此应当加强这方面的研究工作。
2. 课题关键问题和重难点
该课题的关键问题有以下几点:1、在预处理阶段将原始的图像转换成识别器所能接受的二进制形式,需要进行定位、灰度化、二值化、去噪、切分、归一化的步骤进行处理,这里将采用一些较成熟的算法,减少其原始图像的优劣对最终识别结果的影响。
2、特征提取阶段是将数字字符形状转换成一组特征值的过程,结构特征通常包括圆、端点、交叉点 、笔画、轮廓等,在提取过程中若能有效的结合几何知识,就能够得到较可靠的转换结果,转换的结果会直接影响到识别结果。
3、再识别阶段理由 提取获得的 特征对待识别的数字进行识别处理。
3. 国内外研究现状(文献综述)
机器学习是一门多领域交叉学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构,使之不断改善自身的性能。
实现机器学习的方法多种多样,常见到的主要有神经网络算法、CNN卷积神经网络算法、RNN循环神经网络算法、EM算法、贝叶斯算法、聚类算法、回归算法、SVM等。
这里,我将利用BP神经网络算法来完成手写体数字的识别。
4. 研究方案
1.研究方法:首先要对所需要的机器学习进行了解,这需要查阅一定的资料,清楚BP算法的原理以及如何应用他。
因为本次研究完成的主要是对手写体数字识别设计,对于相关的数字图像处理知识以及相关的库(如MNIST、USPS)要有所了解,在这个过程中,需要查阅相关信息资料以及多次的实践。
2.研究措施:(1)自学《机器学习》,监督算法和分类问题进行了详细了解;了解不同的设计实现方法,比较现有的相关方案,确定本课题研究和实现方案,然后对方案中的各单元进行了必要的分析和研究。
5. 工作计划
第 1 周 接受任务书,领会课题含义,按要求查找相关资料,阅读相关文献,并整理整个系统的设计思路。
第 2 周 查找并阅读相关资料,找视频课,自学《机器学习》,理解反向传播算法的有关内容。
第 3 周 翻译相关英文资料,提出拟完成本课题的方案,写出相关开题报告一份。
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。