1. 研究目的与意义
语料库是自然语言处理实验过程中的重要数据资源,是自然语言处理方法生成平台,也是技术性能的验证平台。
因此,语料库的建设是自然语言处理研究领域的关键基础。
而语料标注是语料库建设的主要任务,一般采用人工或半自动方式,对自然语言基本语言单元添加标注(注释),如标注相关词性、句法等属性。
2. 研究内容和预期目标
1)研究内容根据语料标注的基本原理,研究的主要内容如下:(1)生语料管理:管理员将生语料上传到服务器库生语料库中(2)熟语料管理:用户可以对服务器上的生语料进行标注,保存标注后生成一份用户标注的熟语料文件并存在服务器中。
用户可以对熟语料再次编辑直到定稿为止(3)用户注册:用户通过注册页面可以注册成为语料库用户,也可以由管理员进行批量导入用户。
(4)个人信息管理:用户登录后可以修改自己的信息,如密码等(5)标签管理:管理员可以录入标签,支持单个录入和批量导入,支持对标签的修改,删除。
3. 研究的方法与步骤
对于本课题的研究,现准备将课题划分为三个部分分别进行研究:1)语料辅助标注系统的框架建设这一部分主要对整个系统进行搭建,可以将系统分为两部分:(1)整体页面框架(2)功能部分页面部分主要是搭建整个标注平台的框架,实现用户登录,上传语料,上传标签,用户信息管理等。
功能部分要实现最核心的功能即多人在线语料标注,实现在网页上对生语料进行标注,保存标注好的内容以及实现可再次编辑的功能2)实现单机分析功能主要实现单机系统的语料分析:包括一致性分析和Kappa值分析一致性分析如下:(1) 计算一行上标注对的数量的一致率。
以每一行为比较单位,判断标注对的数量是否一致。
4. 参考文献
[1] 冯志伟.当前自然语言处理发展的几个特点[J]. 暨南大学华文学院学报. 2006(01) [2](美)DanielJurafsky,(美)JamesH.Martin著,冯志伟,孙乐译.自然语言处理综论[M]. 电子工业出版社, 2005
5. 计划与进度安排
[1] 2022.1.15----2022.3.01查阅资料, 撰写开题报告[2] 2022.3.02----2022.3.15需求分析,熟悉开发工具[3] 2022.3.16----2022.3.25概要设计[4] 2022.3.26----2022.4.01详细设计[5] 2022.4.02----2022.5.08编写代码及设计[6] 2022.5.09----2022.5.20程序调试,毕业论文资料收集,撰写论文提纲[7] 2022.5.21----2022.5.31整理设计文档, 撰写毕业论文[8] 2022.6.01----2022.6.09答辩准备及答辩
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。