1. 研究目的与意义
在对消费者购物行为的分析中,全球零售巨头沃尔玛发现,男性顾客在购买婴儿尿布时经常会顺便买几瓶啤酒,因此沃尔玛试图推广啤酒和尿布的组合,但没想到这个措施实际上会增加尿布和啤酒的销量。
如今,#8220;啤酒 尿布#8221;的数据分析已成为大数据技术应用的经典案例,被人津津乐道。
随着近年来的数据量的爆炸性增长,虽然在一定程度上造成了存储方面的一些麻烦,但是正是这些巨大的数据为我们的社会发展做出突出贡献,基于数据的机器学习技术方法正在不断的推动社会向前发展[1]。
2. 研究内容和预期目标
研究内容目前,国内外很多对此有研究的教授虽然研究的方向切入角度都各有不同但是对网络信息和股票市场的关系还有趋于一致的看法:如果大部分网络信息对股票市场持有乐观态度,那么第二天股票价格会上涨,即看涨情况与股票价格呈正相关。
如果网络信息体现的投资者意见分歧越大,股票的成交量就越大,即意见趋同程度越低,股票的交易量越大[2][3]。
本研究通过网络爬虫直接提取与股票相关性较高的论坛或者社区的投资者每天关于其感兴趣的股票和大盘的观点陈述语料,通过对相关的评论语料分析,建立相应情绪量化分析模型来评估某天投资者发表的评论的情绪是处于积极性、还是消极性。
3. 国内外研究现状
数据爬虫通俗地讲就是,如果把互联网、企业、政府等各行各业的海量数据比做成金矿山的话,那么数据爬虫的任务就是从矿山中挖取矿石。
数据爬虫的思路一般可以简单概括如下: 1、通过一个或多个入口地址,获取初始数据。
例如一个文章列表页,或者具有某种规则的页面,例如带有分页的列表页;2、根据入口页面的某些信息,例如链接指向,进入下一级页面,获取必要信息;3、根据上一级的链接继续进入下一层,获取必要信息(此步骤可以无限循环下去)。
4. 计划与进度安排
(一)准备阶段 1. 2022年11月1日至11月15日,查阅收集文献资料、确定选题,准备开题报告。
2. 2022年11月16日至11月30日,进一步修正研究目标、内容和方法,完成开题报告。
3. 2022年12月1日至2022年1月15日,进一步查阅文献,收集资料,为论文写作做准备。
5. 参考文献
[1] 张兰廷. 大数据的社会价值与战略选择[D]. 中共中央党校, 2014. [2] 郑瑶, 董大勇, 朱宏泉. 网络证券信息交流减弱股市羊群效应吗:基于中国证券市场的分析[J]. 管理评论, 2015, 27(6):58. [3] 金雪军, 祝宇, 杨晓兰. 网络媒体对股票市场的影响--以东方财富网股吧为例的实证研究[J]. 新闻与传播研究, 2013(12):36-51. [4] 张浩然, 韩正之, 李昌刚. 支持向量机[J]. 计算机科学, 2002, 29(12):135-137. [5] 杨鼎, 阳爱民. 一种基于情感词典和朴素贝叶斯的中文文本情感分类方法[J]. 计算机应用研究, 2010, 27(10):3737-3739. [6] 池云仙, 赵书良, 罗燕,等. 基于词频统计规律的文本数据预处理方法[J]. 计算机科学, 2017, 44(10):276-282. [7] Huang X , Robertson S E , Cercone N. Probability-Based Chinese Text Processing and Retrieval[J]. Computational Intelligence, 2010, 16(4):552-569. [8] 郑冬冬, 赵朋朋, 崔志明. Deep Web爬虫研究与设计[J]. 清华大学学报(自然科学版), 2005, 45(9):1896-1902. [9] Oliphant T E. Python for Scientific Computing[J]. Computing in Science amp; Engineering, 2007, 9(3):10-20. [10] 田丹. 网站文本数据采集系统的设计与实现[D]. 北京交通大学, 2015. [11] 信琳琳. 短文本挖掘和排序系统的设计与实现[D]. 华中科技大学, 2016. [12] 黄九鸣, 吴泉源, 张圣栋,等. 基于AC-Trie的在线社交网络文本流热点短语挖掘[J]. 电子学报, 2016, 44(10):2466-2470. [13] 张晨逸, 孙建伶, 丁轶群. 基于MB-LDA模型的微博主题挖掘[J]. 计算机研究与发展, 2011, 48(10):1795-1802. [14] 卜湛, 伍之昂, 曹杰,等. 在线评论情感计算与博弈预测[J]. 电子学报, 2015, 43(12):2530-2535. [15] Agarwal A, Xie B, Vovsha I. Sentiment analysis of Twitter data[C]// Workshop on Languages in Social Media. Association for Computational Linguistics, 2011.
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。