全文总字数:3916字
1. 研究目的与意义(文献综述)
1.1 研究目的及意义
用户画像(user profiling)是指对用户的人口统计学特征、行为模式、偏好、观点、目标等进行标签化,是互联网时代实现精准化服务、营销和推荐的必经之路,在网络安全、管理和营运等领域具有重要意义。多模态社交媒体用户画像是指利用社交网络用户的内容信息(如发表的文本、图像和评论等)、行为记录(如浏览、转发、点赞、收藏等)、和链接结构(如用户之间的粉丝关系),对用户的不同维度进行画像,对完善及扩充社交媒体用户信息、分析社交媒体生态以及支撑社交媒体业务等方面具有非常重要的意义。
不同的行业对于用户画像的需求不同,导致不同的行业的用户画像模型也各不相同,但其核心目的都是提取用户特征。以微博为例,通过不断增加并分析数据,我们可以对整体用户进行画像,按照某种方式分类,得到每种用户的大致数量。这样一来有助于我们划分用户群体,有利于提高包括广告的微博内容的定向推送的效率。在电商领域,商家通过对用户行为的分析发现用户的使用偏好与使用习惯,有助于商家对于消费者的划分,这一点对于精准营销意义重大。另外,用户在网络上更倾向于隐藏自己的个人信息。在公安或者国防领域,在一些特定情况下利用用户有限的社交信息精准描绘出用户的静态属性将有利于相关部门采取有效的控制措施,以保障社会安定。
1.2国内外的研究现状分析
对于用户画像的研究近年来十分热门,现在已经出现了基于微博数据的用户画像预测系统[7]。作为数据挖掘技术在社交媒体领域的重要应用,用户画像本质上是对现实世界中用户的一种数学建模,其核心在于标签体系的建立[5],从而对用户的兴趣、爱好等进行描述。国内有研究团队创新性地提出了用户画像研究的三个基本构成要素,即代表用户出生的用户属性、记录用户一生的用户行为、描述用户消失的用户流失[5]。常见预测的标签包括但不仅限于性别、年龄、爱好以及所处地域。传统上来说社交网络用户属性推测均采用监督学习的方法,包括决策树算法和k近邻算法等[1],也有研究团队提出过采用半监督学习的方式进行预测[2],甚至采用无监督学习的方法,取得了不错的成果[15]。
2. 研究的基本内容与方案
2.1 研究的基本内容
利用给定的社交媒体数据(用户微博内容),进行社交媒体用户画像,对用户性别进行预测。
2.2 拟采用的技术方案及措施
研究的内容主要涉及到社交网络中的用户属性推测问题,数据来自PAN 2017 the 5th Author Profiling Task提供的数据集。设计的系统将识别用户推文的文本内容,同时处理推文中的图片,结合两者为依据采用多种算法对用户的性别进行预测,并计算出每种算法的准确率。
3. 研究计划与安排
(1)2019/1/19—2019/2/28:阅读文献,完成外文翻译与开题报告,构思初步的解决思路;
(2)2019/2/29—2019/3/5:详细制定处理数据集图片的方法,明确步骤,在计算机上试运行;
(3)2019/3/6—2019/3/19:在计算机上实际操作、计算,分别采用三种算法构建分类器,对算法进行优化,比较其准确率;
4. 参考文献(12篇以上)
[1] 安军辉.基于微博数据的微博用户性别判断研究[D].华中师范大学,2015.
[2] 丁宇新,肖骁,吴美晶,张逸彬,董丽.基于半监督学习的社交网络用户属性预测[J].通信学报,2014,35(08):15-22.
[3] 邱静.微博用户画像构建中年龄和性别预测方法研究[D].武汉理工大学,2018.
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。