Web页面目标主题识别提取系统设计与实现开题报告

 2022-09-18 17:20:25

1. 研究目的与意义

面对以指数级速度增长的海量网络信息资源和迅速增加的网民,如何有效的利用Internet信息资源成为一个急待解决的问题。新摩尔定律指出:internet上的信息正以每六个月翻一翻的速度爆炸般的产生。它使任何上网寻求信息的人都难以选择。面对这如海潮般涌来的五光十色、瞬息万变的信息,人们正以从来没有过的迫切心情,要求能借助于某些工具,自动筛选这些信息,并自动剥除附加在这些信息上的泡沫、硬壳、无用的包装等,从而能直接获取情报和知识。如果没有一个强有力的工具来帮助人们寻找、发掘有用的信息,人们就会被湮没在信息的海洋中,迷失方向。

灰色信息资源正在逐步替代黑色矿业资源和绿色的农业资源而成为人们竞争的重点。有价值的信息已经成为一种新的财富。掌握信息才能掌握未来。

随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储的数据量急剧增大,在这些大量的数据背后隐藏着许多重要的信息,如果能把这些信息从数据库中抽取出来,将为数据所有者创造出很多潜在的利润和价值。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 课题关键问题和重难点

【关键问题】

Web文本主题词的提取主要关键问题在于以下两点信息:

(1)、网页链接标题信息的提取

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 国内外研究现状(文献综述)

当前的自动文摘方法主要有基于统计的方法、基于理解的方法以及基于篇章结构的方法。

王永成教授在2001年发表的一篇题为WEB页面中文文本主题的自动提取研究论文中提出,基于web页面与一般文本的四个不同点,以统计方法为主的web页面主题自动提取方法,它能帮助用户杂最短时间内了解当前页面的主题。其中他对高频字串的统计、删除同频字串、长短字串的处理、删除特殊的字串和匹配校验等做了分析,认为该方法能在瞬间对普通web页面完成处理,得到基本反映web页面主题的字串,缺点是不能提取只出现一次的主题字串。

对于文章的标题、作者及文章本身给出的关键词的提取,利用其特有的METATag就可以完成。实现时,利用查找字符串的算法,在检索到前后两个标记时,将两个标记之间的字符串读出,存入指定的库中即可。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究方案

在给定网页,搜索用户感兴趣的链接,用户输入自己的目标主题,把感兴趣的链接提取出来展现给用户,用户可以直接点击查看。

一、用户模块:

1、用户注册

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 工作计划

第1周:撰写开题报告和完成外文翻译。

第2周:进行课题总体规划和课题的详细设计。

第3-5周:进行课题模块化设计并进行模块代码编写与调试。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。