39 浅析基于Web数据挖掘分析论文_职称驿站
论文发表指导_期刊投稿推荐_期刊论文发表咨询_职称驿站

论文发表指导,期刊推荐,国际出版

职称驿站学术导航
关闭职称驿站导航

论文发表职称晋升 全方位咨询服务

学术出版,国际教著,国际期刊,SCI,SSCI,EI,SCOPUS,A&HCI等高端学术咨询

浅析基于Web数据挖掘分析论文

来源:职称驿站所属分类:计算机网络论文
发布时间:2013-11-12浏览:23次

  摘要:在Internet浪潮的冲击下,人们面临着数据爆炸的挑战;随着数据挖掘(Data Mining, DM)技术的迅速发展及数据库管理技术的广泛应用,人们积累的数据越来越多,如何从浩如烟海的数据中找到内在的规律,如何更方便地传递、交流、获取有用的信息,挖掘这些激增数据背后隐藏的重要信息已成为当前高科技领域研究的热点。

  Web挖掘(Web Mining),是将传统的数据挖掘同Web结合起来的技术,从广义上解释就是通过数据挖掘技术来分析与网站相关的资料。本文就WEB数据挖掘的一些特点、过程以及方法进行探讨本。

  关键字:数据挖掘,WEB数据挖掘,聚类

  Web挖掘概念特点

  Web挖掘是将传统的数据挖掘同Web结合起来的技术,与一般的数据挖掘有一定的共同之处,但并 不完全等同,同一般的数据挖掘相比, Web有以下的特性:

  (1)Web挖掘的资料来源是所有可得到的网络相关资料.包括internet中各网页包含的文字,图形,和声音等内容、网页和网页之间的链接、网页内部的链接以及整个网站的主要结构,还有网站系统得使用者在网站内部各项存取行为的日志文档资料(Web Log)以及使用者的个人信息。

  (2)上述提到的网络相关资料从原始的日志文件中提取出来时并没有经过筛选、清洗和转换,是不具备有规则性的资料。因此这些资料必须经过前期处理和特殊的转换之后才能用于Web挖掘分析。

  (3)由于Web挖掘在获取提供挖掘资料不是从数据库或数据仓库中直接选取而是必须通过各种不同的通路从网络上获得。取回这些资料后必须依据各种资料的特性加以处理,并利用适合的方式作挖掘工作。

  Web挖掘数据源

  Web页面上主要有三种数据:内容数据、链接结构数据和Web日志数据。Web数据挖掘源主要包括这三个方面:

  (1)Web页面内容

  Web网页上的数据源有多种,如文本、图像、视频和音频等,但文本一般是作为Web页面最主要的数据源。这些数据以比特流的形式向用户展开。

  (2)Web链接结构

  Web上的网页链接结构可以看作是由网页和基于期间大量超链接构成的有向或无向图。网页节点可视作图的顶点,页面间的超链接可以作为图的有向或无向边。Web上的超链接结构思非常丰富和重要的资源,它反映了网站设计者的领域只是,同时网页之间大量的链接结构为人们增强对网页的精确分析和处理提供了极大的帮助。

  (3)Web日志文件

  Web日志数据源主要有Web服务器日志、代理服务器日志、问题日志等。

  WEB数据挖掘的过程

  Web挖掘过程主要步骤与数据挖掘相同,不同之处在于处理对象和采用的技术方法等。根据数据挖掘的通用方法,结合WEB数据的特点,可以将WEB数据挖掘分为5步,即:

  1、 数据采样

  2、 数据预处理

  3、 建立WEB挖掘模型

  4、 分析与评估

  5、 知识表述

  这5步是WEB数据挖掘的基本过程。这一过程常常会根据WEB数据分析和调整的实际需要而反复进行。在反复中不断逼近事物的本质,不断优化解决方案。我们可以用下图将该过程表示出来:

  WEB数据挖掘的挑战

  面向Web的数据挖掘比面向数据仓库的数据挖掘要复杂得多,困难得多[4]。相对于Web传统数据库中的数据结构性很强,其中的数据为完全结构化的数据,而Web上的数据最大特点是半结构化。显然,面向Web的数据挖掘比面向单个数据仓库的数据挖掘要复杂得多。概括来讲Web数据挖掘存在以下的一些挑战:

  (1)异构数据环境

  Web上的每一个站点就是一个数据源,每一站点之间的信息和组织都不一样,因此,Web数据挖掘的数据源是异构的。如果要利用这些数据进行数据挖掘,首先,必须研究站点之间异构数据的集成问题。其次,要解决Web的数据查询问题。

  (2)半结构化数据源

  Web数据源与数据库中的数据不同,数据库都有一定的数据模型,可以根据模型来具体描述特定的数据。而Web数据非常复杂,没有特定的模型描述,每一站点的数据都各自独立设计,并且数据本身具有自述性和动态可变性。因而,Web是一种非完全结构化的数据,或称之为半结构化数据。

  (3)动态性极强的信息源

  相对于数据仓库的数据而言,WEB的数据量似乎过于庞大,而且其中的信息还在不断的更新。这使得几乎不可能去构造一个数据仓库来复制、存储和集成WEB上的所有数据。

  (4)WEB信息越来越难获取

  早期的WEB信息是简单的HTML文件,web挖掘工具可以直接获取这些信息,而且WEB站点也没有对WEB抓取工具进行防护。随着ASP,JSP以及WEB数据库技术的发展,许多页面都是动态从数据库中调用生成,这一切都为WEB挖掘设置了越来越多的障碍。

  (5)WEB信息只有少量有用

  Internet上的绝大部分信息对特定的用户是没有意义的,一个人只关心WEB上很小一部分信息,WEB所包含的其余信息对用户来说是不感兴趣的,而且会淹没所希望得到的搜索结果。因此,在进行WEB挖掘的一个重要工作就是根据用户需求确定需要挖掘站点的范围。

  WEB数据挖掘任务分类

  WEB挖掘是在internet上获取知识的过程,它是从WWW相关的资源和行为中抽取用户感兴趣的有用的模式和隐含的信息。WEB上信息的多样性决定了WEB挖掘任务的多样性,按照处理对象的不同,WEB挖掘一般可以分为三大类:WEB内容挖掘,WEB结构挖掘和WEB使用挖掘。

  参考文献

  [1] Ian H. Witten, Eibe Frank. Data Mining: Practical Machine Learning Tools and Techniques, Second Edition .Morgan Kaufmann co.,Itd, 2006

  [2]LoriChordas. Building a better warehouse, Best's Review, 2001:101 117-121(12),9-12.

《浅析基于Web数据挖掘分析论文》

本文由职称驿站首发,您身边的高端学术顾问

文章名称: 浅析基于Web数据挖掘分析论文

文章地址: https://m.zhichengyz.com/p-24424

相关内容推荐
一定不能错过!4本见刊快录用高的核心期刊推荐,覆盖多学科
oa sci生物类期刊有哪些?推荐10本
会计著作副主编评高级会计职称有用吗
肠道免疫相关的SCI期刊推荐9本
高级工程师职称评定要发论文还是出版著作
41本民族学与文学方向AMI收录期刊
土木工程2区sci期刊推荐9本
A类核心学术论文难发吗
未能解决您的问题?马上联系学术顾问

未能解决您的问题?

不要急哦,马上联系学术顾问,获取答案!

免费获取
扫码关注公众号

扫码关注公众号

微信扫码加好友

微信扫码加好友

职称驿站 www.zhichengyz.com 版权所有 仿冒必究
冀ICP备16002873号-3