4.2 数据预处理
数据预处理保证Web使用挖掘质量的关键环节之一,它主要包括四个方面:(1)数据净化删除采集数据中的无用信息;(2)用户识别是从日志数据中识别出有多少个用户,确定哪些信息是同一个用户留下的;(3)会话识别是在用户识别的基础上,将同一个用户访问记录按照不同的访问时间段区分开来;(4)格式化是数据预处理的最后一个步骤,在这个步骤中,将预处理完的数据转换成符合挖掘算法要求的格式存储起来,供以后挖掘使用。
4.3 数据分析
数据分析是运用挖掘算法对预处理后的数据进行分析,从中发现隐含的知识。不同的挖掘目的会使用不同的挖掘算法:(1)统计分析是数据挖掘中最常用的方法,它主要是通过对日志数据的统计;(2)关联规则用于挖掘用户之间、页面之间及用户和网上行为之间存在的潜在关系;(3)序列模式是在一组时间有序的事务活动中,找出事务发生的先后次序;(4)分类聚类主要是根据用户的询问历史或过去所需信息的历史来判断用户需要什么样的信息等。
5 结束语
云计算是传统计算机技术和网络技术发展融合的产物,也是引领未来信息产业创新的关键战略性技术和手段。随着计算机网络的迅猛发展,使得网络上的各种资源信息异常丰富,而数据的迅速增加与数据分析方法的滞后之间的矛盾,也越来越突出人们希望在对已有的大量数据分析的基础上,进行科学研究、商业决策或者企业管理,而基于云计算的Web数据挖掘正是为了解决传统分析方法的不足,并针对大规模数据分析处理而出现的,Web数据挖掘技术的发展给科技的发展、经济的推动和每个人的生活都带来了巨大的便利,云计算下的Web数据数据挖掘的应用领域不断地拓宽和深入,特别是在电信、军事、生物工程和商业智能等方面的应用将成为新的研究热点。
参考文献
[1] 李广建.Web信息系统导论[M].北京:高等教育出版社.2008.
[2] 李建卓.云计算及其发展综述[J].宝鸡文理学院学报(自然科学版),2010,30(3).
[3] 雷万云.云计算技术、平台及应用案例[M].北京:清华大学出版社.2011.
|