3 数据挖掘与LBS LBS(Location-Based Service)是与位置相关的软件服务的英文缩写,指的是一类利用和控制与位置与时间相关的计算机软件服务。LBS通常是在移动终端实现的,现在很多原本只是在互联网上的应用都有了LBS服务。基于位置的数据挖掘非常具有挑战力,如帮助用户寻找他所在地附近可能有用的商业地点,并按照一定的规则排序,实现并不那么容易。 任何与位置相关的数据挖掘的工作必不可少的第一步就是搜集关于地点的可靠数据。在这个过程中,常会面对多个不同的数据源,有些来自互联网,而有些来自于线下,所以第一步面临的常常就是数据的整合与清理。与位置相关的数据量常是在GB字节上下,对于这个量级的数据频繁的整理、提取、集成和存储都有一定的难度,但目前有一些框架和应用工具解决此问题,如Hadhoop和HBase等。各个地点之间的关联性是需要通过数据挖掘才能完成的任务。每个地点都有多种属性,而地点之间的关联度是根据他们各自的属性匹配所得到的。目前有一些相关挖掘领域及算法,如利用PU(Learning from Positive and Unlabeled examples)学习算法做文本挖掘,利用相似匹配算法做地点挖掘等。 LBS应用最有价值的地方在于藉此能够对用户做精准的地域定向,这样的广告价值相对要高很多。如一家餐馆可以对它周围1公里的用户发送折扣券,一个搬家公司可以选择对它周围10公里的用户发送广告,等等。 4 移动互联网数据存在的问题 移动互联网有它的特殊性,而移动互联网上的数据除了它的特殊价值之外,也有和传统互联网不完全相同的问题。下面从数据量、安全性和数据质量三方面分别介绍了移动互联网数据存在的问题。 4.1 数据量 移动互联网可能产生的数据量是一个需要考虑的问题。据统计,在中国,2012年约有不到6亿移动互联网用户,其中有约1.8亿是手机应用商店的使用者,而且这个数字正在飞速增长之中。每个用户产生的所有数据,包括即时的位置信息、路径信息、访问信息等都需要实时分析,那么处理数据过程的负担就加大。 4.2 安全性 互联网安全性一直是关注的热点,那么移动互联网上的安全因素也需要考虑和解决。在移动互联网上有很多恶意的应用程序,这些应用程序侵入用户的移动设备来窃取个人信息。另外,移动终端和个人身份信息密切相关,在移动互联网上更加要重视个人隐私问题。 4.3 数据质量 移动互联网的数据价值显而易见,但数据质量却令人担忧。移动互联网行业结构目前并不明朗,盈利模式也不清晰。大量的移动应用通过刷量来冲击移动互联网应用排行榜以追求投资人的青睐。大量移动互联网公司付费给水军来给自己的移动应用发五星好评,给竞争对手的应用打一星差评。这些数据所占据的比例过高,已经严重干扰了数据的准确性,而这些行为实际上大大降低了移动互联网数据的整体价值。所以提高数据质量问题不容忽视。 |