当前位置: > 论文中心 > 计算机论文 >

网络大数据:现状与展望(4)

时间:2015-12-21 09:53 点击:
尽管对数据表达的研究历经了很长的时间,但 是对于网络大数据的建模和表达还面临着很多新的 挑战.例如,对于海量文本数据的建模,我们需要模 型能够对更大规模的参数空间进行有效地学习,需 要能够有效地建模并解决

  尽管对数据表达的研究历经了很长的时间,但 是对于网络大数据的建模和表达还面临着很多新的 挑战.例如,对于海量文本数据的建模,我们需要模 型能够对更大规模的参数空间进行有效地学习,需 要能够有效地建模并解决数据的稀疏性所带来的问 题,需要能够对动态演化的网络大数据进行合理的 表达.此外,对于图片和多媒体数据,我们也需要进 一步探索其建模与表达方式,以便能够更加有效地 表达其内在的语义信息.
  4网络大数据存储与管理体系
  网络大数据处理的数据规模从TB级上升到 PB、EB级,面临着如何降低数据存储成本、充分利 用计算资源、提高系统并发吞吐率、支持分布式的非 线性迭代算法优化等众多难题.
  4.1分布式数据存储
  Google 公司提出的 GFS、MapReduce、BigTable 等技术是分布式数据处理技术的具体实现,是 Google搜索引擎系统三大核心技术.此后,Apache 软件基金会推出了开放源码Hadoop和HBase系 统,实现了 MapReduce编程模型、分布式文件系统 和分布式列簾数据库.Hadoop系统在Yahoo !、 IBM、百度、Facebook等公司得到了大量应用和快 速的发展.但作为一个新兴的技术体系,分布式数据 处理技术在支持大规模网络信息处理及应用等大数 据计算应用方面还存在着很多不足.
  行存储(Row-Store)和列存储(Column-Store) 是两种典型的数据库物理存储策略.行存储方式较 为传统,它在磁盘中依次保存每条记录,比较适合事 务操作;列存储方式垂直划分关系表,以列为单位存 储数据,列存储还具有数据压缩(Compression)、 延期物化(Late Materialization)、块循环(Block Iteration)等特性[42].由于数据分析任务往往仅使用 较少字段,因此列存储方式的效率更高.数据分析任 务在大数据应用中更为常见,因此许多系统尽管无法 完全实现列存储的所有特性,但也或多或少地借鉴了 相关概念,包括BigTable、HBase等[43].文献[44]提 出了行列混合式数据存储结构(RCFile)以解决海量 数据快速加载、缩短查询响应时间、磁盘空间高效利 用等问题(如图2所示).RCFile融合了行存储和列 存储的优点,通过行组划分降低数据加载开销,通过 列数据压缩提高存储空间利用率.国际上应用最广 泛的两大分布式数据分析系统Hive和Pig均集成 了 RCFile技术.RCFile已经成为分布式离线数据 分析系统中数据存储结构的事实标准.
  分布式数据存储是网络大数据应用的一个重要 环节.但目前的研究工作仍存在一些局限性.针对海 量数据存储和处理所面临的数据总量超大规模、处 理速度要求高和数据类型异质多样等难题,需要开 发支持高可扩展、深度处理的PB级以上分布式数 据存储框架,同时需要研究适应数据布局分布的存 储结构优化方法,以提高网络大数据存储和处理效 率,降低系统建设成本,从而实现高效、高可用的网 络大数据分布式存储.
  4. 2数据高效索引
  目前的主流查询索引技术是以Google公司的 BigTable为代表的列簇式NoSQL数据库.BigTable提出了 一种介于关系模型和Key-Value对模型之间 的新数据模型:Ordered Table. Ordered Table 模型 提供了稀疏的、分布式的、持久存储的、基于主键 排序的映射,数据由行、列和时间戳表示.BigTable 中表的Scheme非常灵活,可以在运行时修改. Ordered Table模型可以对基于主键的区间查询 提供有力的支持,对于涉及多个字段数据的多维区 间查询主要采用二级索引技术,但这引起了性能问题.
  为避免大量随机读,另一种思路是使用聚簇索 引,即同时按索引顺序存储全部数据.为保证多个查 询列均有很好的性能,需要按多个索引列聚簇,但这 将导致存储开销成倍增长.此外还面临着因统计信 息的缺失带来的新的挑战.关系数据库领域处理多 个维度的查询优化时,关键是根据表的统计信息估 算子查询的代价,比如通过记录数量、数据分布的直 方图等估算结果集大小、需要读取的数据块数量等.
  文献[45]提出的互补式聚簇索引(CCIndex), 利用多副本为每个索引列各创建_张互为补充的聚 簇索引表,使得索引列上的区间查询对应聚簇索引 表的连续扫描(如图3所示).解决了 NoSQL数据 库的二级索引技术因无法保持连续扫描特性而处理 效率低下的问题.同时,结合查询结果集估算方法, 以挑选最优查询计划.通过禁用底层存储系统的副 本机制来避免引入额外的存储开销,并提供增量式 的快速数据恢复机制.目前,CCIndex技术已应用在 淘宝的数据魔方中.
  4.3数据世系管理
  数据世系(Data Provenance)[46]包含了不同数 据源间的数据演化过程和相同数据源内部数据的演 化过程.数据世系一般有两类基本方法,非注解的方 法和基于注解的方法.前者采用模式映射方式使用 数据处理函数和其相对应的反向函数,但在更复杂 的例子中可能并不存在集合之间的可逆函数,必须 使用注解描述世系.事实上基于注解的方法的应用 范围要远远高于非注解的方法.
  数据世系可针对多种数据类型,包括关系型数 据、XML数据和不确定数据等.自20世纪90年代 以来,数据世系的研究取得很大的进展[47-48],并且应 用到了多个领域之中.面对网络大数据,数据世系管 理的研究工作需关注以下几个方面[49]: (1)传统的 数据管理下的数据世系的管理还有很多的工作亟待 考虑,其中考察数据的起源和演化过程将是一个大 的挑战;(2)在网络环境下不确定性数据广泛存在,并且具有多种多样的表现形式.数据的演化过程同 时也伴随着数据不确定性的演化,可以利用数据的 世系追踪数据不确定性的来源和演化过程;(3)如 何解决异构世系标准的融合问题.大数据应用将涵 盖更多的原本可能相互隔离的数据集合,如何将适 用不同标准的数据世系信息整合在一起是一个关键 问题.
  5网络大数据挖掘和社会计算
  利用计算技术对网络大数据进行挖掘分析,发 现蕴含的知识,研究社会运行的规律与发展趋势,是 挖掘网络大数据的深层价值和实现社会行为可计算 的主要途径.随着社会媒体的涌现,持续增长的用户 数据在规模和复杂性上都有着指数式的攀升,导致 传统的挖掘和计算方法在性能和效用上遇到了严重 的瓶颈.基于内容信息的数据挖掘和基于结构信息 的社会计算是目前网络大数据挖掘和社会计算领域 的研究热点.
  5.1基于内容信息的数据挖掘
  语言是社会媒体最重要的表现形式,文本是社 会媒体中用户表达信息的最重要的方式.基于内容 信息的数据挖掘包括网络搜索技术与实体关联分析 等主要研究内容.
  社会媒体的出现为互联网信息搜索提出了新的 挑战,研究的热点从传统的海量数据抓取、索引结构 优化和用户查询分析等转移到了排序学习算法,专注 于提高检索质量.排序学习模型将文档表示为特征向量,以损失函数为优化目标,寻找在检索领域中常用 的评价准则下最好的排序函数,常见的排序学习算法可以分为逐点(Pointwise,如McRank[50])、逐对 (Pairwise,如 RankBoost[51]、RankNet[52])和逐列 (Listwise,如 ListNet[53]、AdaRank[54]、SVM-MAP[55]) 3类方法.现有模型在处理用户需求相关性、多样性 和重要性等不同目标排序方面仍有不足.此外,社会 媒体中需要关注数据的短文本特征、对简短关键 词表达的深入理解和分析,掌握用户真实的查询.

   论文榜(www.zglwb.com),是一个专门从事期刊推广、投稿辅导的网站。
本站提供如何投稿辅导,寻求投稿辅导代理,快速投稿辅导,投稿辅导格式指导等解决方案:省级投稿辅导/国家级投稿辅导/核心期刊投稿辅导//职称投稿辅导。


栏目列表
联系方式
推荐内容
 
QQ在线咨询
投稿辅导热线:
189-6119-6312
微信号咨询:
18961196312