尽管对数据表达的研究历经了很长的时间,但 是对于网络大数据的建模和表达还面临着很多新的 挑战.例如,对于海量文本数据的建模,我们需要模 型能够对更大规模的参数空间进行有效地学习,需 要能够有效地建模并解决数据的稀疏性所带来的问 题,需要能够对动态演化的网络大数据进行合理的 表达.此外,对于图片和多媒体数据,我们也需要进 一步探索其建模与表达方式,以便能够更加有效地 表达其内在的语义信息. 4网络大数据存储与管理体系 网络大数据处理的数据规模从TB级上升到 PB、EB级,面临着如何降低数据存储成本、充分利 用计算资源、提高系统并发吞吐率、支持分布式的非 线性迭代算法优化等众多难题. 4.1分布式数据存储 Google 公司提出的 GFS、MapReduce、BigTable 等技术是分布式数据处理技术的具体实现,是 Google搜索引擎系统三大核心技术.此后,Apache 软件基金会推出了开放源码Hadoop和HBase系 统,实现了 MapReduce编程模型、分布式文件系统 和分布式列簾数据库.Hadoop系统在Yahoo !、 IBM、百度、Facebook等公司得到了大量应用和快 速的发展.但作为一个新兴的技术体系,分布式数据 处理技术在支持大规模网络信息处理及应用等大数 据计算应用方面还存在着很多不足. 行存储(Row-Store)和列存储(Column-Store) 是两种典型的数据库物理存储策略.行存储方式较 为传统,它在磁盘中依次保存每条记录,比较适合事 务操作;列存储方式垂直划分关系表,以列为单位存 储数据,列存储还具有数据压缩(Compression)、 延期物化(Late Materialization)、块循环(Block Iteration)等特性[42].由于数据分析任务往往仅使用 较少字段,因此列存储方式的效率更高.数据分析任 务在大数据应用中更为常见,因此许多系统尽管无法 完全实现列存储的所有特性,但也或多或少地借鉴了 相关概念,包括BigTable、HBase等[43].文献[44]提 出了行列混合式数据存储结构(RCFile)以解决海量 数据快速加载、缩短查询响应时间、磁盘空间高效利 用等问题(如图2所示).RCFile融合了行存储和列 存储的优点,通过行组划分降低数据加载开销,通过 列数据压缩提高存储空间利用率.国际上应用最广 泛的两大分布式数据分析系统Hive和Pig均集成 了 RCFile技术.RCFile已经成为分布式离线数据 分析系统中数据存储结构的事实标准. 分布式数据存储是网络大数据应用的一个重要 环节.但目前的研究工作仍存在一些局限性.针对海 量数据存储和处理所面临的数据总量超大规模、处 理速度要求高和数据类型异质多样等难题,需要开 发支持高可扩展、深度处理的PB级以上分布式数 据存储框架,同时需要研究适应数据布局分布的存 储结构优化方法,以提高网络大数据存储和处理效 率,降低系统建设成本,从而实现高效、高可用的网 络大数据分布式存储. 4. 2数据高效索引 目前的主流查询索引技术是以Google公司的 BigTable为代表的列簇式NoSQL数据库.BigTable提出了 一种介于关系模型和Key-Value对模型之间 的新数据模型:Ordered Table. Ordered Table 模型 提供了稀疏的、分布式的、持久存储的、基于主键 排序的映射,数据由行、列和时间戳表示.BigTable 中表的Scheme非常灵活,可以在运行时修改. Ordered Table模型可以对基于主键的区间查询 提供有力的支持,对于涉及多个字段数据的多维区 间查询主要采用二级索引技术,但这引起了性能问题. 为避免大量随机读,另一种思路是使用聚簇索 引,即同时按索引顺序存储全部数据.为保证多个查 询列均有很好的性能,需要按多个索引列聚簇,但这 将导致存储开销成倍增长.此外还面临着因统计信 息的缺失带来的新的挑战.关系数据库领域处理多 个维度的查询优化时,关键是根据表的统计信息估 算子查询的代价,比如通过记录数量、数据分布的直 方图等估算结果集大小、需要读取的数据块数量等. 文献[45]提出的互补式聚簇索引(CCIndex), 利用多副本为每个索引列各创建_张互为补充的聚 簇索引表,使得索引列上的区间查询对应聚簇索引 表的连续扫描(如图3所示).解决了 NoSQL数据 库的二级索引技术因无法保持连续扫描特性而处理 效率低下的问题.同时,结合查询结果集估算方法, 以挑选最优查询计划.通过禁用底层存储系统的副 本机制来避免引入额外的存储开销,并提供增量式 的快速数据恢复机制.目前,CCIndex技术已应用在 淘宝的数据魔方中. 4.3数据世系管理 数据世系(Data Provenance)[46]包含了不同数 据源间的数据演化过程和相同数据源内部数据的演 化过程.数据世系一般有两类基本方法,非注解的方 法和基于注解的方法.前者采用模式映射方式使用 数据处理函数和其相对应的反向函数,但在更复杂 的例子中可能并不存在集合之间的可逆函数,必须 使用注解描述世系.事实上基于注解的方法的应用 范围要远远高于非注解的方法. 数据世系可针对多种数据类型,包括关系型数 据、XML数据和不确定数据等.自20世纪90年代 以来,数据世系的研究取得很大的进展[47-48],并且应 用到了多个领域之中.面对网络大数据,数据世系管 理的研究工作需关注以下几个方面[49]: (1)传统的 数据管理下的数据世系的管理还有很多的工作亟待 考虑,其中考察数据的起源和演化过程将是一个大 的挑战;(2)在网络环境下不确定性数据广泛存在,并且具有多种多样的表现形式.数据的演化过程同 时也伴随着数据不确定性的演化,可以利用数据的 世系追踪数据不确定性的来源和演化过程;(3)如 何解决异构世系标准的融合问题.大数据应用将涵 盖更多的原本可能相互隔离的数据集合,如何将适 用不同标准的数据世系信息整合在一起是一个关键 问题. 5网络大数据挖掘和社会计算 利用计算技术对网络大数据进行挖掘分析,发 现蕴含的知识,研究社会运行的规律与发展趋势,是 挖掘网络大数据的深层价值和实现社会行为可计算 的主要途径.随着社会媒体的涌现,持续增长的用户 数据在规模和复杂性上都有着指数式的攀升,导致 传统的挖掘和计算方法在性能和效用上遇到了严重 的瓶颈.基于内容信息的数据挖掘和基于结构信息 的社会计算是目前网络大数据挖掘和社会计算领域 的研究热点. 5.1基于内容信息的数据挖掘 语言是社会媒体最重要的表现形式,文本是社 会媒体中用户表达信息的最重要的方式.基于内容 信息的数据挖掘包括网络搜索技术与实体关联分析 等主要研究内容. 社会媒体的出现为互联网信息搜索提出了新的 挑战,研究的热点从传统的海量数据抓取、索引结构 优化和用户查询分析等转移到了排序学习算法,专注 于提高检索质量.排序学习模型将文档表示为特征向量,以损失函数为优化目标,寻找在检索领域中常用 的评价准则下最好的排序函数,常见的排序学习算法可以分为逐点(Pointwise,如McRank[50])、逐对 (Pairwise,如 RankBoost[51]、RankNet[52])和逐列 (Listwise,如 ListNet[53]、AdaRank[54]、SVM-MAP[55]) 3类方法.现有模型在处理用户需求相关性、多样性 和重要性等不同目标排序方面仍有不足.此外,社会 媒体中需要关注数据的短文本特征、对简短关键 词表达的深入理解和分析,掌握用户真实的查询. |