如上所述,网络大数据面临着来自诸多方面的 挑战.但从研究的角度来说,根本挑战在于其复杂 性、不确定性和涌现性.对这3个基本特性的研究决 定着网络大数据的发展趋势、研究进展和应用前景. 2.1网络大数据的复杂性 复杂性造成网络大数据存储、分析、挖掘等多个 环节的困难.网络大数据的复杂性主要包括数据类 型的复杂性、数据结构的复杂性和数据内在模式的 复杂性. (1)数据类型复杂性.信息技术的发展使得数 据产生的途径不断增加,数据类型持续增多.相应 地,则需要开发新的数据采集、存储与处理技术.例 如社交网络的兴起,使得微博、SNS个人状态信息 等短文本数据逐渐成为互联网上的主要信息传播媒 介.与传统的长文本不同,短文本由于长度短,上下 文信息和统计信息很少,给传统的文本挖掘(如检 索、主题发现、语义和情感分析等)带来很大的困难. 相关的研究包括利用外部数据源(如Wikipedia[s]、 搜索结果[7]等)扩充文档,或者利用内部相似文档信 息来扩充短文本的表达[8 ].然而,无论是利用外部数 据,还是利用内部数据,都可能引入更多的噪声.另 一方面,不同数据类型的有机融合给传统的数据处 理方法带来了新的挑战.例如在社交媒体的研究当 中地域信息与内容的融合[]、时空信息与内容信息 的结合[10]等等. (2)数据结构的复杂性.传统上处理的数据对 象都是有结构的,能够存储到关系数据库中.但随着 数据生成方式的多样化,如社交网络、移动计算和传 感器等技术,非结构化数据成为大数据的主流形式. 非结构化数据具有许多格式,包括文本、文档、图形、 视频等等.非结构化数据当中蕴含着丰富的知识,但 其异构和可变的性质也给数据分析与挖掘工作带来 了更大的挑战.与结构化的数据相比,非结构化数据 相对组织凌乱,包含更多的无用信息,给数据的存储 与分析带来很大的困难.目前相关的研究热点,包括 开发非关系型数据库(如Google的BigTable,开源 的HBase等)来存储非结构化数据.Google提出了 MapReduce 计算框架,Yahoo !、Facebook 等公司在 此基础上实现了 Had〇〇p、Hive之类的分布式架构, 对非结构化数据做基本的分析工作.国内各大公司 和科研单位也启动了用于支撑非结构化处理的基础 设施研发,如百度的云计算平台、中国科学院计算技 术研究所的凌云(LingCloud)系统等. (3)数据模式的复杂性.随着数据规模的增大, 描述和刻画数据的特征必然随之增大,而由其组成 的数据内在模式将会以指数形式增长.首先,数据类 型的多样化决定了数据模式的多样化.不仅需要熟 悉各种类型的数据模式,同时也要善于把握它们之 间的相互作用.这种面向多模式学习的研究需要综 合利用各个方面的知识(如文本挖掘、图像处理、信 息网络、甚至社会学等等).为此,Sun提出用网络 来描述异质数据间的关系,同时提出了“元路径 (Meta-Path)”的概率来刻画目标数据模式[11].这 样,通过定义合适的元路径,便可在数据网络中挖掘 有价值的模式.其次,非结构化的数据通常比结构化 数据蕴含更多的无用信息和噪声,网络数据需要高 效鲁棒的方法来实现去粗存精,去冗存真.搜索引擎 就是从无结构化数据中检索出有用信息的一种工 具.尽管搜索技术在工业上已经取得极大的成功,但 仍然存在很多不足(如对一些长尾词的查询,对二义 性查询词的理解等),都有待进一步提高.另外,网络 大数据通常是高维的,往往会带来数据高度稀疏与 维度灾难等问题.在这种情况下,由于数据模式统计 显著性较弱,以往的统计学习方法多针对高频数据 挖掘模式,因此难以产生令人满意的效果.近年来, 受实际应用驱动,高维稀疏问题成为了统计学习领 域的热点问题[12].相关理论研究发现,基于稀疏表 达的学习方法(如LASSO等),在获得较好学习效 果的同时,还具有更高的效率和鲁棒性[13]. 2.2网络大数据的不确定性 不确定性使得网络数据难以被建模和学习,从 而难以有效利用其价值.网络数据的不确定性包括 数据本身的不确定性、模型的不确定性和学习的不确定性. (1)数据的不确定性.原始数据的不准确以及 数据采集处理粒度、应用需求与数据集成和展示等 因素使得数据在不同维度、不同尺度上都有不同程 度的不确定性.传统侧重于准确性数据的处理方法, 难以应对海量、高维、多类型的不确定性数据.具体 而言,在数据的采集、存储、建模、查询、检索、挖掘等 方面都需要有新的方法来应对不确定性的挑战[14]. 近年来,概率统计的方法被逐步应用于不确定性数 据的处理中.一方面,数据的不确定性要求我们使用 不确定的方法加以应对;另一方面,计算机硬件的发 展也为这类方法提供了效率、效能上的可能.目前, 该领域研究尚浅,在学术界和产业界尚有大量问题 亟待解决. (2)模型的不确定性.数据的不确定性要求对 数据的处理方式能够提出新的模型方法,并能够把 握模型的表达能力与复杂程度之间的平衡.在对不 确定数据的建模和系统设计上,最常用且朴素的观 点是“可能世界模型”[15].该观点认为,在一定的结 构规范下,应将数据的每一种状态都加以刻画.但该 种模型过于复杂,难以用一种通用的模型结构来适 应具体的应用需求.在实际应用中,我们往往采取简 化的模型刻画不确定性数据的特性,如独立性假设、 同分布假设等等.尤其值得注意的是,概率图模 型[16]由于具有很强的表达能力而且可对数据相关 性进行建模,因此已被广泛应用在不确定数据的建 模领域.另外,在数据的管理和挖掘上面,不确定性 模型的构建应当考虑到数据的查询、检索、传输、展 示等方面的影响[17]. (3)学习的不确定性.数据模型通常都需要对 模型参数进行学习.然而,在很多情况下找到模型的 最优解是NP问题,甚至找到一个局部最优解都很 困难.因此很多学习问题都采用近似的、不确定的方 法来寻找一个相对不错的解.但在大数据的背景下, 传统近似的、不确定的学习方法需要面对规模和时 效的挑战.随着多核CPU/GPU的普及以及并行计 算框架的研究,分而治之的方法被普遍认为是解决 网络大数据问题一条必由之路.如何将近似的、不确 定的学习方法拓展到这种框架上成为当前研究的重 点.近年来,不少高校和研究机构,在该领域做出了 探索.如在矩阵分解运算中对数据进行分块的计算 方法能够利用多台机器并行计算,从而提高数据的 处理速度[1819].此外,除了学习模型参数值的不确定 外,模型的复杂性和参数个数也受到不同领域、不同 数据类型和应用需求的影响而不能提前确定.近年 来,在统计学习领域,非参模型方法的提出[20^21]为自 动学习出模型复杂度和参数个数提供了一种思路. 但该类模型计算上较为复杂,如何分布式地、并行地 应用到网络大数据的处理上,还是一个开放问题. 2.3网络大数据的涌现性 涌现性是网络数据有别于其它数据的关键特 性.涌现性在度量、研判与预测上的困难使得网络数 据难以被驾驭.网络数据的涌现性主要表现为模式 的涌现性、行为的涌现性和智慧的涌现性. |