命名实体是现实世界中的具体或者抽象但具有 特定意义的实体,从海量信息中获取其蕴含的内在 知识,需要研究对命名实体、实体关系的挖掘.社会 媒体生成的海量网络数据中,实体类型越来越多,力 度越来越细,关系越来越繁杂.对于实体关系的挖 掘,研究人员提出了基于规则[57]和基于机器学习[58] 的方法.2007年,Getoor等提出统计关系学习是里 程碑式的技术[5 9 ],突破了传统统计模型对于研究对 象同类型、不相关的两个假设,可以更全面地表达领 域知识.目前,实体和关系的挖掘仍是网络数据挖掘 领域关注的研究问题,存在很多亟待解决的问题,例 如对新涌现出的实体的抽取与识别,挖掘结果的可用性和可理解性,大规模高效知识库、本体库语义网络的构建等. 5.2基于结构信息的社会计算 社会网络是以社会媒体中的用户为节点,用户 间的关系为连边而构建的网络.它既是用户间社会 关系的反映,也是用户之间进行信息交互的载体.具有关系的异质性、结构的多尺度性以及网络的动态 演化性3方面特性.社会网络中个体因血缘关系或 兴趣爱好等因素而形成了连接紧密的圈子,这种内 部关系紧密而对外关系相对稀疏的结构被称为社 区.社区结构是社会网络所普遍具有的结构特征,社 区结构的存在对于网络的高效搜索、网络演化、信息 扩散等具有重要意义.针对社区结构的研究可分为 社区发现、社区结构演化等方面[60]. 社区发现[61]旨在识别出网络固有的社区结构, 按照节点间的连边关系把节点划分成若干节点组, 使得节点内部的连边相对稠密,不同节点之间的连 边相对稀疏.Girvan和Newman[624^出分裂式层次 聚类方法,是一种自顶向下的社区分割过程;文 献[3]提出模块度概念,采用一种被假定没有社区 结构的网络作为参照网络,对于一个给定的网络划 分,通过对比原有网络和参照网络中处于该划分的 各个分量内部边的比例,给出一种度量网络划分质 量的方法;对于重叠社区结构的研究,Palla等人[64] 提出了一种基于完全子图渗流的社区发现方法,已 应用到生物、信息、社会等网络中;进一步,文献[65] 定义新的网络模块度,采用聚合式层次聚类的方式, 提出了能够同时揭示网络层次重叠社区结构(如 图4所示)的社区发现方法. 社区演化是网络自身结构与在其上频繁发生的 交互过程相互作用的结果.社区演化分析主要研究 社区随时间变化的情况,并分析导致这些变化的机 制和原因,包括社区的形成、生长、缩减、合并、分裂 和消亡等.在动态演化过程网络建模研究方面, BarabCsi和Albert[66]提出了著名的BA网络生成模 型,建立了网络微观机制和宏观拓扑结构特征的关联 规律.文献[67]基于完全子图渗流社区发现方法研究 社区演化,得出了小社区稳定性是保证其存在的前提 而大社区的动态性是存在的基础的结论.随着含时间 数据的积累,关于社区演化的研究将会是一个热点. 6网络数据平台系统与应用 为了应对网络大数据的发展趋势,更好地为企 业和个人提供数据分析的需求,亟需构建各类不同 的网络大数据平台,支持用户对数据的多种需求.下 面我们从数据平台建设、基于数据平台的高端数据 分析以及网络大数据平台的应用3个角度总结相关的内容. 6.1网络大数据平台引擎建设 构建网络大数据平台就是要将不同渠道、不同 来源、不同结构的数据进行有机的整合.与传统数据 平台不同的是,网络大数据海量的规模、多样的类 型、快速的流动和动态的体系以及巨大的价值是大 数据平台构建需要重点考虑的几个因素.除此之外, 数据的分类存储、数据平台的开放性、数据的智能处 理以及数据平台与用户的交互都为网络大数据平台 的建设带来前所未有的挑战.网络大数据平台处理 的数据类型是多种多样的.根据数据类型的不同,网 络大数据平台可以分为不同的类型,比如本体数据 平台、企业曰常事务数据平台、流数据平台、电子商务 数据平台等等.目前这些平台的搭建已经具有了一些 有代表性的工作.如Google公司的Freebase①、微软 公司的Pr〇base?[68]、国内著名的中文信息结构 库--知网(Hownet)③等.在商用数据平台方面, IBM公司的Infosphere大数据分析平台④、天睿公 司的Teradata统一数据环境⑤以及由国内天猫、阿 里云、万网联合推出的国内首个电商云工作平台聚 石塔⑥是3个典型的数据平台. 6.2网络大数据下的高端数据分析 一个优秀的综合大数据处理平台不但可以为企 业的决策和个人的生活提供服务,甚至还可以为国 家政策的制定提供支持.首先,依托大数据平台,国 家可以分析各实体和产业之间的关联关系,从而了 解行业发展的趋势,找到影响产业发展的关键性因 素,统筹规划资金、人才、技术的良性流动与优化配 置.其次,大数据平台可以为企业提供巨大的商业价 值.企业分析人员可以分析多种多样的内容.譬如, 分析顾客偏好及顾客群体,对群体进行细分并量体裁衣般地采取独特的行动;分析具有代表性的客户 群体,采取有针对性的营销策略,进行病毒式营销和 模式推广;运用大数据模拟实境,发掘新的需求和提 高投入的回报率,进行商业模式、产品和服务的创新 等.再次,大数据平台还可以为个人的日常生活带来 诸多便利.建立在大数据平台下的互联网产业,将 深加工的信息和数据主动推送给目标用户,便于 用户结合自身喜好选择感兴趣的模式、产品和搭 配方式.除此之外,用户还可以从大数据平台中获 取更有价值的知识.通过本体知识平台,用户可以 分析知识的来源、演化过程、分析知识间的因果关 系、知识本身的歧义性和模糊性,更好地理解和关 联知识. 6.3网络大数据的应用 网络大数据平台在舆情监控、模式和关键字搜 索、数据工程、情报分析、市场营销、医药卫生等领域 具有重要的应用.举例来说,大数据平台的出现在搜 索引擎中的应用是使得搜索引擎对数据的深入加工 和处理变成现实,能够更好地理解用户的搜索意图. 用户可以不用自己去筛选信息,而是由搜索引擎根 据其搜索历史及个人偏好将有价值的信息呈现给用 户.又如,网络大数据平台催生了很多面向程序员与 数据科学家的工具(如Karmasphere和Datameer), 使得程序员将数据而非业务逻辑作为程序的主要实 体,编写出更简短的程序,更清晰地表达对数据所做 的处理.可以预见,大数据平台正在以一种前所未有 的方式改变着各行各业,对大数据平台的应用能够 更好地帮助人们获取信息并对信息进行更高效地处 理和应用. 7研究展望 当前在上述几个方向的研究工作都面临着网络 大数据带来的新问题,也意味着每个方向都有不少 的挑战.展望未来,面对网络大数据,以下几个方面 的研究将是问题的核心. 网络大数据的复杂性度量.网络大数据使人们 处理计算问题时获得了前所未有的大规模样本,但 同时网络大数据也呈现出前所未有的复杂特征,不 得不面对更加复杂的数据对象,其典型的特性是类 型和模式多样、关联关系繁杂、质量良莠不齐.网络 大数据内在的复杂性使得数据的感知、表达、理解和 计算等多个环节面临着巨大的挑战,导致了传统全 量数据计算模式下时空维度上计算复杂度的激增, 很多传统的数据分析与挖掘任务如检索、主题发现、 语义和情感分析等变得异常困难.然而目前,人们对 网络大数据复杂性及其背后的物理意义缺乏理解, 对网络大数据的分布与协作关联等规律认识不足, 对大数据的复杂性和计算复杂性的内在联系缺乏深 刻理解,加上缺少面向领域的大数据处理知识,极大 地制约了人们对大数据高效计算模型和方法的设计 能力.有鉴于此,如何量化定义大数据复杂性的本质 特征及其外在度量指标,进而研究网络数据复杂性 的内在机理是个重要的研究问题. 数据计算需要新模式与新范式.网络大数据的 诸多突出特性使得传统的数据分析、数据挖掘、数据 处理的方式方法都不再适用.因此,面对网络大数 据,我们需要有数据密集型计算的基本模式和新型 的计算范式,需要提出数据计算的效率评估方法等 基本理论.由于数据体量太大,甚至有的数据本身就 以分布式的形式存在,难以集中起来处理,因此对于 网络大数据的计算需要从中心化的、自顶向下的模 式转为去中心化的、自底向上、自组织的计算模式. 而且,网络大数据来自于数量众多的网络用户.由于 人为因素的随机性,网络大数据常常具有很高的噪 声,同时也富含着冗余数据、甚至是垃圾数据.因此, 面对网络大数据,去芜存精、化繁为简可能是必要的 处理范式之_.另外,面对网络大数据将形成基于数 据的智能,我们可能需要寻找类似“数据的体量+ 简单的逻辑”的方法去解决复杂问题. |