当前位置: > 论文中心 > 计算机论文 >

网络大数据:现状与展望(3)

时间:2015-12-21 09:53 点击:
(1)模式的涌现性.在多尺度、异质关系的网络 数据中,由于不同的数据在属性、功能等方面既存在 差异又相互关联,因此使网络大数据在结构、功能等 方面涌现出了局部结构所不具备的特定模式特征. 在结构方面,数据之间

  (1)模式的涌现性.在多尺度、异质关系的网络 数据中,由于不同的数据在属性、功能等方面既存在 差异又相互关联,因此使网络大数据在结构、功能等 方面涌现出了局部结构所不具备的特定模式特征. 在结构方面,数据之间不同的关联程度使得数据构 成的网络涌现出模块结构.在功能方面,网络在演化 过程中会自发地形成相互分离的连通小块[2224].这 _涌现性结果对于研究更多的社会网络模型和理解 网络瓦解失效的发生有着重要意义.
  (2)行为的涌现性.随着数据采集技术的不断 发展,人们得到的很多数据都具有时序性,而社会网 络中个体行为的涌现性则是基于数据时序分布的统 计结果.在社会网络中有较大相似性的个体之间容 易建立社会关系.通过研究Schellmg给出的个体社 会关系网络模型发现,网络在演化过程中会自发地 形成相互分离的连通块,这一个体行为涌现的结果 不依赖于初始网络的拓扑结构,对于研究更多的社 会网络模型和理解行为涌现的规律具有重要意 义[25].著名网络科学家Barabasi研究发现,人们发 邮件的数量在一天的某些时刻会出现“爆发”现象, 并发现每个人连发两封邮件之间的时间间隔涌现出 幂率分布特征.此外,自然界和社会中个体之间不同 的竞争模式会导致不同的同步状态的涌现性.
  (3)智慧的涌现性.网络数据在没有全局控制 和预先定义的情况下,通过对来自大量自发个体的 语义进行互相融合和连接而形成语义,整个过程随 着数据的变化而持续演进,从而形成网络数据的涌 现语义,也可以称之为智慧涌现.作为_种特殊的智 慧涌现形式,众包正在通过互联网和社会网络快速 发展,成为_种新的商业模式、新的数据产生模式和 新的数据处理协作模式.
  总体而言,尽管与网络大数据研究密切相关的 数据库、数据挖掘、机器学习和知识工程等领域近些 年来都有很大的进展,甚至在许多不同的领域得到 了深入的应用,但由于网络大数据规模海量、关系复 杂等根本特性,使得相关领域的研究成果难以被直 接借鉴于网络大数据的研究.因此,网络大数据的研 究需要一套全新的理论和方法来进行方向性的指 导.但到目前为止,甚至连大数据的精确定义还缺乏 一个统一的标准.网络大数据科学与技术这门学科 的内涵和外延还缺乏严格的限定和详实的论证;在大数据的环境下,传统“假设、模型、检验”的科学方 法受到质疑,从“数据”到“数据”的第四范式还没有 建立,需要一个完备的新的理论体系来指导该学科 的发展和研究.
  3网络空间感知与数据表示
  网络数据具有跨媒体关联、强时效演变、多主体 互动等特点,使得我们对网络大数据的态势感知、质 量评估、融合表示等均面临新的问题.
  3.1网络大数据的感知与获取
  按照网络空间中数据的蕴藏深度,整个网络空 间可以划分为Surface Web和Deep Web[26],或称 作 Hidden Web[27].Surface Web 是指 Web 中通过 超链接可被传统搜索引擎爬取到的静态页面,而 Deep Web则由Web中可在线访问的数据库组成. Deep Web的数据隐藏在Web数据库提供的查询接 口后面,只有通过向查询接口提交查询才能获得.与 Surface Web相比,Deep Web所包含的信息更丰 富.同时,Deep Web具有规模大、实时动态变化、异 构性、分布性以及访问方式特殊等特点.为了充分利 用Deep Web中的数据资源,需要充分获取Deep Web中高质量的数据并予以集成,整个集成过程可以分为数据获取、数据抽取和数据整合3个环节. 3.2网络大数据的质量评估与采样对网络空间中多源数据进行质量评估,一方面 需要建立数据模型或提出适当的采样方法;另一方 面,需要提出对采样数据的评价与检验方法.网络数 据采样是将数据从Web数据库提取出来的过程.传 统的数据库采样是随机从数据库中选取数据记录以 获得数据库的统计信息的过程,典型方法可参考文 献[28-30].但是要获取Web数据库中的数据只能 通过向查询接口提交查询,不能自由地从Web数据 库获取记录,故而传统方法不能实现对Web数据库的采样.
  针对Web数据库采样,HIDDEN-DB-SAM- PLER[31]是第一项工作,它给出了对范围属性和分 类属性的处理方法,而对查询接口中设计的必填的 可任意取值的关键词属性未作处理.文献[3 2 ]提出 基于图模型的增量式Web数据库采样方法WDB- Sampler,通过查询接口从Web数据库中以增量的 方式获取近似随机的样本.但是该方法是针对样本 中每条数据作为顶点来建立图模型,每一轮查询后 都要将查询结果扩充到图模型中用于产生下一轮查 询词,这样做的代价比较高.
  3.3网络大数据的清洗与提炼
  由于现实世界数据的多源性、异质性以及采集 数据时的一些人工错误,导致网络数据是含有噪音、 冗余和缺失的.如何有效地衡量数据的质量是一个 重要的研究方向.文献[33]定义了衡量数据质量的 4个指标:一致性、正确性、完整性和最小性.文献[34] 提出了数据工程中数据质量的需求分析和模型,认 为存在很多候选的数据质量衡量指标,用户应根据 应用的需求选择其中一部分.
  数据的清洗建立在数据质量标准之上,为了得 到高质量的数据,清洗与提炼过程必须满足几个条 件:检测并除去数据中所有明显的错误和不一致;尽 可能地减小人工干预和用户的编程工作量,而且要 容易扩展到其它数据源;应该和数据转化相结合;要 有相应的描述语言来指定数据转化和数据清洗操 作,所有这些操作应该在一个统一的框架下完成.对 于数据清洗,工业界已经开发了很多数据抽取、转化 和装载工具(ETL t〇〇l)[35]. -些研究人员研究相似 重复记录的识别和剔除(如文献[4,36]),还有一些 研究包括数据的变换和集成(如文献[37-38]).
  3.4网络大数据的融合表示
  对网络数据的建模和表达理论方面的研究,主 要集中在网络中的 文本信息方面 对文本信息进行 表示和建模其目的是让计算机能够正确理解人类的 语言,能够分析和表达出其中的语义信息.文本信息 的表达经历了从浅层词语表达方式到深层语义表达 方式这样一个历程,其中代表性的工作包括了向量 空间表示(VSM)[29]、隐语义索引(LSI)[39]和概率话 题模型(如图1所示)40]等.随着研究不断深入,话 题模型被广泛地应用在各个领域,进一步有人提出 了改进的话题模型[41],以增强已有话题模型的学习 能力,解决其跨领域的问题等等,从而使其能更好地 应用于文本数据的表达.

   论文榜(www.zglwb.com),是一个专门从事期刊推广、投稿辅导的网站。
本站提供如何投稿辅导,寻求投稿辅导代理,快速投稿辅导,投稿辅导格式指导等解决方案:省级投稿辅导/国家级投稿辅导/核心期刊投稿辅导//职称投稿辅导。


栏目列表
联系方式
推荐内容
 
QQ在线咨询
投稿辅导热线:
189-6119-6312
微信号咨询:
18961196312