摘要:在信息化时代,各类信息的采集量和处理量增多,人们更多的是依赖于网络,所以,仅仅依靠传统的存储技术顺应不了时代的发展和需求,需要在传统处理技术的基础上建立一种大数据存储技术,确保数据存储能够满足人们的需要。基于NoSQL(非关系数据库)数据库的大数据存储技术是一种自由的存储形式,能够实时处理所搜集的各类信息,在现实中,便于人们进行各类工作。该文将基于NoSQL数据库的大数据存储技术的角度出发,对其基本概念进行相关阐释,并对其现状及在今后的应用进行分析。 关键词:大数据库;关系数据库;非关系数据库;存储技术 中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)35-8349-02 现如今,各门户网站均以互联网为基础而得到发展,如微博、微信、人人等,互联网用户增加,进入了大数据时代。基于此,人们对数据存储的要求越来越高,希望能够在之前存储的基础上,继续增大存储量。然而,关系数据库的发展并不如人意,发展速度较为缓慢,直到近几年才出现非关系数据库,以解决原来数据库中的各种问题,并适应了人们的需要。作为一项新兴技术,非关系数据不仅秉承了关系数据库的处理思路,还在此基础上进一步优化,简化了数据库的操作,在整个数据库系统中,满足了不同人群的需求。 1 相关基本概念 非关系数据库也即NoSQL,是一种新型的数据库系统,能够同时处理海量的数据,处理能力很强,论文检测因此而收到欢迎。非关系数据库是给予CAP理论和BASE理论上发展而来的,CAP理论是非关系数据库管理系统构建的基础,具体为一致性、可用性、容忍性,也就是说,在分布式环境中设计和部署系统所需要考虑的是上述三个因素;BASE理论由基本可用、软状态、最终一致性组成,强调的是数据库的最终一致性。一般情况下,一致性分为强一致性和弱一致性,强一致性要求更新过的数据能被后续的访问都看到,而弱一致性则指读取操作能够见到变化的数据,不是所有变化的数据。最终一致性是一种弱一致性,就是说存储系统在没有更新的情况下,所获得的访问都可以获得更新,从本质上来说,BASE理论是CAP理论的延伸。 2 有关非关系数据库系统的研究与应用 2.1 国外有关非关系数据库系统的研究与应用 非关系数据库系统起源于国外的一个开源数据库产品,在当时,该数据库产品所用来存储数据的是HASH TABLE,和其他的存储数据相比,该数据存储的结构较为简单,所以,很容易被人们所认可和使用,这也便是非关系数据库系统的最初模型。随着这种存储结构的不断发展,进入二十一世纪以后,互联网开始进入WEB2.0时代,国外出现了数十种不同类型的非关系数据库,主要有基于Key/Value数据存储、基于列/列族的数据存储、面向文档的数据存储和面向图的数据存储。基于Key/Value数据存储是一种半结构化数据组织形式,对唯一的Key能够做到快速定位,但却不能对Value的内容进行检索;基于列/列族的数据存储使用的是一种以列的方式组织和存储数据,在支持动态扩展的列的情况下对原来的存储不产生任何影响,具有良好的扩展性,但是,由于列的存储在一般传统的对行的访问上会比较复杂,不适用于检索较多的列的操作。面向文档的数据存储是一种扩展的存储,能够支持列表数据结构和嵌套的文档结构,这种数据结构非常丰富灵活,但是同时增大了使用查询上的复杂度。面向图的数据存储能够有效避免复杂的关联操作,该种数据存储主要使用的是借点、边和属性来存储数据的,所以,和其他的数据存储相比,具有速度快等优点。 2.2 国内有关非数据库系统的研究与应用 随着改革开放的不断深入,我国开始和国际接轨,并努力适应着国际环境的发展而不断提高自身的信息技术,并广泛应用各类数据库系统,而非关系数据库便是其中的一种。和关系数据库系统不同,非关系数据库所面对的是海量数据存储,所以,在存储过程中会用到大量的机器来进行存储,为了能够保证所输入信息的完整性和有用性,通常情况下,会使用到单节点数据、多节点数据等来保证输入机器的正常运转。这主要是因为单节点数据的处理方法是硬件磁盘RAID冗余存储保障硬件存储的可靠性,数据实际写入前保证相关的重做日志已经写入日志文件,这样重启后内存中的数据可以得到恢复。而多节点数据是指非关系数据库能够在多个节点上保存数据的副本,所以,即便是服务器出现故障甚至坏掉的情况下,还会有备份的数据存在,不会因此而需要重新去找数据和重新输录。另外,由于非关系数据库面对的资料数量庞大,要求系统的性能具有较强的扩展性,所以,通过多节点数据,能够支持数据的再次迁移。 当前,随着互联网的不断发展,尽管大数据的分析技术在目前还处于起步阶段,但云计算机作为非关系数据库中的一种,普遍在人们的生活中得到应用,同时,国际上在大数据存储方面的就标准化组织也开展了相应的工作,使其顺应时代的潮流。另外,非关系数据库的优势开始逐渐显现,尽管其种类颇多,但都具有去掉关系数据库的关系型特性,且非关系数据库所具有的灵活多变的数据模型和较高的可用性等特点,在很大程度上弥补了关系数据库的不足,同时还节省了开发成本的维护成本。 在大数据处理系统中,由Apache基金会开发的Hadoop实现了一个分布式文件系统HDFS,其容错性非常高,能部署在低廉的硬件上。HDFS能给用户提供高吞吐量来访问应用程序的数据,非常适合于超大数据集的大数据应用。如下图所示为Hadoop的基本组织框架。从图中可以明显看出,Hadoop具有非常强的数据处理能力,可以看到NoSQL在数据的读取和处理中所占的地位以及优势。 2009年8月正式在新浪内部运行的新浪云计算平台中也有运用NoSQL,新浪于2009年11月正式推出的云计算平台是我国的首个Alpha版本的云计算平台,它是新浪云计算战力的核心,如图2所示为NoSQL在新浪云计算平台中运用的示意图,可以看出,其中的KVDB在存储服务上起到至关重要的作用。 除了以上的几个应用外,NoSQL在众所周知的淘宝数据架构中也有非常广泛的应用。淘宝每天都有巨大的交易和交互数据资料,要保证网站运行的正常,必须有非常强硬的后台组织架构设计。在淘宝的数据处理系统中,其运用Hadoop为数据处理工具,NOSQL为数据存储介质,充分发挥NoSQL在数据处理中的优势。3 结束语 本篇文章以非关系数据库(NoSQL)为基础,对非关系数据库在当前的应用进行简单剖析,表明非关系数据库是当今时代发展的要求,其发展必须和其他最新技术相结合,克服传统数据库的缺点,尽可能提高运转速度和存储量。 参考文献: [1] 孙中廷.基于NoSQL数据库的大数据存储技术的研究与应用[J].计算机时代,2014(7). [2] 陈超,王亮,闫浩文,等.一种基于NoSQL的地图瓦片数据存储技术[J].测绘科学,2013,38(1). [3] 杨俊生.大数据时代数据存储技术的发展[J].电子世界,2014(5). [4] 张艳霞,丰继林,郝伟,等.基于NoSQL的文件型大数据存储技术研究[J].制造业自动化,2014(6). |