在此基础上,采用分布式数据管理架构[27],将元数据分散在多个节点上,以目录为粒度对元数据进行划分,并根据集群负载状况建立目录子树,实现元数据在集群中的合理分布与存储,解决元数据服务器性能瓶颈问题,提高可扩展性。
4 基于网格的遥感图像快速处理技术
快速生产标准遥感产品需要开发系统具有大吞吐量的、高精度的以及自动化的数据处理能力。海量遥感数据的高效处理及其标准产品的快速生成属于数据密集型的计算工作,而传统计算模式无法满858 地球科学进展无法满足这种遥感图像实时快速处理的应用需求,因此,需要充分利用庞大的网络计算资源,通过集群计算、分布式处理等技术来实现网络化大容量数据处理及多机分布式并行处理。基于网格计算模式,开发基于网格计算的图像处理中间件,以及影像处理算法和数据质量评价,可集中实现对海量遥感图像的快速处理及应用。
4. 1 网格计算模式
利用网格技术[28]可以把分散于不同地理位置的计算机集中起来组织成一个虚拟超级计算机,为完成数据密集型的计算任务提供高吞吐量、高性能的计算环境; 同时充分利用网络上一些闲置资源设备及其处理能力,完成传统计算模式下难以完成的各种大数据量的计算任务,保证卫星数据快速处理以及标准产品生成。
4. 2 图像处理中间件
根据用户具体任务以及网格计算资源实际情况,对图像处理任务进行分割管理[29],并将分割任务及其执行任务所需程序和参数提交给中央管理服务器,通过中央管理器分发给网格计算资源中各个节点。完成图像处理后,再将各个计算节点上作业的计算执行结果返回到中央管理节点服务器进行数据合成。在处理过程中,还需要监控网格平台中计算资源的状况,包括工作状态、闲置状态以及各节点上作业执行情况等。
4. 3 影像处理及数据质量评价
由于遥感平台运动、地球自传等因素影响,卫星遥感对地观测所获得的影像会在几何上产生形变、在灰度上产生衰减。为了能从对地观测数据中精确提取所需地理空间信息,必须对获取的遥感影像进行影像处理,因此开发影像处理算法,包括遥感影像精确几何纠正算法和辐射校正算法,同时建立卫星数据质量评价体系。
5 卫星遥感大数据深度分析与地学知识发现技术
在数据量增大、信息提取精度高等需求下,从对地观测数据和时空信息中发现地学知识,需要解决海量遥感数据深度分析的新模式问题。目前,以Hadoop-MapReduce 为代表的非关系数据分析技术,以其适合非结构化数据处理、大规模并行处理等突出优势,在海量数据存储与分析应用领域中取得了重大进展,已成为大数据分析的主流技术。尽管如此,Hadoop 在应用性能等方面仍存在问题,其编程模型处于较低层次。针对不同数据分析任务,需要开发不同MapReduce 程序进行处理,使系统具有高扩展性大数据分析能力。在进行海量卫星遥感数据深度分析与地学知识发现时,可建立反映地面参数时空变化信息及其关联的卫星图像数据仓库,开发基于Hadoop 的高扩展性数据分析算法以及统一框架的时空分析具体任务,包括聚类、关联、分类、时序分析、不确定性挖掘以及知识表达与解释。
5. 1 卫星图像数据仓库
从应用深度上,可将遥感大数据分析划分为3个层次空间,即: ①数据空间。在该空间上利用现有数据库管理系统的查询检索功能,进行基于关键字或字段的信息查询,实现联机事务处理。②聚合空间。从时空数据集中获取满足空间与时间约束的时空对象集合,在该空间上利用聚集运算,并结合多维分析和统计分析,实现联机分析处理,以提供决策参考的统计分析。③影响空间。按照相似性的聚类,发现关联性、相似时序、分类结构以及不确定性知识等。按照这种层次空间建立卫星图像数据仓库,并从数据仓库中发现隐含的有用信息。
5. 2 基于Hadoop 的高扩展性数据分析算法
针对大数据计算模式和处理环境,利用Hadoop[30],并结合MapReduce 编程模型,可采用一种基于数据本地化计算的数据分析技术[31, 32],包括数据分布策略和数据挖掘算法2 个方面。
数据分布策略将逻辑相关数据聚集存储在相同节点上,对其特定属性进行哈希操作,使得属于同一哈希分区的数据以及属于不同数据表但具有相同哈希分区序号的数据能够集中存放在同一节点上。哈希技术将数据表在机群上进行分布,以分区作为处理单位,分析算法只需执行Map 任务,进行分析处理并直接完成结果输出,从而可以避免Reduce 操作带来的巨大时间开销,大幅度提升连接查询与分析处理的效率。
然后在MapReduce 上开发增量式模式挖掘快速算法,针对对地观测系统在时间粒度、空间尺度、语义层次上的时空聚类、时空关联等特征,通过遥感卫星数据的时空分析,提取面向不同时空知识类型与形式的高层时空模式,建立聚类、关联、时序、分类、不确定性等挖掘为一体的统一模式知识发现体系框架,实现高效的模式分析与挖掘以及知识表达解释。
6 基于共享知识库的多数据中心协同处理及云平台技术
对地观测活动的最终目标是以满足用户需求为导向,为不同应用需求的用户提供有价值的卫星数据产品和信息资源。因此,通过建立分布式多中心计算环境,实现海量卫星数据分布式存储与共享,使用户能从不同节点方便地获取所需数据、并能直接获得数据分析与知识发现中有价值信息。实现该目标的关键在于建立共享知识库、多中心协同计算以及分布式高性能的卫星图像数据管理与归档。
6. 1 共享知识库
通过卫星数据管理中心主节点的一级知识目录( 即共享知识库) 及操作工具,从宏观上引导用户使用所发现的信息。同时通过常驻在各个分节点上的二级知识目录,提供详细信息的线索,使用户能进一步了解信息,确定需要获取的信息内容、获取途径和方法,并支持通过网络传输查询结果。对内部用户,通过知识目录及操作工具,既可查询检索其他站点的信息,也可维护管理自己的知识目录。对外部用户,通过知识目录及其浏览工具发现信息、概略或详细地了解信息,并通过适当途径获取信息。同时信息共享知识实施还应包括提供使用卫星数据服务界面的详细描述。
6. 2 多中心协同计算
通过构建分布式多中心计算环境,开发算法实现有效地调度计算资源以及跨异构系统高性能计算,将独立的或大量松散绑定的数据处理任务动态地分配给闲置计算资源,实现动态资源调度及任务分配。
6. 3 分布式高性能卫星遥感信息归档云平台 |