多源异构动态大数据融合技术
发布时间:2017-03-30

 

单位:北京中科特瑞科技有限公司

1. 技术简介

大数据融合(Big data integration, BDI)是把来自动态数据源的大量异构的数据联系或整合在一起。现存的数据挖掘中的数据仓库技术对于处理这种情形是没有效率的。

一般认为,BDI与传统的数据整合的主要差别是:

(1)即使在单一领域,数据源的数目也增长为上万的级别; 

(2)许多数据源是动态的; 

(3)数据源在结构方面是非常异质的; 

(4)数据源在覆盖性、精确性以及时间线属性方面具有重大的差别。

本项目将试图在ETL 以及计划等工具整合的框架中,统一使用透视图方式来创建数据转换、作业来进行BDI,同时构建数据检查的机制,从而允许对数据进行快速地迭代更改,构建计划机制来解决动态数据的问题,允许定时运行数据集成作业并设置定时间隔自动将输出发送到首选目标。

我们认为在同源异构动态的大数据聚合的应用技术研究上,目前已经进入到可以整合各种技术手段,采取同一路径的方式来实现数据的提取、转换和加载(Extract, Transform, and Load,ETL)功能,可以采用统一并且一致的格式来捕获、清理和存储数据,该格式可访问并与最终用户和物联网技术相关。

该技术的创新点在于,它可以完成:

(1)不同数据库和应用程序之间的数据迁移; 

(2)将巨大的数据集加载到数据库中,充分利用云、群集和大规模并行处理环境; 

(3)使用从非常简单到非常复杂的转换步骤进行数据清理; 

(4)能够利用实时 ETL 作为数据源的数据集成; 

(5)借助对缓慢变化的维度和代理键创建的内置支持进行数据仓库填充。