数据治理的本质是帮助企业创建数据策略,并确保大家能够遵守这些策略。这些策略涉及一系列数据相关流程,包括数据保护、验证和使用的准则。数据管理人员必须从业务用户处征求数据需求,并与数据治理委员会成员合作,以就常见的数据定义达成一致,指定数据质量指标,阐明相关的策略,并开发出衡量合规性的方法。
然而,在定义数据治理策略和实现它们之间架起一座桥梁,往往是一个巨大的挑战。这些策略的目的是对跨业务工作流的数据资产质量进行控制和监督,但是承担关键的数据质量管理职责的数据管理人员,通常没有得到适当的培训或不具备合格的技术。
这就是数据沿袭(Data Lineage)工具的用武之地。基于元数据的数据沿袭信息记录了数据对象在组织系统中的旅程。沿袭记录可以帮助数据分析师和其他最终用户理解他们所使用的数据,但是它也简化了两个关键的数据治理过程:分析数据质量问题的根本原因和源系统中数据集更改的影响。
数据沿袭和数据治理
如果无法确定是在数据管理环境中的哪些地方引入了数据错误,数据管理员和数据质量分析师就很难去识别和修复它们。这样做的后果是:如果数据缺陷继续在系统中传播,组织可能会常常被不一致或不准确的分析和报告所困扰,从而带来业务运营中的错误决策。
在根本原因分析过程中,数据沿袭工具提供了对处理阶段序列的可见性——通过被检查的数据流。可以在每个阶段检查数据的质量,从而使数据治理和数据质量团队能够找到数据错误产生的位置。
从第一次发现错误的位置开始,数据管理员可以在更早的位置插入控件,以监视数据是否符合当时定义的期望或是否出现了错误。通过确定在哪一个处理阶段,数据进入时符合但在退出时存在缺陷,数据管理员和数据治理程序中涉及的其他工作人员就可以专注于消除根本原因,而不是仅仅纠正错误的数据。
数据沿袭工具还可以帮助数据管理员进行影响分析,以了解数据管理环境中源数据格式和结构更改所引起的问题,鉴于现在的数据管理环境一般比过去更加动态化。
当源数据发生变化时,可能会在下游产生意想不到的后果。通过从数据创建或收集的角度向前工作,数据管理员可以依赖数据沿袭文档来帮助跟踪数据依赖关系,并确定受数据更改影响的处理阶段。这使得数据治理和数据管理团队能够重新设计受影响的阶段,以适应更改,并确保不同系统中的数据保持一致。
如何选择数据沿袭工具
手动收集元数据和记录数据沿袭需要大量的资源投资,还容易出错,这可能会带来大问题,特别是在依赖数据分析来驱动业务运营的组织中。因此,数据治理需要寻找能够管理数据沿袭表示的工具,并自动将它们映射到整个企业。
在技术评估过程中,你应该寻找符合这些要求的数据沿袭工具:
·能够本机访问大量数据源和数据产品,调查它们包含的元数据,并收集元数据以供数据治理使用。
·能够将捕获的元数据聚合到一个集中的存储库中。
·能够推断数据类型,并将引用数据的常用用法与来自不同系统的数据元素进行匹配。
·能够为各种最终用户提供聚合元数据的简化表示,并支持协作以验证元数据描述。
·能够记录数据如何在组织的处理流中流动的端到端映射。
·能够生成数据沿袭的可视化表示。
·包含供开发人员在构建可以查询沿袭记录的应用程序时使用的API。
·能够创建反向索引,将数据元素名称映射到它们在不同处理阶段的用例。
·提供一种搜索功能,可以快速跟踪数据流,从起始点到下游目标。
·使用户能够向前和向后监视数据流。
数据沿袭产品
目前市面上有很多产品可供选择。大型IT供应商(包括IBM、Oracle、SAP和SAS Institute等)销售的数据管理平台中,往往包含用于记录和管理数据沿袭的工具。专注于数据集成、质量和治理的小型软件供应商,也会提供提供相应的产品。此外,数据沿袭功能有时也会被内置到数据目录软件中,各种BI和分析工具的供应商也是如此。
来源:IT168