引言:
本篇文章为"DAMA数据管理知识体系指南(DMBOK)"个人学习笔记,主要记录本人考证时的重点知识总结,仅用作学习使用。
第一章:数据管理
1.1引言:
定义:数据管理是为了交付,控制,保护并提升数据和信息资产的价值,在其整个生命周期中制定计划,制度,规程和实践活动并执行和监督的过程。
数据管理需要技术的和非技术的双重技能。管理数据的责任必须由业务人员和信息技术人员两类角色共同承担,这两个领域的人员需要相互协作,确保组织拥有满足战略需求的高质量数据。
1.1.1业务驱动因素
数据管理的主要驱动力也是使组织能够从其数据资产中获取价值。
1.1.2目标
组织管理数据的目标包括:
1)理解并支撑企业及其利益相关方(包括客户,员工和业务合作伙伴等)的信息需求得到满足。
2)获取,存储,保护数据和确保数据资产的完整性。
3)确保数据和信息的质量。
4)确保利益相关方的数据隐私和保密性。
5)防止数据和信息未经授权或被不正当访问,操作及使用。
6)确保数据能有效的服务于企业增值的目标。
1.2基本概念
1.2.1数据
数据是这个世界中与某个事实结合在一起的一种真实表达。
数据即是对其所代表对象的解释,也是必须解释的对象。
语境可被视为数据的表示系统,该系统包括一个公共词汇表和一系列组件之间的关系,如果知道这样一个系统的约定,就可解释其中的数据。这些数据通常记录在一种特殊类型的数据-元数据中。
1.22数据和信息
数据被称为信息的原材料,而信息则被称为在上下文语境中的数据。
数据和信息都需要被管理;如果再将两者的使用和客户的需求结合在一起进行管理,则两者应具有更高的质量。
1.2.3数据是一种组织资产
资产是一种经济资源,能被拥有或控制,持有或产生价值。
数据驱动包括认识到必须通过业务领导和技术专业知识的合作关系,以专业的规则高效地管理数据。
业务部门必须与技术专业人员共同创建信息解决方案,并于相应地业务团队一起工作。他们必须计划如何获取并管理那些他们知道地用来支持业务战略地数据。
1.2.4数据管理原则
1)数据是有独特属性地资产
数据是一种资产,当相比于其他资产,其在管理方式地某些方面有很大差异。对比金融和实物资产,其中最明显地一个特点是数据资产在使用过程中不会产生消耗。
2)数据地价值可以用经济术语来表示
将数据称为资产意味着它有价值。
3)管理数据意味着对数据地质量管理
确保数据符合应用地要求是数据管理地首要目标。为了管理质量,组织必须了解利益相关方对质量地要求,并根据这些要求度量数据。
4)管理数据需要元数据
用于管理和如何使用数据地数据都称为元数据。元数据源于与数据创建处理和使用相关地一些列流程,包括架构,建模,管理,治理,数据质量管理,系统开发,IT和业务运营以及分析。
5)数据管理需要规划
6)数据管理须驱动信息技术决策
数据和数据管理与信息技术和信息技术管理紧密结合。管理数据需要一种方法,确保技术服务于而不是驱动组织地战略数据。
7)数据管理是跨职能地工作
8)数据管理需要企业级视角
9)数据管理需要多角度思考
10)数据管理需要全生命周期地管理,不同类型数据有不同地生命周期特征。
11)数据管理需要纳入与数据相关的风险
数据除了是一种资产外,还代表着组织的风险。
12)有效的数据管理需要领导层承担责任
1.2.5数据管理的挑战
1)数据与其他资产的区别
2)数据价值
每个组织的数据都是是唯一的,因此评估数据价值需要首先计算在组 织内部持续付出的一般性成本和各类收益。类别举例如下:
1)获取和存储数据的成本。
2)如果数据丢失,更换数据需要的成本。
3)数据丢失对组织的影响。
4)风险缓解成本和与数据相关的潜在风险成本。
5)改进数据的成本。
6)高质量数据的优势。
7)竞争对手为数据付出的费用。
8)数据潜在的销售价格。
9)创新性应用数据的预期收入。
3)数据质量
确保高质量的数据是数据管理的核心。
低质量的数据成本主要来源于:
1)报废和返工
2)解决方法和隐藏的纠正过程
3)组织效率低下或生产力低下。
4)组织冲突。
5)工作满意度低。
6)客户不满意。
7)机会成本,包括无法创新。
8)合规成本或罚款。
9)声誉成本。
高质量数据的作用包括:
1)改善客户体验。
2)提高生产力。
3)降低风险。
4)快速响应商机。
5)增加收入。
6)洞察客户、产品、流程和商机,获得竞争优势。
4)数据优化计划
1)数据也许被视为独立于业务流程存在。
2)业务流程与支持它们的技术之间的关系。
3)系统的设计和架构及其所生成和存储的数据。
4)使用数据的方式可能被用于推动组织战略。
组织在执行战略时必须平衡长期目标和短期目标。只有明确权衡,才会获得有效决策。
5)元数据和数据管理
元数据描述了一个组织拥有什么数据,它代表着什么,如何被分类,它来自哪里,在组织内如何移动,如何在使用中演进,谁可以使用它以及是否为高质量数据。
元数据管理是全面改进数据管理的起点。
6)数据管理是跨职能的工作
7)建立企业的视角
8)数据管理需要多角度思考
9)数据生命周期
10)不同种类的数据
11)数据和风险
12)数据管理和技术
13)高效的数据管理需要领导力和承诺
1.2.6数据管理战略
数据战略应该包括使用信息以获得竞争优势和支持企业目标的业务计划。
数据管理战略的组成应包括:
1)令人信服的数据管理愿景。
2)数据管理的商业案例总结。
3)指导原则、价值观和管理观点。
4)数据管理的使命和长期目标。
5)数据管理成功的建议措施。
6)符合SMART原则(具体、可衡量、可操作、现实、有时间限 制)的短期(12~24个月)数据管理计划目标。
7)对数据管理角色和组织的描述,以及对其职责和决策权的总 结。
8)数据管理程序组件和初始化任务。
9)具体明确范围的优先工作计划。
10)一份包含项目和行动任务的实施路线图草案。
数据管理战略规划的可交付成果包括:
1)数据管理章程。包括总体愿景、业务案例、目标、指导原则、 成功衡量标准、关键成功因素、可识别的风险、运营模式等。
2)数据管理范围声明。包括规划目的和目标(通常为3年),以及 负责实现这些目标的角色、组织和领导。
3)数据管理实施路线图。确定特定计划、项目、任务分配和交付 里程碑(参见第15章)。 数据管理战略应涉及与组织有关的所有DAMA数据管理框架知识领 域(图1-5)和1.3.3节、1.3.4节)。
1.3数据管理框架:
1)前两个模型,即战略一致性模型和阿姆斯特丹(Amsterdam)信 息模型,展示了组织管理数据的高阶关系。
2)DAMA-DMBOK框架(DAMA车轮图、六边形图和语境关系 图)描述了由DAMA定义的数据管理知识领域,并解释了它们在 DMBOK中的视觉表现。
3)最后两个模型是以DAMA为基础重新排列组件,以便于更好地 理解和描述它们之间的关系。
1.3.1战略一致性模型
战略一致性模型(Strategic Alignment Model,SAM)抽象了各种数 据管理方法的基本驱动因素(Henderson和Venkatraman,1999),模型 的中心是数据和信息之间的关系。信息通常与业务战略和数据的操作使 用相关。数据与信息技术和流程相关联,这些技术和过程支持可访问数 据的物理系统。
围绕这一概念的是战略选择的4个基本领域:业务战 略、IT战略、组织和流程以及信息系统。
1.3.2 阿姆斯特丹信息模型
阿姆斯特丹信息模型(The Amsterdam Information Model,AIM) 与战略一致性模型一样,从战略角度看待业务和IT的一致性 (Abcoower、Maes和Truijens,1997)[13],共有9个单元,它抽象出一 个关注结构(包括规划和架构)和策略的中间层。此外,还要认识到信 息通信的必要性(在图1-4中表示为信息治理和数据质量支柱)。 SAM(战略一致性模型)和AIM(阿姆斯特丹信息模型)框架从横 轴(业务/IT战略)和纵轴(业务战略/业务运营)两个维度详细描述组 件之间的关系
1.3.3DAMA-DMBOK框架
DAMA-DMBOK框架更加深入地介绍了构成数据管理总体范围的知 识领域。通过3幅图描述了DAMA的数据管理框架:
1)DAMA车轮图
DAMA车轮图定义了数据管理知识领域。它将数据治理放在数据管 理活动的中心,因为治理是实现功能内部一致性和功能之间平衡所必需 的。其他知识领域(数据体系结构、数据建模等)围绕车轮平衡。它们 都是成熟数据管理功能的必要组成部分,但根据各组织的需求,它们可 能在不同的时间实现。这些知识领域是本书第3~13章的重点内容。
2)环境因素6边形
环境因素六边形图显示了人、过程和技术之间的关系,是理解 DMBOK语境关系图的关键。它将目标和原则放在中心,因为这些目标 和原则为人们如何执行活动及有效地使用工具成功进行数据管理提供了 指导。
3)知识领域语境关系图
1.3.4 DMBOK金字塔(Aiken)
第1阶段:组织购买包含数据库功能的应用程序。这意味着组织以此作为数据建模、设计、数据存储和数据安全的起点(例如,让一些人 进来,让其他人出去)。要使系统在其数据环境中运行,还需要做数据 集成和交互操作方面的工作。
第2阶段:一旦组织开始使用应用程序,他们将面临数据质量方面 的挑战,但获得更高质量的数据取决于可靠的元数据和一致的数据架 构,它们说明了来自不同系统的数据是如何协同工作的。
第3阶段:管理数据质量、元数据和架构需要严格地实践数据治 理,为数据管理活动提供体系性支持。数据治理还支持战略计划的实 施,如文件和内容管理、参考数据管理、主数据管理、数据仓库和商务 智能,这些黄金金字塔中的高级应用都会得到充分的支持。
第4阶段:该组织充分利用了良好管理数据的好处,并提高了其分 析能力。 Aiken的金字塔是基于
DAMA车轮图构建出来的,展示了各知识领 域之间的关系。各领域之间并非都可以互换,它们有多种相互依赖的关 联关系。金字塔框架有两个驱动因素:第一,建立一个基础,每个组件 都出现在合适的位置上、彼此之间相互支持;第二,某些矛盾的观点认 为,这些组件可以任意顺序出现。
1.4 DAMA和DMBOK
DAMA的使命:
1)为实施企业数据管理实践提供功能框架,包括指导原则、广泛 采用的实践、方法和技术、功能、角色、可交付成果和度量指标。
2)为数据管理概念建立通用词汇表,并以此作为数据管理专业人 员最佳实践的基础。
3)作为数据管理专业人士认证(CDMP)和其他认证考试的基本 参考指南。
DMBOK是围绕DAMA-DMBOK数据管理框架(也称为DAMA车轮 图,参见图1-5)的11个知识领域构建的。第3~13章重点介绍各个知识 领域内容。各个知识领域章节遵循相同的结构:
●引言 ○ 业务驱动因素 ○ 目标和原则 ○ 基本概念
●活动
●工具
●方法
●实施指南
●与数据治理的关系
●度量指标
(1)数据治理(Data Governance)
通过建立一个能够满足企业需求的数据决策体系,为数据管理提供 指导和监督(参见第3章)。
(2)数据架构(Data Architecture)
定义了与组织战略协调的管理数据资产蓝图,以建立战略性数据需 求及满足需求的总体设计(参见第4章)。
(3)数据建模和设计(Data Modeling and Design)
以数据模型(Data Model)的精确形式,进行发现、分析、展示和 沟通数据需求(参见第5章)。
(4)数据存储和操作(Data Storage and Operations)
以数据价值最大化为目标,包括存储数据的设计、实现和支持活动 以及在整个数据生命周期中,从计划到销毁的各种操作活动(参见第6 章)。
(5)数据安全(Data Security)
确保数据隐私和机密性得到维护,数据不被破坏,数据被适当访问 (参见第7章)。
(6)数据集成和互操作(Data Integration and Interoperability)
包括与数据存储、应用程序和组织之间的数据移动和整合相关的过 程(参见第8章)。
(7)文件和内容管理(Document and Content Management)
用于管理非结构化媒体数据和信息的生命周期过程,包括计划、实 施和控制活动,尤其是指支持法律法规遵从性要求所需的文档(参见第 9章)。
(8)参考数据和主数据(Reference and Master Data)
包括核心共享数据的持续协调和维护,使关键业务实体的真实信息 以准确、及时和相关联的方式在各系统间得到一致使用(参见第10 章)。
(9)数据仓库和商务智能(Data Warehousing and Business Intelligence
包括计划、实施和控制流程来管理决策支持数据,并使知识工作者 通过分析报告从数据中获得价值(参见第11章)。
(10)元数据(Metadata)
包含规划、实施和控制活动,以便能够访问高质量的集成元数据, 包括定义、模型、数据流和其他至关重要的信息(对理解数据及其创 建、维护和访问系统有帮助)(参见第12章)。
(11)数据质量(Data Quality)
包括规划和实施质量管理技术,以测量、评估和提高数据在组织内 的适用性(参见第13章)。
除了有关知识领域的章节外,DAMA-DMBOK2还包含以下主题的章 节:
1)数据处理伦理(Data Handling Ethics)。描述了关于数据及其应 用过程中,数据伦理规范在促进信息透明、社会责任决策中的核心作 用。数据采集、分析和使用过程中的伦理意识对所有数据管理专业人员 有指导作用(参见第2章)。
2)大数据和数据科学(Big Data and Data Science)。描述了针对 大型的、多样化数据集收集和分析能力的提高而出现的技术和业务流程 (参见第14章)。
3)数据管理成熟度评估(Data Management Maturity Assessment)。概述了评估和改进组织数据管理能力的方法(参见第15 章)。
4)数据管理组织和角色期望(Data Management Organization and Role Expectations)。为组建数据管理团队、实现成功的数据管理活动 提供了实践指导和参考(参见第16章)。
5)数据管理和组织变革管理(Data Management and Organizational Change Management)。描述了如何计划和成功地推动企业文化变革。 文化的变革是将数据管理实践有效地嵌入组织中的必然结果(参见第17 章)。
第2章 数据处理伦理
2.1 引言
伦理是建立在是非观念上的行为准则。伦理准则通常侧重于公平,尊重,责任,诚信,质量,可靠性,透明度和信任等方面。
数据处理伦理指如何以符合伦理准则的方式获取,存储,管理,使用和销毁数据。
基于伦理准则去处理数据对于任何希望从数据中持续获得价值的组织都是必要的。违反数据处理伦理准则会导致组织声誉的损失及失去客户。数据伦理是一项社会责任问题。
数据处理伦理集中在几个核心概念上:
1)对人的影响。
由于数据代表个人的特征,可被用于各类决策,从而影响人们的生活,因此必须保证其质量和可靠性。
2)滥用的可能。
滥用数据会对人和组织造成负面影响,所以需要有伦理准则来防止数据被滥用。
3)数据的经济价值。
数据存在经济价值。需要规定数据所有权,即谁可以去使用数据及如何使用数据。
组织保护数据的动机很大程度上来自法律法规的要求。
数据准则不仅要保护数据,而且要管理数据的质量。
数据处理伦理语境关系图:
2.2 业务驱动因素
遵循数据处理伦理可以提高组织本身及其数据和处理结果的可信度,建立组织与其利益相关方之间更好的关系。
组织构建数据处理伦理准则的主要原因是为了降低所负责的数据被员工,客户,合作伙伴滥用的风险。
首席数据官CDO,首席风险官CRO,首席隐私官CPO,首席分析管CAO等新兴角色专注于通过建立可接受的数据处理实践来控制风险。
2.3 基本概念
2.3.1 数据伦理准则
1)尊重他人
2)行善原则
这条准则有两个要素:第一,不伤害;第二,将利益最大化、伤害 最小化。
3)公正
这一准则认为待人公平和公正。
4)尊重法律和公共利益
数据处理伦理必须遵循的四大支柱:
1)面向未来的数据处理条例,尊重隐私和数据保护权力。
2)确定个人信息处理的责任人。
3)数据处理产品及服务设计及工程过程中的隐私意识。
4)增加个人的自主权。
2.3.2 数据隐私法背后的原则
2.3.3 在线数据的伦理环境
1)数据所有权。
2)被遗忘的权力。
3)身份
4)在线言论自由
2.3.4 违背伦理进行数据处理的风险
以下场景描述了违反这些伦理原则的数据实践活动:
1)时机选择
2)可视化误导
3)定义不清晰或无效的比较
4)偏见
5)转换和集成数据
6)数据的混淆和修订
2.3.5 建立数据伦理文化
建立一个符合伦理的数据处理文化需要理解现有规范,定义预期行 为,并将这些编入相应制度和伦理规范中,并提供相应的培训和监管以 强制推行预期行为。
1)评审现有数据处理方法
2)识别原则,实践和风险因素
3)制定合乎伦理的数据处理策略和路线图
4)采用对社会负责的伦理风险模型
2.3.6 数据伦理和治理
第3章 数据治理
3.1 引言
定义:是在管理数据资产过程中行使权力和管控,包括计划,监督和实施。
数据治理的职能是指导所有其他数据管理领域的活动。
数据治理的目的是确保根据数据管理制度和最佳实践正确的管理数据。
而数据管理的整体驱动力是确保组织可以从其数据中获得价值,数据治理聚焦于如何制定有关数据的决策,以及人员和流程在数据方面的行为方式。
数据治理项目的范围和焦点依赖于组织需求,但多数项目都包含如下内容:
1)战略
定义,交流和驱动数据战略和数据治理的执行、
2)制度
设置与数据、元数据管理、访问、使用、安全 和质量有关的制度。
3)标准和质量
设置和强化数据质量、 数据架构标准。
4)监督
在质量、制度和数据管理的关键领域提供 观察、审计和纠正等措施(通常称为管理职责Stewardship)。
5)合规
确保组织可以达到数据相关的监管合规 性要求。
6)问题管理
识别、定义、升级和处理问 题,针对如下领域:
数据安全、数据访问、数据质量、合规、数据所有权、制度、标 准、术语或者数据治理程序等。
3.1.1 业务驱动因素
数据治理最常见的驱动因素是法规遵从性,特别是重点监控行业。例如:金融服务,医疗健康,需要引入法律所要求的治理程序。
数据治理的驱动因素大多聚焦于减少风险或者改进流程。
减少风险:
一般性风险管理,数据安全,隐私。
改进流程:
1)法规遵从性
2)数据质量提升
3)元数据管理
4)项目开发效率
5)供应商管理
3.1.2 目标和原则
数据治理的目标是使组织能够将数据作为资产进行管理。
数据治理程序必须包括以下几个方面:
1)可持续发展
2)嵌入式
3)可度量
3.1.3 基本概念
数据治理确保数据被恰当的管理而不是直接管理数据。数据治理相当于将监督和执行的职责分离。
3.2 活动
3.2.1规划组织的数据治理
数据治理工作必须支持业务战略和目标。一个组织的业务战略和目标影响着组织的数据战略,以及数据治理和数据管理在组织的运营方式。
1)执行就绪评估
典型的评估包括:
1)数据管理成熟度
2)变革能力
3)协作准备
4)与业务保持一致
2)探索与业务保持一致
3)制定组织触点
3.2.2制定数据治理战略
数据治理战略定义了治理工作的范围和方法。应根据总体业务战略以及数据管理,IT战略全面定义和明确表达数据治理战略。
交 付物包括:
1)章程。确定数据管理的业务驱动愿景、使命和原则,包括成熟 度评估、内部流程分析及当前问题和成功标准。
2)运营框架和职责。定义数据治理活动的结构和责任。
3)实施路线图。制定时间计划,其涉及最终发布的制度、指令、 业务术语、架构、资产价值评估、标准和程序以及所期望业务和技术流 程发生的改变、支持审计活动和法规遵从的交付成果。 4)为成功运营制订计划。为数据治理活动描述一个可持续发展的 目标状态
1)定义数据治理运营框架
2)制定目标,原则和制度
3)推动数据管理项目
4)参与变革管理
5)参与问题管理
6)评估法规遵从性要求
3.2.3 实施数据治理
1)发起数据标准和规程
2)制定业务术语表
3)协调架构团队协作
4)发起数据资产估值
3.2.4 嵌入式数据治理
数据治理组织的一个目标是将治理活动嵌入到数据作为资产管理相 关的一系列流程中。数据治理的持续运作需要规划。
3.3 工具和方法
3.3.1线上应用/网站
3.3.2 业务术语表
3.3.3 工作流工具
3.3.4 文档管理工具
3.3.5数据治理积分卡
3.4实施指南
3.4.1 组织文化
数据治