数据治理–浅谈数据标准、元数据、主数据、数据模型
数据标准
数据标准:保障数据的内外部使用和交换的一致性、准确性的规范性约束(如命名、类型、值域等),通常包括了基础指标和计算指标
计算指标:即计算口径,如下单转化率、获客成本、复购率的具体计算的方式
如怎么定义一个人的性别、婚姻状况、健康状况,在不同的业务系统中定义的可能千差万别,数据标准就是将这些定义进行统一化、规范化。
数据标准用于指导系统的数据结构定义及值域的选择
在国家标准全文公开系统中,定义了各行各业方方面面的标准,可在实际数据建模时进行引用
数据标准分为:
- 国家标准: 如国家标准全文公开系统中定义的数据标准,又为了强制性国家标准、推荐性国家标准
- 行业标准: 如交通运输行业标准–交通信息基础数据元
- 企业标准
如在国家标准GB/T 2261中规范了人的性别代码、婚姻状况代码、健康状况代码等
元数据
-
元数据 是描述数据的数据,版本化管理数据结构
其核心作用如下:- 追溯数据的生成过程,做数据的“血缘分析”
- 评估数据变更造成的影响
- 做全链路数据正确性核查
- 对比数据的结构
元数据又细化为:
- 业务元数据: 与业务规则、流程相关的描述性数据
- 技术元数据:与存储、访问等技术底层的描述性数据
- 操作元数据:与数据操作相关的描述性数据
- 管理元数据:与数据管理相关的描述性数据
以 2020年统计的全国成年男性平均身高 175cm为例,描述175cm这个数据,可以从下图的这些描述项进行描述,用来描述175的数据称之为元数据
主数据
主数据:描绘企业核心业务实体的数据,被企业多条业务线、多个流程阶段重复使用、共享的高价值数据。
示例如下:
- 电商平台的主数据是商品的sku数据、订单数据、用户数据、供应商的数据
- CRM客户管理系统的主数据是用户数据
- 银行系统的主数据是卡bin码、开户行、账号、理财产品
- 二手房平台的主数据是房源信息
可以看到,主数据可以按与人相关、与物相关、与地址相关、与规则相关等进行分类
主数据是关键业务实体的最权威、最准确、价值最大的数据,用于建立交易闭环。,Master Data 可翻译为核心数据
阿里的One ID就是主数据理念的结果
主数据的核心思想是全局唯一的标准数据。
因此主数据一般会完成以下工作:
- 确定核心业务环节
- 识别主数据
- 定义和维护主数据匹配规则(代码规则、ID Mapping)
- 建立及发布数据标准
- 主数据的后续维护及更新
数据模型
数据模型 是现实数据特征的抽象,用于表示一组数据和概念的定义,即数据的数据结构。如数据库的ER图【实体-联系图(Entity Relationship Diagram)】,用来描述各种业务主体的结构和它们之间的关系
百度百科的定义如下:
数据模型(Data Model)是数据特征的抽象,它从抽象层次上描述了系统的静态特征、动态行为和约束条件,为数据库系统的信息表示与操作提供一个抽象的框架。数据模型所描述的内容有三部分,分别是数据结构、数据操作和数据约束
数据模型落地体现在数据库的数据结构中