【数仓】数仓中的维度、原子指标、派生指标、衍生指标、指标分类、缓慢变化维等的含义 |
您所在的位置:网站首页 › 原子团概念的含义 › 【数仓】数仓中的维度、原子指标、派生指标、衍生指标、指标分类、缓慢变化维等的含义 |
1 基本概念
1.1 实体
从业务角度讲,实体是为了满足分析的需要,抽象出来的概念,从业务中拆分出一个个实体,可以是现实存在的业务对象,如用户,商家,商品,也可以是现实没有的,如虚拟的业务对象,活动,会员等等 1.2 维度维度是度量的基础,用来反映业务的一类属性,这类属性的集合构成一个维度,也可以称为一个实体对象。 在划分数据域、构建总线矩阵时,需要结合对业务过程的分析定义维度。 1.3 业务过程业务过程是指企业的业务活动事件,如下单、支付、退款都是业务过程。通常业务过程是企业活动中的事件,因此业务过程是一个不可拆分的行为事件。 1.4 原子指标原子指标是对指标统计口径、具体算法的抽象,等于业务过程(原子的业务动作)+ 统计方式,统计方式通常是做聚合计算。例如,支付(事件)金额(度量),曝光(事件)次数(度量) 基于某一业务事件行为下的度量,是业务定义中不可再拆分的指标,具有明确业务含义的名词。 原子指标=业务过程(动作)+度量,如支付(事件)金额(度量)。 如交易笔数、交易金额、交易用户数等 1.5 业务限定业务限定为统计的业务范围的圈定。为保障所有统计指标统一、标准、规范地构建,业务限定在业务板块内唯一,并唯一归属于一个来源逻辑表,计算逻辑也以该来源逻辑表模型的字段为基础进行定义。 1.6 派生指标基于原子指标、时间周期和维度,圈定业务统计范围并分析获取业务统计指标的数值。 派生指标=原子指标+业务限定【做筛选】+统计周期+维度的组合(统计粒度)。派生指标即为对原子指标进行业务统计范围的圈定。如交易金额的完成值、计划值,累计值、同比、环比、占比等。 细分为以下2种类型的指标: 事务型指标:对业务活动进行衡量的指标。存量型指标:对实体对象(如商品、会员)某些状态的统计。不同的派生指标可能具有相同的原子指标,这样派生指标就定义了一种等价关系,而属于相同的原子指标就构成了一个对指标体系的划分。在每一个划分中,存在一个可以派生出其他指标的最小派生指标,即最细粒度即原子指标。 派生指标也称为衍生指标,是在事务型指标和存量型指标的基础上,通过一定运算规则(逻辑运算)形成的计算指标集合,如平均用户交易额、资产负债率等。 1.7 事实表用于描述业务过程的详细信息。事实表体现实际数据或详细数值,一般由维度编码和事实数据组成。如订单表 1.8 维度表维度表存放具有独立属性和层次结构的数据,一般由维度编码和对应的维度说明(标签)组成 1.9 统计粒度定义数据汇总的程度。例如,如果维度为时间,则统计粒度为年、季、月、周或日等。 1.10 标签标签是人为设定的、根据业务场景需求,对目标对象运用一定的算法得到的高度精炼的特征标识 标签计算要考虑不同行为(业务过程)的权重不同、数据覆盖范围、衰减时间周期、衰减时间曲线【如平滑、线性、曲线】。 不同时间的行为对标签值的影响程度不同。同一周期内行为的影响力相同,不同周期行为的影响力按照设置的衰减周期和曲线随时间递减。对于标签值会随着行为快速变化的需要考虑对所选数据来源-时间跨度(例如90天)行为数据,根据不同时间周期(如7天)切片(90/7=13个片段)设置衰减模式,不同时间周期行为数据标签值的影响力与选择的衰减模式相关基于业务上的判断对多个行为(业务过程)进行权重分配,要求最多两位小数,且各项权重和为1。权重越大,表示该行为对最后标签值的影响越大数据覆盖范围,如行为为购买保湿类护肤品,10%的用户购买次数在3次以下,90%的用户购买次数在100次以下。如果选择范围为10%-90%,则只对购买次数在3次以上100次以下的用户打标,防止购买次数过少(3次以下)或过多(100次以上)影响数据分析的准确度三种常见的衰减模式如下: 指标是BI时代的通用语言。指标注重对事物及事件的过程进行全面的、体系化的描述,指标的描述范围更广泛,既包括过程也涵盖结果;指标更注重与业务的结合,逻辑上更严谨,表现风格也比较严肃刻板。指标更侧重业务化、严格化和数量化。 标签是大数据与人工智能时代的通用语言。标签比指标更有深度、更凝练,是对指标深度加工的结果;标签注重人物和实体对象的描述,标签一般侧重对局部特征和结果的描述,注重与具体业务场景的结合,描述的范围相对较窄;标签更侧重生活化、口语化和符号化。 总之,标签源于指标,却高于指标。指标更理性,标签更感性。标签比指标更有趣、更形象化、人格化,更有画面感,但指标比标签更讲求精确性、合理性、全面性和体系化 2.4 价值评价方式不同对指标与标签的价值评估方式、评估内容与它们的应用场景相关,也与使用者的感受有关系。 对指标的价值通常用“好不好用”、“全不全面”来评价,对标签的价值通常用“准不准”、“像不像”来评价。 指标的评价较易量化,通常有一定的标准和尺度;标签的评价一般与使用者的感受、应用的结果有强关联关系,不同的人、不同的应用场景,标签能发挥的效果可能大相径庭。 还有一点,由于标签是指标进一步产品化的结果,指标是半成品,标签是成品。所以,标签有时候具有一定的商品属性。在大数据价值链上,标签是可定价、可售卖、可交易的一种数据产品。比如:在个人征信服务领域,用户的三要素、四要素在合规使用的前提下都是可以按条收费的。而指标通常是不具备售卖价值的,指标的价值可在具体应用场景里或者被融合到产品中才能体现出来。 对价值的认知上,指标可以按照重要性分为关键指标、一般指标等,或者说高价值指标、低价值指标之类的,而标签较少提及这种说法,比如有关键指标一说,而没有关键标签一说。 2.5 分类不同指标有很多种分类方式。如 按照指标计算逻辑,可以将指标分为原子指标、派生指标、组合指标三种类型;按照对事件描述内容的不同,分为过程性指标和结果性指标;按照描述对象的不同,分为用户类指标、事件类指标等;按照指标的变化频率,分为静态指标和动态指标;按领域划分,有用户类指标、收入类指标、行为类指标等;按照重要程度,分为主要指标和次要指标等;按职能来分,分为观测指标、管控指标和挑战指标。 当然,还有很多其它的分类方法,不再一一列举。标签的分类方法通常比指标要少一些。之所以这么说,是因为指标能描述的对象范围更广,对事物的描述能做维度更全面、颗粒度更细,而标签对事物(用于对人的描述比较多)的描述则是更深入、更形象的。 按照标签的变化性分为静态标签和动态标签;按照标签的指代和评估指标的不同,可分为定性标签和定量标签;按照标签体系分级分层的方式,可以分为一级标签、二级标签、三级标签等,每一个层级的标签相当于一个业务维度的切面;按照复杂程度分为:基础标签、规则标签和模型标签。 基础标签通常是写实的,与指标有较高的重合度,比如身高、体重等;规则标签一般是有一些简单的规则来控制,符合某种规则时才生成相应的标签;模型标签一般需要通过某些机器学习算法来生成。 2.6 数据量级不同 指标涉及的范围更广,从产供销到人财物等方面,都需要用指标来描述,所以,从数量级上看,指标的数据量级肯定比较大。以电信运营商为例,用户域、营销域、产品域、资源域等方面的指标数量量级以万计算。标签通常用于对人的描述,标签的数量级比较小,通常不超过1千。标签并非越多越好,关键是要实用。当然,层级越多,标签数一般越多。 2.7 表现形态不同指标的表现形态相对简单,通常以格式化的报表、直方图、趋势图、看板等图形来表示。 标签的表现形态相对复杂。我们通常说的标签是数据化的标签,数据化标签的表现形态以可视化的图表或大屏为主,比如,我们在客户画像时通常以词云图的形式来表现其特征。 事实上,在现实世界中标签还有三种表现形态: 实物标签是用于标明物品的品名、重量、体积、用途等信息的简要标牌,例如:商品标签、价格标签、车检标签、服装吊牌、车票、登机牌都是实物标签;网络标签(Tag)是一种互联网内容组织方式,是相关性很强的关键字,它能帮助人们通过关键词快速建立对内容总体印象;电子标签又称RFID射频标签,是一种识别效率和准确度都比较高的识别工具,通过射频信号自动识别目标对象并获取相关数据,识别工作无须人工干预,可工作于各种恶劣环境。 2.8 生产过程不同指标是生产性思维、拆解式思维,讲究的是化整为零,将事物分解开来进行多角度的描述,得到很多的指标; 标签则是合成性思维、聚合式思维,讲究的是化零为整,将多个分散的指标按照一定的原理进行综合加工,得出概括性的结果。 一般情况下,先有指标,后有标签。指标是业务管理导向的,需要提前规划;标签是应用导向的,跟随业务需求的而变化,面向业务可随时增加; 指标的生产通常先要扫平数据质量问题,统一数据口径; 标签生产涉及数据质量的问题较少,因为数据质量的问题已经在指标生产阶段被解决了。 指标通常存在多个口径、口径不一致的问题,而标签在这方面的问题则相对较少。 2.9 应用场景不同 指标的应用场景很多,涉及企业的战略、管理、运营和支撑等层面。具体包括:战略目标、市场定位、业务监测、业绩考核、任务分解、数据分析、数据建模、BI应用等;标签的应用场景主要集中于CRM领域,尤其适合于用户运营。比如:客户画像、新增获客、沉默用户激活、存量客户维系、数据建模、数据可视化等。指标最擅长的应用是监测、分析、评价和建模,标签最擅长的应用是标注、刻画、分类和特征提取。特别需要指出的是,由于对结果的标注也是一种标签,所以在自然语言处理和机器学习相关的算法应用场景下,标签对于监督式学习有重要价值,只是单纯的指标难以做到的。而指标在任务分配、绩效管理等领域的作用,也是标签无法做到的。 2.10 管理与维护的内容不同原则上来说,指标与标签都需要建立体系化的管理机制。 就指标的管理机制而言,指标管理通常涉及三个方面: 需求阶段的管理、开发过程的管理、应用过程的管理。所以对指标的管理动作主要就是:做指标、管指标、控指标。指标的日常管理涉及指标的定义、指标的分类、指标的权限管理等。对指标的监控与维护通常涉及缺失值、异常值、勾稽关系等方面的检查。 对标签的管理与维护通常按照标签的生命周期来开展的,涉及标签开发与发布、标签应用、标签价值评估和标签优化及下线四个阶段。对标签的管理动作主要就是:打标签、贴标签、用标签和改标签等。 为做好标签管理与维护,有必要设立专门的标签管理团队,建立标签分类、命名、描述、和实施等方面的规范,完善配套的数据采集流程、标签加工流程、标签问题处理与反馈流程等,建立标签全生命周期管理体系,与数据资产管理制度相统一,为标签在各层面的落地及管理提供建设依据。 3 指标分类 名称分类解析作用/示例指标结果型指标时机:动作发生后监控数据异常指标过程型指标时机:动作发生中可以通过运营策略影响过程指标体系(维度)定性维度文字类描述城市,性别,职业体系(维度)定量维度数值类描述收入,年龄 T1指标:公司战略层面指标T2指标:业务策略层面指标T3指标:业务执行层面指标![]() 缓慢变化维: 简称SCD(Slowly Changing Dimensions),指一些维度随着时间而缓慢地变化(缓慢是相对事实表而言,事实表数据变化的速度比维度表快)。随着时间发生变化的维度称之为缓慢变化维 把处理维度表数据历史变化的问题,称为缓慢变化维问题,简称SCD问题 如根据用户维度,统计不同出生年份的消费金额占比。(80后、90后、00后)。 在统计后,用户可能去修改用户数据,例如:将出生日期改成了 1992年。此时,用户维度表就发生了变化,涉及到这个维度的统计需要重新统计。 以下为解决缓慢变化维问题的几种办法: 保留原始值改写属性值增加维度新行增加维度新列添加历史表(历史拉链表) 参考智能数据构建与管理 Dataphin 解决缓慢变化维—拉链表 详细解读指标与标签的区别 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |