网站首页 > 教程文章 正文
随着企业信息化的建设与发展,企业业务不断由线下转到线上,且大量业务数据留存在业务系统中,随着数据的价值日益凸显,整合数据资源、优化业务流程的重要性也随之提高。而面对业务管理和数据治理的问题,构建数仓体系已经成为企业信息化体系建设的重要内容。
DAP数据分析平台正是数通的核心产品之一,其作用于企业进行数据分析的过程中,对数据进行集中化管控,支持决策分析,并且通过DAP数据分析平台还可以实现企业数据的清洗以及汇聚,并基于数据构建数据仓库,并基于业务主题构建对应的大屏,从而实现数据的可视化展现,本文档主要介绍如何通过DAP数据分析平台保障数据质量。
整体说明
DAP数据分析平台是一款专为构建企业大数据平台而设计的产品,它能高效存储、计算、分析和处理从业务系统或ODS中抽取的海量数据。通过可视化有价值的数据,帮助企业明确分析自身的优劣势,进而调整策略,加速企业的信息化发展和整体竞争力。
1.产品方案
DAP数据分析平台主要是处理企业的数据分析以及数据治理的去修,像刚刚说到的可以结合MDM基础数据平台,ESB数据服务总线和Portal统一门户平台构建成数据中台方案,方案的主要内容为基础数据治理、数据仓库建设、数据分析展现等,通过平台建设实现企业数据的整合汇聚,构建数据中心,基于数据进行分析展现、透视业务、价值挖掘,有效支撑企业的业务发展。整体架构图如下:
2.功能架构
DAP数据分析平台中预置了丰富的组件,饼状图、条形图、散点图、折线图等满足企业的真实所需。它可以对从业务系统或者ODS中抽取来的海量数据进行高效存储、计算、分析并处理。最终将有价值的数据以可视化的形式进行展现,能够有效地帮助企业清晰地分析优劣势,从而调整企业策略,加快企业的信息化发展与整体竞争力。
1.数仓建设:包括ODS建设、数仓建设等内容,通过数据采集、加工、转换、汇总的过程实现从源头系统到数仓的建设;
2.数据分析:基于数仓构建数据集、立方体、指标集等分析模型,通过DAP预置的可视化组件实现可视化分析与联动穿透,从而支持企业数据的查看以及业务管理;
3.数据挖掘:通过平台预置的各类算法对数据进行训练与模拟,构建算法模型对象,从而实现数据的预测与价值挖掘,支持业务层面的数据应用;
4.数据服务:根据配置的各类分析模型自动构建数据服务接口,实现对外进行数据提供和应用;
5.数据资产:基于数仓数据构建数据资产体系,将企业数据构建成数据资产,用于企业数据的管理、价值分析以及数据共享;
6.质量安全:通过数据加密、脱敏策略实现对关键数据、敏感数据的加密、脱敏处理,保证数据使用过程中的数据安全性。
3.功能说明
数据校验是对数据的一种清洗,把不规范的、不正确的、不完整的数据找出来,把数仓中的数据变成具有完整性、准确性的数据,这样就在DAP分析、汇总时候才是表达出真实的有效的,才能体现数据的价值。
痛点分析
下面对在实战情况中的一些痛点难点进行说明和分析,主要分为数据分散,计算效率,数据一致性的三方面进行说明。
1.数据标准
现在的企业普遍存在多系统的情况,而不同系统的数据存在模型差异(如主键策略、字段定义不一致)和时效性不同步问题,可以通过DAP建立数据字字段映射和转换实现统一,确保跨系统数据的完整性。
2.数据管理
在数据管理的过程中,如果通过手工填写,无论是在效率上还是在质量上都相对来说较为低下,可以通过DAP的数据校验功能,通过校验规则的配置实现对数据的自动化校验,实时监控标准的执行情况。
3.数据监控
在数据治理中,指标预警是保障数据质量的关键环节。通过实时监测数据异常,DAP能够提前发现潜在风险,避免因数据错误导致的决策失误或业务损失。通过校验规则和DAP的响应机制,形成从检测到处置的闭环管理。
实现路径
下面对如何通过DAP数据分析平台解决痛点进行说明,分别是通过指标体系的建设,DAP的数据校验功能,以及指标预警功能进行逐一的说明介绍。
1.指标体系
指标体系是整个数仓的核心,也是构建数仓体系的基础,而指标体系通常分为线下体系和线上体系。本文主要说明线上体系,线上体系则是在DAP数据平台中通过对基础的标准指定以及通过DAP函数对数据进行计算,然后基于标准构建数据标准的指标体系。
2.校验机制
校验机制主要针对数据管理维护过程中的数据质量控制,发现并纠正现有数据中的错误,这包括检查数据的格式、类型、范围等方面是否存在问题,以及是否存在重复或无效的数据记录;例如在数据集成至数仓时就会执行校验来截异常数据,以确保数据的准确性和完整性。常见的校验类型如下:
1.必填校验:确保某个字段或数据项不为空。
2.唯一校验:确保某个字段的值在整个数据集中是唯一的,以确保数据的唯一性
3.格式校验:确保数据符合特定的格式或标准,以确保数据的准确性。
3.指标预警
除了通过建立标准体系和数据校验之外,还在指标管理中配置阈值和报警策略,阈值在配置时可以通过元数据关联查询到指标所关联的资源,所以在数据发生变化时,会对应的触发指标服务,而当数据触发所配置阈值时就会进行报警提醒工作人员,让企业第一时间可以知道企业情况,从而快速地给出解决策略,帮助企业的发展。
实施过程
除了在数据的加工汇总过程中应用函数,在DAP平台的分析模型中也可以配置函数,基于业务实现对数据的计算、解析,最终对于数据展现以及可视化配置进行使用。
1.体系规划
指标体系的规划是从指标出发,通过指标规划数仓模型,基于数仓模型推演数仓的表结构,再通过数仓表的元数据找到业务系统中相关的功能、表和字段,从而确定ODS的结构。具体流程如下图所示:
1.指标梳理规划:首先明确业务目标以及关键指标,然后按照业务领域以及层级划分为一级指标,二级指标,三级指标,形成指标体系;
2.数仓模型规划:根据业务复杂度和分析需求,结合指标体系选择合适的数仓模型进行规划;
3.数仓结构规划:基于数仓模型对数仓表进一步细化其中事实表和维度表的字段设计,包括字段名称、数据类型、长度等;
4.ODS结构规划:通过数仓表的元数据(如表名、字段名、数据类型等),反向查找业务系统中相关的功能、表和字段。
2.数据校验
在质量安全-质量管理-规则校验下,可以创建校验规则。
当进行ESB流程数据转换时,会基于对字段配置的校验规则进行校验,而当数据无法通过校验规则后,流程会执行失败的同时也会回写校验日志,可以通过日志来进行查看,并基于日志信息进行调整以此来确保数据的质量。
3.指标预警
通过在指标中配置阈值和报警策略,当数据发生变化时,让企业第一时间可以知道企业情况,从而快速地给出解决策略,帮助企业的发展。而预警报警效果,当数据超出阈值后,在页面会有警告图标进行提示,也会根据配置的报警规则对用户进行邮件报警,具体效果。
总结归纳
在实际应用中,不同系统的数据杂乱无章,这会对最终数据的呈现效果造成影响,而通过DAP平台中的函数可以将数据进行汇总组合,提高数据的可用性,从而提升数据的整体价值。
1.注意事项
校验规则是整个数据治理过程中非常重要的一环,也是企业构建数据资产的重要内容,在配置规则的过程中,需要注意以下几点:
1.格式校验中可以配置多个校验规则。
2.除现有校验规则外,还可以通过“正则表达式”进行校验规则的扩充。在对校验规则进行扩展时,要确保校验规则的一致性,遵循统一的逻辑和标准。
3.对于录入时自动生成的只读属性,如配置编码规则后的“编码”属性,需要关闭编码的非空校验,否则会导致保存时非空校验无法通过而录入失败;
4.校验规则支持多选,根据属性需要同一个元数据可以同时配置多个校验规则。
2.方案拓展
DAP数据平台是我们数通数据中台方案的一部分,数通数据中台方案是由MDM+DAP+ESB组合成的解决方案, 数据中台能打通企业的数据环节,实现全生命周期的数据管理,通过数据中台建设数据管理体系,实现各个业务系统数据的有效整合,通过基础数据治理确保底层基础数据的一致性,基于业务指标进行前端的动态展现,结合数据指标的多维度穿透,实现不同形式、不同维度的分析展现。
3.说在最后
通过指标体系和数仓体系的搭建,梳理企业的业务流程,分析企业运营的核心要点,通过指标管控有效把控企业的运营状况,全面衡量业务发展,促进业务有序增长。通过指标体系将业务与数据有效结合,不仅可以管控业务,同时能进行数据的追溯,回溯业务管理环节,及时发现问题、解决问题。
DAP数据分析平台是数据中台的一部分,它可以提升企业的业务数据价值,从数据来源上梳理企业的业务数据,把可以提升业务价值的相关数据放到中间库中,通过数据治理整合汇总这些数据,并通过函数进行数据计算从而构建分析型数据,将分散的业务数据以更加直观、清晰的方式展现出来。
本文由@数通畅联原创,欢迎转发,仅供学习交流使用,引用请注明出处!谢谢~
猜你喜欢
- 2025-07-03 ETL 数据集成平台与数据仓库的关系及 ETL 工具推荐
- 2025-07-03 Oracle 11g数据库数据仓库模式与一般事务处理模式
- 2025-07-03 为什么基于关系型数据库RDBMS开发EPM系统无法成功?
- 2025-07-03 数据字典是什么?和数据库、数据仓库有什么关系?
- 最近发表
- 标签列表
-
- location.href (44)
- document.ready (36)
- git checkout -b (34)
- 跃点数 (35)
- 阿里云镜像地址 (33)
- qt qmessagebox (36)
- mybatis plus page (35)
- vue @scroll (38)
- 堆栈区别 (33)
- 什么是容器 (33)
- sha1 md5 (33)
- navicat导出数据 (34)
- 阿里云acp考试 (33)
- 阿里云 nacos (34)
- redhat官网下载镜像 (36)
- srs服务器 (33)
- pico开发者 (33)
- https的端口号 (34)
- vscode更改主题 (35)
- 阿里云资源池 (34)
- os.path.join (33)
- redis aof rdb 区别 (33)
- 302跳转 (33)
- http method (35)
- js array splice (33)