BigData

concept

# 一、大数据概念

# 1、大数据

Big data

大数据是将来自前端的海量数据,以结构化或非结构化形式快速导入到一个集中的大型分布式数据库或分布式存储集群中,利用分布式技术来对存储于其内的集中海量数据进行查询和分类汇总等,以支持后续数据分析需求。

适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统等。

“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产,因此,大数据为企业数字化转型提供了基础和源动力。

# 2、数据仓库

# 3、数据湖

data lake 数据湖

大数据时代,数据量越来越多,数据形式日益复杂,而以数据仓库为代表的、现有的数据存储和处理技术都无法满足海量、多样的数据处理需求,由此产生出了“数据湖”。

数据湖就是原始数据保存区. 虽然这个概念国内谈的较少,但绝大部分互联网公司都已经有了。国内一般把整个HDFS叫做数据仓库,即存放所有数据的地方,而国外一般叫数据湖(data lake),最早是由Pentaho首席技术官James Dixon于2010年提出。

“数据湖”技术不仅可支持企业各种各样的结构化、半结构化与非结构化和二进制数据的集中存储及处理,还可以结合先进的数据科学、机器学习及AI技术进行大数据分析,帮助企业构建更多优化后的运营模型,也能为企业提供预测分析、推荐模型等其它能力,以助力企业能力的持续增长。

# 4、数据中心

对于数据中心这个词,原来在BI系统应用里面也经常出现。

但是现在数据中心一般特指IT基础设施,大的公有云数据机房等,在BI系统或数据中台里面都很少用这个词。即数据中心这个词偏IT硬件基础设施层面了。

# 5、数据中台

数据中台是一套可持续“让企业的数据用起来”的机制,是针对企业数据的一种战略选择和组织形式,是依据企业特有的业务模式和组织架构,通过有形的产品和实施方法论支撑,构建的一套持续不断把数据变成资产并服务于业务的机制。

数据中台的价值在于业务数据化、数据资产化、资产服务化和服务业务化

中台的核心是共性业务能力的抽象下沉,并统一对外提供。很多企业没有大张旗鼓地去规划构建中台,但是经过多年建设形成了自己的服务共享平台和服务资产库,这个服务资产有效的支撑了新的业务应用的开发,那么这个服务共享平台就是对企业有价值的中台。

但是中台的使用范围却是有限的,仅仅限于技术演化相对慢且功能通用性高的场景中。而过往中台的失败案例也往往集中在把中台强推到创新业务中的情况。

# 6、数据资产

Data Asset 数据资产

数据资产是指由企业拥有或者控制的,能够为企业带来未来经济利益的,以物理或电子的方式记录的数据资源,如文件资料、电子数据等。在企业中,并非所有的数据都构成数据资产,数据资产是能够为企业产生价值的数据资源。

数据资产的属性

数据资产具有无形资产的属性,从这个角度出发,我们可以发现数据资产主要有以下特性:

  1. 无消耗性:数据资产的每次使用只需要花费很低的成本,不会因为使用频率的增加而磨损、消耗,与其他传统无形资产有相似性。
  2. 增值性:企业通过稳定发展,会促使数据资产在原有的基础上,数据规模和数据维度的不断积累,整体价值进一步提升。
  3. 依附性:与其他无形资产类似,数据资产不能独立发挥作用,其发挥作用和效应往往依附于相应的软件、硬件。
  4. 价值易变性:数据资产时刻受到数据容量、数据时效程度、应用场景等因素的影响,与其他无形资产相比,其价值更易发生变化。
  5. 战略性:一切数据业务化,一切业务数据化,具有战略性。

# 7、数据治理

Data Governance 数据治理

数据治理的背景

数据湖具有卓越的数据存储能力,支持海量、多种类型的大数据统一存储。但随着企业业务模式的发展与演变,沉积到数据湖中的数据定义、数据格式等都在发生着实时的改变,如果不加以治理,企业的“数据湖”就有可能变成“垃圾”堆积的“数据沼泽”,而无法支撑企业的数据分析和使用。

只有让“数据湖”中的“水”流动起来,并在流动过程中进行疏导和净化,才能让“数据湖”的“水”保持清澈、流畅,所谓“数据治理”,也就是在迁移数据源时进行一定的数据转换,形成清晰的数据目录,对数据湖中的数据分区域、分阶段地进行清洗和处理的过程。

数据治理

数据治理是实现数据资产化的重要步骤。不同于过去的数据平台,数据治理不是数据平台的附件,而是数据中台建设的一个重要组成部分。数据治理,在消除数据孤岛、提高数据质量、保障数据安全等方面,支撑中台数据的可见、可用、可运营。

数据治理分为发现定义应用衡量与监测四个核心流程。

数据治理计划的结构有助于利益相关方了解组织数据,确保数据安全,并获得对数据的信任,尤其是随着企业扩大规模并积累更多的数据源和资产。

数据治理(Data Governance)是组织中涉及数据使用的一整套管理行为。由企业数据治理部门发起并推行,关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。

数据治理的最终目标是提升数据的价值,是企业实现数字战略的基础,它是一个管理体系,包括组织、制度、流程、工具。

# 8、数据管理

Data Management 数据管理

数据管理指利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程。数据管理目标:在于充分有效地发挥数据的作用。

# DAMA数据管理知识体系框架

现在讲数据管理体系框架比较完备的有国际数据管理协会的《DAMA数据管理知识体系指南》、工信部的《DCMM数据管理能力成熟度评估模型》、信通院的《数据资产管理实践白皮书》等,

国际数据管理协会(DAMA)成立于1988年,他们在丰富的数据管理经验的基础上,提出了几乎最为完整的数据治理体系——著名的“飞轮”模型,它概括了数据管理的十大功能模块,涵盖了数据治理工作的核心领域。

国际数据管理协会从数据治理生命周期角度开启研究,总结了数据管理的11个数据管理职能领域,以及数据管理的7个基本环境因素。

# 数据管理11个职能领域

  1. 数据治理:通过建立一个能够满足企业数据需求的决策体系,为数据管理提供指导和监督。
  2. 数据架构:定义了与组织战略协调的管理数据资产蓝图,以建立战略性数据需求及满足需求的总体设计。
  3. 数据建模和设计:以数据模型的精确形式,进行发现、分析、展示和沟通数据需求的过程。
  4. 数据存储和操作:以数据价值最大化为目标,在整个数据生命周期中,从计划到销毁的各种操作活动。
  5. 数据安全:确保数据隐私和机密性得到维护,数据不被破坏,数据被适当访问。
  6. 数据集成和互操作:包括与数据存储、应用程序和组织之间的数据移动和整合相关的过程。
  7. 文档和内容管理:用于管理非结构化媒体数据和信息的生命周期过程,包括计划、实施和控制活动,尤其是指支持法律法规遵从性要求所需的文档。
  8. 参考数据和主数据:包括核心共享数据的持续协调和维护,使关键业务实体的真实信息,以准确、及时和相关联的方式在各系统间得到一致使用。
  9. 数据仓库和商务智能:包括计划、实施和控制流程来管理决策支持数据,并使知识工作者通过分析报告从数据中获得价值。
  10. 元数据:包括规划、实施和控制活动,以便能够访问高质量的集成元数据,包括定义、模型、数据流和其他至关重要的信息(对理解数据及其创建、维护和访问系统有帮助)。
  11. 数据质量:包括规划和实施质量管理技术,以测量、评估和提高数据在组织内的适用性。

# 数据管理7个基本环境因素

  1. 目标与原则:每个职能在自己主题领域里的方向性目标,以及职能指标量化的基本原则。
  2. 活动:每个职能都是由一个或多个活动组成,其中有部分活动能被细化为子活动。
  3. 主要交付物:信息、物理数据库及各职能在管理过程中最终输出的文档。
  4. 角色与职责:参与执行和监督职能的业务角色和IT角色,以及其各自职能中承担的具体责任。
  5. 实践与方法:包含了常见和流行的实践方法,以及交付物的执行过程和步骤。
  6. 技术:各种配套支撑技术的类别、标准和规范、产品选择的标准和常见的学习曲线。
  7. 组织与文化:主要包括管理度量指标和标准、成功和商业价值的度量指标和标准等因素。

# 9、数据资源管理

数据资源管理致力于发展处理企业数据生命周期的适当的建构、策略、实践和程序。数据资源目标:去寻找手段,以有效的控制数据资源,并提升数据资源的利用率。

# 10、数据资产管理

Data Asset Management 数据资产管理

数据资产管理的核心思路是把数据对象作为一种全新的资产形态,并且以资产管理的标准和要求来加强相关体制和手段。从经济角度,满足对资产运营的各类管理要求。

在数据资产化的大背景下,数据资产管理是在数据管理基础上的进一步发展,可以视作数据管理的升级版,主要区别在以下三个方面:

  • 一是数据管理的视角不同,数据资产管理强调数据是一种资产,基于数据资产的价值、成本、收益开展全生命周期的管理。
  • 二是管理职能有所不同,数据资产管理包含数据模型、元数据、数据质量、参考数据和主数据、数据安全等传统数据管理职能,同时整合数据架构、数据存储与操作等内容,将数据标准管理纳入管理职能,并针对当下应用场景、平台建设情况,增加了数据价值管理职能。
  • 三是管理要求有所升级,在“数据资源管理转向数据资产管理”的理念影响下,相应的组织架构和管理制度也有所变化,需要有更专业的管理队伍和更细致的管理制度来确保数据资产管理的流程性、安全性和有效性。

# ETL

ETL,是用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程,是英文Extract-Transform-Load的缩写。

常用在数据仓库,但其对象并不限于数据仓库。ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据, ETL是BI(商业智能)项目重要的一个环节。

简单来说ETL就相当于一个桥梁,把数据从各类不同的数据库,统一化格式转到数据仓库里面。

但是随着目前数字经济的发展,各机构、企业的数据爆炸式增长,ETL的弊端也随之显现,如果采用ETL的模式在传输过程中进行复杂的清洗,会因为数据体量过大和清晰逻辑的复杂性导致数据传输效率降低。

而且,在数据处理过程中,ETL模式在清洗过程中只提取有价值的信息进行存储,而是否有价值却是基于当前对数据的认知进行判断。很多具备潜在价值的数据则会被舍弃,故使用ETL很可能会使得一些有价值的数据被清洗掉无法找回。

ETL处理过程

# 数据集成

数据集成管理可实现跨部门数据的传输、加载、清洗、转换和整合,支持自定义调度和图形化监控,实现统一调度、统一监控,满足运维可视化需求,提高运维管理工作效率

# 数据交换

数据交换服务将若干个业务子系统之间进行数据或者文字的传输和共享,提高信息资源的利用率,集数据采集、处理分发、交换传输于一体,轻松玩转企业级数据交换作业。

# 主数据管理

主数据管理对需要共享的数据建立统一视图和集中管理,为各业务系统数据调用提供黄金数据。

# 数据管理、数据资源管理与数据资产管理的关系

数据管理、数据资源管理与数据资产管理有着密切关系和关联,但随着现代数字技术的高速发展,三者在内涵、侧重、延伸等方面存在差异。

三者的关系:

数据管理指利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程。数据管理目标:在于充分有效地发挥数据的作用。

数据资源管理致力于发展处理企业数据生命周期的适当的建构、策略、实践和程序。数据资源目标:去寻找手段,以有效的控制数据资源,并提升数据资源的利用率。

数据资产管理的核心思路是把数据对象作为一种全新的资产形态,并且以资产管理的标准和要求来加强相关体制和手段。从经济角度,满足对资产运营的各类管理要求。

# 数据治理和数据管理

简单来说数据治理就是数据管理的管理。管理你得遵循一定的标准规范体系,一定的流程,一定的组织角色分工,而这些内容就必须先通过数据治理定义清楚。

数据管理只是根据数据治理规范体系去执行管理和监督的职责。管理执行的依据是治理规范体系。

# 数据中台和数据湖

数据湖一般是公有云服务商提出的一个概念,即企业的结构化,非结构化数据都可以全部采集和存储到这里来。数据湖就是一个大的存储站,这个存储是分布式可无限扩展的,存储过来的数据也不会去清洗和加工,尽量保持原样。

在存过来后,数据湖再提供一些标准的开放接口给你使用数据,这些接口包括了查询SQL类接口,计算引擎接口,流处理接口等。提供接口的目的也很简单,就是能够方便得使用你存储过来的数据。

数据湖的存储一般是分布式对象存储或分布式文件存储,即使你是结构化数据库采集过来的数据,仍然会转成统一的存储方法,方便扩展。

数据中台简单来说就是企业共享数据能力下沉并对外开放。

数据中台包括了底层数据技术平台(可以是我们熟悉的大数据平台能力),中间的数据资产层,上层的数据对外能力开放。

核心的资产层本身也分层,从最底层的贴源数据,到分域应用数据,再到上层的数据仓库和数据标签库。而数据湖更多对应到数据中台概念里面的数据贴源层。

企业在建数据中台的时候实际很少用数据湖这个概念。

# 数据治理和数据中台

数据中台和数据治理从落地上来看都包含了数据仓库 (opens new window)、数据安全、数据质量 (opens new window)、ETL等细分的技术领域,但是却有着较大区别的。

数据中台和数据治理工作是一个体系性的工作。虽然涉及的绝大部分领域相同,但数据中台并不仅仅是数据治理工作的放大升级版,而是数据治理工作的深化,它强化了数据治理的深度和广度,并拓展了数据治理不涉及的数据应用领域。借助数据中台,企业才真正实现了内部数据的闭环。

因为在当今互联网时代,用户才是商业战场的中心,为了快速响应用户的需求,借助平台化的力量可以事半功倍。不断快速响应、探索、挖掘、引领用户的需求,才是企业得以生存和持续发展的关键因素。

归纳起来看,从价值层面来看,数据中台的价值在于业务数据化数据资产化资产服务化服务业务化。而数据治理则是实现数据资产化的重要步骤。不同于过去的数据平台,数据治理不是数据平台的附件,而是数据中台建设的一个重要组成部分。数据治理,在消除数据孤岛、提高数据质量、保障数据安全等方面,支撑中台数据的可见、可用、可运营。

数据中台是支撑企业数字化转型的基础底座,数据治理则是数据中台建设过程中,夯实数据底座,促进数据共享、保障数据价值和数据安全的基础工作,数据治理支撑数据中台特性,是数据中台建设的有机组成部分。

# 二、数据治理

数据治理(Data Governance)是组织中涉及数据使用的一整套管理行为。由企业数据治理部门发起并推行,关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。

数据治理的最终目标是提升数据的价值,是企业实现数字战略的基础,它是一个管理体系,包括组织、制度、流程、工具。

数据治理分为发现定义应用衡量与监测四个核心流程。

数据治理计划的结构有助于利益相关方了解组织数据,确保数据安全,并获得对数据的信任,尤其是随着企业扩大规模并积累更多的数据源和资产。

数据治理能够解决资源汇聚共享开放数据质量监管数据资产管理数据标准管控等关键难题。

# 数据治理平台

  • 亿信华辰——睿治 (opens new window)

    睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2021》报告中,位居数据治理解决方案市场份额第一。

    睿治智能数据治理平台由亿信华辰自主研发,融合数据集成、数据交换、实时计算存储、元数据管理、数据标准管理、数据质量管理、主数据管理、数据资产管理、数据安全管理、数据生命周期管理十大产品模块,各产品模块可独立或任意组合使用,打通数据治理各个环节,快速满足政府、企业各类不同的数据治理场景。

  • 中翰数据治理平台—中翰EDG (opens new window)

  • 阿里云大数据开发治理平台——DataWorks (opens new window)

    DataWorks基于阿里云ODPS/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。作为阿里巴巴数据中台的建设者,DataWorks从2009年起不断沉淀阿里巴巴大数据建设方法论,同时与数万名政务/金融/零售/互联网/能源/制造等客户携手,助力产业数字化升级。

# 数据治理遇到的问题

在大数据平台的建设过程中,我们经常遇到一些数据治理的问题。

  • 数据稳定性不足

    任务调度随着规模增大经常挂掉,不稳定,集群计算资源不足;员工经常起夜处理告警,故障无法快速恢复;突发大流量导致数据服务宕机或不可用。

  • 数据应用效率低

    表数量越来越多,找不到需要的数据;缺少数据规范与标准,每次使用都要沟通;数据需求经常变更,数仓人员压力巨大。

  • 数据管理风险大

    数据使用人员多,管理与易用难以平衡;数据出口多,人为泄露行为管控难;法规不断更新,敏感数据发现难,数据分类分级难度高

  • 数据成本压力大

    降本成为大趋势,技术挑战大;不知道成本问题在哪,在哪个部门/人;数据不敢删、任务不敢下。

# 数据治理需求

基于DataWorks的建设经验,我们将企业的数据治理需求整理成四个大的阶段,每个阶段都有不同典型的数据治理问题,应该投入更多的精力来处理这个阶段的主要矛盾,并且从这些实践中,逐步形成企业数据治理各类方法论与规范的沉淀。

一、起步阶段-数据量与稳定性的矛盾

起步阶段我们最重要的是得保障“有”数据,数据不断产生,数据量不断增长,我们需要保证数据产出的时效性,稳定性、数据质量的准确性,这些也是数仓同学最常面对的问题类型之一。在这个时候遇到的数据治理问题主要集中在集群上,例如任务长时间等待,计算、存储、调度等各种资源不足,数据无法产出,或者产出脏数据,集群挂了,运维无法定位问题,问题处理时间长,补数据止血难度大,人肉运维无自动化等等。这个时候,业务将会明显感受波动,有些故障甚至会造成业务资损。

二、应用阶段-数据普惠与使用效率的矛盾

当我们“有”数据的时候,接下来面临的就是“用”数据,我们想要更多人来使用数据,实现数据普惠,但是用的人越多,需求也会越多,效率反而会受阻。我们的产品满足50人使用还是5万人使用,可以说是天差地别。这时遇到的更多数据治理需求主要集中在效率上,例如:各个部门人员找数、查数、用数需求不断增加,使用数据人员开始增多,数仓人员疲于取数;数据开始赋能业务,各类数据应用需求井喷,数据团队压力增大等等。这个时候,数仓建设可能逐步变得有点混乱,甚至有走向失控的节奏。

三、规模阶段-灵活便携与风险管控的矛盾

随着用数据的人越来越多,前台也会建设越来越多的数据应用,带来的各类数据风险就会增大,我们要开始“管数据”,但是各类数据安全的管理动作往往会和效率背道而驰。在这个阶段我们解决的数据治理主要问题主要集中在各类安全管控能力上,例如:各类法律法规直指内部各类数据安全风险;不知道谁在什么时候怎么使用数据,出现一些数据泄露事件。

四、成熟阶段-业务变化与成本治理的矛盾

成熟阶段意味着我们能实现数据业务化,但是面对当前的环境,经常会提出“降成本”的需求。

如果业务增长、成本线性增长,我们需要成本治理;

如果业务受限,成本冗余大,我们也需要成本治理;

那应该怎么降、降哪些,对于多企业也是一个难以回答的问题。而且对于一个成熟阶段来说,成本治理不应该是一个“运动式”“项目式”的工作,而应该将之前提到的各类公司数据治理的理念深入人心,形成常态化的工作。

可以看到,降本往往是在数字化建设偏后期的需求。很多人一来和我们聊数据治理就说降本,其实在我们看来,对于绝大部分企业来说,降本的需求本身并没有问题,后面我们也会重点讲解下,但不妨可以回顾下前面几个阶段,我们是否做的足够充分,例如当前的成本高企,或许是因为第一阶段堆叠了过多的人肉,又或许是因为第二阶段各种人员无序使用资源。

# 数据治理的好处

# 01消除数据孤岛、避免重复开发

过去,数据在不同的系统独立存储,独立维护,彼些之间相互孤立,数据之间是物理上的孤岛。建设数据平台,对数据进行统一采集后,数据的物理孤岛现象消除,但数据的逻辑孤岛依然存在,不同部门站在自己的角度对数据进行理解和定义,相同的数据被赋予不同含义,加大了跨部门数据合作和沟通成本。即使对基础数据进行了统一的采集整合,基础数据之上还会形成应用孤岛,不同部门、不同项目组的应用独立开发,指标和汇总数据都使用基础数据进行计算,不仅浪费大量人力开发资源、计算资源,还对后续的运维造成沉重的负担。

在数据治理的过程中,通过采集各业务系统和数据中台的元数据,为数据的采集、开发、存储、应用全生合周期的数据管理提供基础信息;在元数据的基础上识别数据资产,对企业数据资产进行识别盘点,包括中台采集的基础数据、共享模型和组件、指标和数据应用,形成企业数据资产目录,为数据共享开放和开发成果的复用提供统一的入口。

# 02提高数据质量

传统的大数据仓库,主要作用是经营分析、决策支撑,对数据的精度要求较低。而数据中台作为企业利用数据驱动业务的基础支撑平台,企业的业务、管理都可能建立在中台之上,对数据质量则提出更高要求。例如,同样的财务数据,用来做经营分析和用来做税务结算的数据质量要求完全不同,前者只需要宏观数字的准确,后者则在精确、准确上有着更高要求。

数据质量问题通常在中台数据整合、加工过程中暴露,但其问题发生根源往往在源端业务系统。建立数据质量规则库,对中台数据持续进行质量稽核和监控,对问题进行归因分析并持续推动问题闭环管理是数据治理解决数据质量问题的手段。以中台数据为抓手,建立覆盖事前、事中、事后的数据质量管控机制,通过数据质量管理,推动企业内部业务数据和流程拉通,提高企业数据的可信度和价值。

# 03保障数据安全的共享和应用

随着企业数字化转型工作的开展和推进,企业的数据价值越来越被企业所重视,数据在成为企业核心竞争力资源的同时,也被不法分子或行业竞争对手所关注。来自法律和政策的要求也越来越多,2021年6月,第十三届全国人民代表大会常务委员会第二十九次会议通过《中华人民共和国数据安全法》,企业除了对自身商业秘密,企业还对影响个人权益、国家安全的数据承担保护义务。

传统的信息安全思路,往往希望将数据放在一个封闭的环境中,而数据中台的建设则旨在数据的融合、开放和共享。基于此,实现更精细化的数据安全管控,建立以数据为中心的数据安全体系,是企业实现资产服务化的前提。

数据安全管控是数据治理的关键节点,建立在对数据承载业务的理解,和完整的企业数据资产地图之上,以数据为中心,覆盖采集、传输、存储、共享、使用和销毁全生命周期,保护数据的“保密性”、“完整性”、“可用性”的数据安全管理是数据治理建设和应用的前提。