新闻动态> 陶胜刚:从产品技术能力视角出发,打造适合企业的数据中台(上)

陶胜刚:从产品技术能力视角出发,打造适合企业的数据中台(上)

女足世界杯买球网站2023-03-23 女足世界杯买球网站女足世界杯买球网站 女足世界杯买球网站数字化,数字化转型,数据中台

//  摘 要

企业如果想要玩转数据中台,真正做到让数据用起来,并推动自身业务的发展,除了确立有效的组织形式,推广围绕数字化转型的协作方式之外,还需要一套得心应手的系统工具来帮助企业将中台战略落实。

数据中台经过几年的发展,已经在不同规模、行业、领域的企业、机构中得到落地执行,也仍然有众多企业在观察、分析数据中台在自身生命周期发展中存在的必要性。这其中,企业要建设什么样的数据中台、如何建设、需要什么能力是CIO们近年来面临的核心命题。

接下来将通过上下两篇文章介绍如何打造企业数据中台建设所需产品技术能力。

前言

  软技能与硬技术

在应用层面,首先要认识到数据中台本身并不是一个产品或系统,对于企业来说它是一个解决方案,整合了技术能力与技术产品,缺少任意部分,都无法达成数据中台的目标。
技术能力是企业短期所能储备的人才及其能力,技术能力决定了数据中台工具的选型和应用。能力的考察维度,主要在对技术的认识和使用熟练度方面,能力高低可以通过学习、培训快速成长,因此影响不大。
技术能力的边界会受到企业自身业务属性的限制,如果是互联网强相关的企业,在数据技术能力上将涉猎更加广泛,而传统行业的企业,即便有信息化系统和流程,也是缺乏数据技术能力的。CIO需要清晰地认识自身企业的特点,业务的需求,来对技术选择与产品采购作出决策,搭建适合自身的数据中台。
数据中台本身要具备的能力大同小异,规模再小的数据中台也应该五脏俱全。女足世界杯买球网站产研与交付团队近年多次参与中国信通院发起的《数据中台能力成熟度模型》的讨论与编撰。
此专题将结合数据中台类产品能力与实际应用的技术方案做简单解析,尝试帮助企业找到适合自己的最佳数据中台路线。

  中台能力拆解

业务是企业立身之本,数据中台类产品相对于业务系统、业务中台,是一个旁路支撑系统,其能力源泉即是业务数据,这些数据来自业务,又反哺业务,在循环、流通、处理、分析过程中形成数据资产与业务资产,并共享开放给内外部应用使用,整个过程可以总结为:业务数据化、数据资产化、资产服务化、服务业务化四个环节。
在《数据中台能力成熟度模型》中,这四个环节主要以数据开发、数据服务、数据管理、资产运营四个模块来支撑。由于涉及具体的研发工作,还需要在中台建设前设计相对完善的数据架构与技术架构,确保数据开发与数据服务按规范有序推进。最后,通过技术工具来提供上述模块的实现,结合技术能力形成完整的数据中台。
有业务的发生,就有数据的产生,这是IT时代的不灭法则。业务转化为数据的工作已经由业务系统或者三方采集工具完成。此处的业务数据化指的是数据中台如何对业务数据进行存储,以便于数据研发、分析人员的识别和使用。

女足世界杯买球网站


数据编目

业务系统产生的原始数据是最初始的数据资产,或者称为数据资源。在接入数据中台时,要为数据编制目录,便于后续数据使用索引,同时让用户使用中台系统时,知道从哪里获取数据。

数据目录可以有多个层级结构分类:对于原始数据,可以按资源属性编目,例如业务系统-数据库-数据表的结构;对于加工过的数据或者业务方需求的数据,可以按提供部门、主题、专题进行编目。

数据编目是企业内部的全员事项,数据的业务归口部门、各负责人都要对数据的物理属性、逻辑属性、业务属性、管理属性以及流通属性进行定义。

  • 物理属性描述数据的来源系统、存储位置、数据大小、更新时间等客观的数据状态
  • 逻辑属性描述数据结构、编码格式等便于系统、用户解析数据的定义
  • 业务属性描述数据的业务信息、目录分类、标签等让人快速了解并获取数据内容
  • 管理属性描述数据的负责人、级别、使用权限等管控数据信息
  • 流通属性描述数据能够被内部、外部系统使用的条件与形式

数据目录伴随企业数据治理的推进,也在持续发生变化。如何管理控制数据目录的版本、与组织架构协同,以保证各数据需求方能够使用实时有效的数据,也是数据管理者考虑的重点问题。

女足世界杯买球网站

编制数据目录

数据存储

在编撰数据目录时,我们已经掌握数据的实际存储位置,这些数据基本都分散在各个业务系统中,形成了实际上的“数据孤岛”。消灭数据孤岛是数据中台的主要目标之一,在具体能力要求上,拥有物理、逻辑两种数据集中存储模式,形成两类存储方案,即数据仓库存储、数据湖存储。
  • 数据仓库

数据仓库是批量计算时代的产物,主要提供了历史数据的数据存储、清洗、加工能力,核心使用场景在商业智能(BI)分析。因此数据仓库只提供结构化数据存储,任何数据进入数据仓库都要处理为结构化数据,整个数据应用场景就收窄了。数据仓库的存储与计算一体化架构,要求企业在数据计算之前先进行数据同步动作,这样导致数据的时效性降低,对实时分析决策场景满足度也有较大影响。

  • 数据湖
数据湖相对数据仓库,提供了更广泛的存储格式兼容性,满足更多数据应用场景,是更符合中台理念的存储方案。在技术选型方面,当前社区上提供三种数据湖开源组件:DeltaLake、Hudi、Iceberg。这三个组件的诞生场景不一样,决定了他们的特性差异。从各维度对比中,Hudi在存储引擎、自动合并小文件、索引等方面都具备优势,但在文件格式上不如Iceberg丰富,企业可以根据自身需求选择相关组件和方案。
数据湖可以实现存算分离的数据架构设计,这也是与数据仓库技术上最大的差异。数据湖在构建时,业务方可以根据数据的使用频率决定是否将数据同步到数据湖中。如果数据是经常使用的“热”数据,可进行物理入湖;如果是不常使用或者不是用的“冷”数据,则只需要虚拟入湖即可。通过数据目录与数据物理存储位置(主要是在业务系统中)建立关系,在使用时同步,甚至使用时处理、计算,将结果加载到数据湖中,供应用使用,是更科学、成本更低的数据计算方案。
除了结构化数据,非结构化数据也可以入湖并提供资产价值。基于虚拟、物理入湖的两种方式,非结构化数据可以选择原始文件入湖,也可以选择将文件解析入湖,根据不同的场景,选择不同的方式。

女足世界杯买球网站

本期分享就到这里,下期我们将围绕数据资产化、资产服务化、服务业务化三个方面来为大家解读。

上一篇:直播回顾|一文详解《数字中国建设整体布局规划》

下一篇:陶胜刚:从产品技术能力视角出发,打造适合企业的数据中台(下)

返回列表

搜索

从这里开始 让数据用起来
联系我们