毕业论文
您现在的位置: 自动化 >> 自动化前景 >> 正文 >> 正文

数字化转型时代的企业数据新基建爱分析报告

来源:自动化 时间:2023/3/23

前言

刚刚过去的21世纪的第二个十年,是消费互联网蓬勃发展的十年,也是云计算、大数据、人工智能等新一代信息技术,即“数字化技术”快速崛起的十年。

在这一时期,以信息服务为主的消费互联网行业,如电商、互联网金融、社交娱乐等,充分享受了数字化技术带来的“数字化红利”,极大推动了其终端用户的消费行为与体验的数字化转型。

但相比于消费互联网行业在数字经济浪潮下的蓬勃发展,以传统线下服务、实体商品制造为主的传统行业逐渐显得落寞。在国际局势不明朗、国内市场红利逐步耗尽、存量竞争日益明显、人才成本日益高企、产业升级换代压力增大的当下,传统行业的经营与效益上正面临三十年未有之变局,在新兴的数字化业态冲击下,还同时面临着客群与市场相对萎缩的困局。

因此,投资数字化技术,充分接纳技术带来的变革,推动企业数字化转型,从而实现经营策略由粗放式向精细化的转变,对抗经济周期带来的下行压力,将成为传统企业的必然抉择。

根据华为牛津经济研究院报告显示,自年以来,金融、制造、ICT服务、交通、公用事业、房地产、农业等传统行业的数字化技术投资的年复合增长率,明显超越以消费互联网为代表的数字化技术制造业。

图1:各行业的数字投资增长

该报告还表明,过去三十年中,数字化技术投资每增加1美元,便可撬动GDP增加20美元,而1美元的非技术投资仅能推动GDP增加美元,数字化技术投资的平均回报是非数字化技术投资的6.7倍。这也说明,驱动传统行业的数字化技术投资的动力来源,本质上是企业对效益提升的追求。

在数字化技术中,数据库、数据仓库、大数据平台和云数据平台等基础软件,构成了企业数字化转型的重要基础设施,即“数据基础设施”。随着各行业的数字化场景的发展,新的业务挑战对“数据基础设施”的技术路线演进产生了极大的推动作用。

但是,迄今为止的数据基础设施发展,仍然难以彻底解决以集团型、多分支-企业为代表的大中型企业数字化转型的痛点。

比如,银行、保险等金融机构普遍采用夜间“跑批”的方式对当日交易数据进行ETL处理,从而将数据汇总到数据仓库、数据集市中,供用户进行报表分析与即席查询,但数据基础设施底层的复杂查询性能,成为“跑批”结果时效性的主要瓶颈,这也影响了用户进行决策的频次和时效性。

再如,电力、电信等关乎国计民生、用户数量巨大、IT基础设施复杂的行业,普遍面临的挑战是数据规模及其庞大,而数字化应用的计算与存储需求也及其巨大。为了提升工作负载能力,多集群的数据基础设施已经成为行业普遍现状。由此,尽管交易型数据库的“数据孤岛”得到了一定程度的治理,但在数据基础设施内部,却因为多集群间的数据共享难题,产生了新的“数据孤岛”。

由此可见,数据基础设施的技术架构、功能与性能特点的不断演进和发展,仍具备无限的想象空间。以“云数据平台”为代表的新一代数据基础设施,正逐渐成为集团型、多分支企业推进整体数字化转型的 选择。

目录

1.数据基础设施支撑企业数字化转型

2.企业数字化深入推进,云数据平台价值显现

.以云数据平台为中心的企业数字化落地方法论

4.典型行业实践案例

1.数据基础设施支撑企业数字化转型

在宏观经济走向中低速增长的今天,“重资产、薄利润、现金流短缺”等经营现状,愈发困扰着传统企业,产业升级任重而道远。

相比于从诞生 天起就带有浓重“数字化基因”互联网企业,许多传统企业对数字化技术的应用还处在摸索阶段。但是,中国经济已经开始迈入“数字经济”的新阶段,快速涌现和崛起的数字原生企业,以及数字化技术带来的竞争优势,意味着传统企业如果不快速接纳数字化技术带来的变革,那么将必然无法维持原有竞争优势。

因此,通过积极接纳数字化技术,重塑业务流程,拓展业务边界,将成为传统企业实现可持续发展的必然选择。

1.1企业数字化的战略规划

国务院发展研究中心课题组发布的《传统产业数字化转型的模式和路径》对产业数字化进行了定义:利用新一代信息技术,构建数据的采集、传输、存储、处理和反馈的闭环,打通不同层级与不同行业间的数据壁垒,提高行业整体的运行效率,构建全新的数字经济体系。

在这一基础之上,爱分析认为,企业的数字化转型,则是指企业依托于数字化技术(即“新一代信息技术”),构建与数字化技术相适应的战略规划、人才能力、组织架构、运营方法,推动业务及运营模式的不断变革与敏捷创新,从而帮助客户创造更大价值,实现业绩增长与运营效率提升。

相比于传统企业,数字化企业具备四大基本特征:以客户为中心、以数据价值为基础、以AI能力为引领、以敏捷能力与驱动型IT组织为支撑。

由此可见,企业数字化转型是一项系统性、全员性工程,绝非能够一蹴而就。传统企业的数字化转型项目,普遍存在“成本高、周期长、难度大”等问题,这使得传统企业的数字化转型步伐显得迟缓且保守。

为了降低数字化转型项目的失败风险,降低试错成本,提升项目整体效益,进行自顶向下的战略规划显得至关重要。根据先进企业的数字化实践经验来看,成功的企业数字化战略,至少应当包括数字化战略、数字化场景、数字化技术与数字化组织等四个层次。

图2:企业数字化的战略规划

数字化战略:企业数字化战略具备系统性特征,是“一把手工程”,责任首先在于企业高层,成功的关键也在于企业高层观念与理念的转变。因此企业首先需要进行战略目标的设定,从而充分调动全企业、各部门的资源,对业务场景、组织架构、数据基础设施进行整体规划,并对实施流程进行整体把控。

数字化场景:数字化战略的核心价值在于赋能业务场景,缺乏落地场景的数字化战略只是“空中楼阁”。因此,企业应当在具体业务场景中衡量数字化的真实价值,这就需要企业全面梳理业务场景,并对各场景的业务需求、现有条件、预估投入、波及范围和预期业务收益进行全面评估,保证数字化转型的目标与收益相对明确、实施过程与影响相对可控。

数字化技术:数字化技术主要指为企业数字化战略提供技术支撑的云、数据、AI等技术能力。其中,数据能力主要指企业基于数据分析来支撑业务决策的能力,其在基础软件层面的具体载体是“数据基础设施”。

数字化组织:数字化战略的内在要求是对数字化组织架构的打造。为了深度应用各类数字化技术,企业需要推动数字化人才的引进和培养,比如数据分析师、数据科学家、算法工程师等专业性技术人才,以及具备数字化意识的业务人才和管理人才。在人才基础上,企业需要进一步搭建 化人才价值的数字化团队。在文化层面,企业需要通过一系列的规范标准、制度安排、激励措施,推动“以数据发现问题所在、以数据分析问题成因、以数据预测发展趋势、以数据推动业务变革”成为全企业、各部门的集体共识,将数据文化内化为企业文化的一部分。

1.2数据基础设施的定义

爱分析认为,数据基础设施是一套建立在过往的交易数据基础之上,并结合一定的技术手段与业务流程,为业务场景提供数据服务,实现数据价值变现的生态体系。数据基础设施的建设方式、建设质量直接决定了数字化团队的协作方式与工作效果,也进一步影响了整个企业数字化战略的最终效果。

一般来讲,数据基础设施包括数据体系、技术体系、运营体系、服务体系等四个部分。

图:数据基础设施架构

数据体系:包含了企业内可利用数据的组织方式,包括源系统的交易数据,各类非结构化、半结构化、二进制数据,以及结构化数据的数据分层关系、数据模型、数据表结构、视图关系、字段名称、数据容量、数据权限分配等。技术体系:包含了一系列数据相关的技术产品,如交易型数据库、数据接入工具(数据同步/消息中间件)、分析型数据库、NoSQL数据库、数据开发工具、AI算法开发工具等,以及不同产品之间的协同关系与业务流程。运营体系:通过数据标准、数据质量、数据资产目录、数据服务培训与推广、平台操作流程与规范等,搭建数据的资产化管理与运营体系,从而为服务体系提供稳定的运营支撑,并保证数据基础设施与组织架构之间的协同效率。

数据运营体系建设在金融行业的重要性:

在中国经济转型、金融科技高速发展、金融环境及监管 策变化的大背景下,金融行业尤其银行业面临着持续挑战和变革压力,亟需推进全面的数字化转型。

在需求层面,数据已经成为金融机构的战略资产,数据的准确性、完整性、一致性等数据质量指标对金融机构至关重要。

在 策层面,银监会、人民银行、外管局等监管机构对商业银行等金融机构的数据良好标准、数据一致性、完整性等数据质量指标的要求也日趋严格。比如,银保监会于年5月21日正式发布《银行业金融机构数据治理指引的通知》(银保监发22号),对银行数据治理体系建设提出了规范要求,并将数据治理与监管评级挂钩,将银行业金融机构开展数据治理工作的重要性提高到了战略高度。

但是,当前许多金融机构仍然普遍存在“缺少数据治理体系、数据质量较差、数据应用难以有效开展”等问题,与满足监管的基本要求还有较大距离,也难以满足日益增长的数据应用需求。

因此,构建完善的数据运营体系,加强数据治理、提升数据质量、发挥数据资产价值、支持业务创新和精细化管理的必要性和紧迫性日益凸显。

服务体系:是数据与业务结合的关键环节,主要以可视化大屏、固定报表、自助式报表、数据API服务、数据应用等数据服务形态,以便捷的方式为业务部门提供数据服务,实现数据变现。

1.数据基础设施的演进历程

作为企业数字化转型的核心支撑,数据基础设施的技术架构特点,决定了其支撑数字化团队与数字化场景的能力上限。

根据业务场景、组织架构、技术架构、功能特点、性能特点的差异,数据基础设施的演进历程,已经经历了数据库、数据仓库、大数据平台三个完整阶段。目前,数据基础设施正在迈向前三个阶段之后的第四个阶段,即“云数据平台”阶段。而在这一演进过程中,还出现了像“数据中台”这样的阶段性概念。

图4:数据基础设施的演进历程

1..1数据库阶段

数据库是数据基础设施的萌芽阶段,而最早的商用数据库产品,如Oracle、DB2,均诞生于年代末到年代初。

早期的数据库应用于以OLTP(联机事务处理)场景为主,即直接承载来自业务系统、交易系统的数据存储与计算,因此这类数据库又被称之为“事务型数据库”或“交易型数据库”。在许多情况下,人们也将它等同于狭义的数据库。

业务场景

该阶段的企业缺乏成熟、可落地、面向一线业务人员的数字化场景,核心痛点是为企业管理层解决宏观层面的经营决策问题。

因此,该阶段的数据查询维度、数字化展现形式都比较单一,主要是基于固定的若干张数据表,生成面向管理层的固定报表、可视化大屏等。

组织架构

该阶段的企业普遍缺乏专业的数字化人才,也缺乏成熟的数字化组织架构与文化,主要由IT人员承担面向管理层的数字化场景的落地。

数据基础设施的技术架构

该阶段的数据基础设施,尚未完全从业务系统的交易数据库中分离出来。对数据分析需求,企业一般基于交易型数据库单独建设一套用于分析查询的白癜风库,汇集来自不同交易数据库的原始数据。在少部分数据分析场景下,企业还会直接用交易数据库进行支持。

交易型数据库的软硬件架构都采取共享存储架构,即计算节点能够访问到任意的存储节点,同时需要基于专有物理硬件,由此保证对性能的良好优化。

数据基础设施的功能及性能特点

功能特点:对各类SQL标准、ACID特性(指数据库事务的四个属性,包括原子性、一致性、隔离性、持久性)的支持都相当完善,因此带来了很强的稳定性。但是,共享存储架构带来的缺点是可扩展性差,一般只能扩展到十几节点就会遇到瓶颈。性能特点:主导 代数仓的Oracle、IBM等IT巨头公司具备深厚的基础研究和性能优化能力,因此在OLTP场景中表现优良,但是由于共享存储架构在可扩展性方面的不足,使得其在大数据分析场景中的性能表现相对一般。典型产品:Oracle、IBMDB2

1..2数据仓库阶段

年代后,尤其是随着E.F.Codd于年正式提出联机分析处理(OLAP)的概念,数据基础设施开始进入“数据仓库”时代。

业务场景

该阶段的企业开始具备一定的数字化意识,数据分析的需求开始从管理层下沉到业务部门,核心痛点是为一线业务人员的解决业务决策问题。

由于OLAP的数据查询维度更加复杂,查询频次更高,企业开始将承载OLAP工作负载的数据库与业务系统的交易数据库进行分离,从而避免OLAP对核心交易造成干扰。因此,专用于OLAP的分析型数据库诞生,并逐步从交易型数据库中分离出来,也因此获得了“数据仓库”这一更加形象的别称。

该阶段的数字化展现形式,仍然以传统报表和可视化大屏为主,因此为了支撑业务部门的数据分析需求,需要具备专业的数据分析人员响应需求,并提供技术支持。

但是,为了满足业务人员需要,企业需要存储更多的白癜风,常常需要对数据仓库进行扩容,而Oracle、DB2等交易型数据库扩展性较差,难以满足扩容需求。因此,基于MPP无共享架构的数据库逐步进入人们视野。

组织架构

在组织架构层面,该阶段的企业大多仍然由IT部门来支撑数字化,业务部门、IT部门均缺少数字化人才。因此,其IT组织架构尽管能够支撑一定频次的业务需求,但对于紧迫需求仍然难以充分响应。

数据基础设施的技术架构

数据仓库的软硬件架构经历了较为漫长的发展历程。

年代,Teradata首次推出了采取MPP无共享存储架构的数据库,其主要特点是基于大规模并行处理(MPP)架构,即在每个计算节点都有自己独有的存储节点,数据并均匀打散到所有节点存储,并将多个并行任务分散到不同的节点上执行。此外,Teradata继续采用了类似早期Oracle、DB2等数据库的专有物理硬件。到年代之后,MPP数据库被越来越多的应用到数据仓库的构建之中。

到年前后,Greenplum、Vertica等支持x86通用服务器的MPP数据库出现,降低了数据仓库的建设和扩容成本。

数据基础设施的功能及性能特点

功能特点:无共享架构使得节点扩展变得更加容易,而不再受到共享存储架构的制约,节点数量上限一般能达到数百个;基于x86通用服务器的无共享架构,降低了扩展成本,提升了灵活性;对SQL标准、ACID特性的支持性较好。性能特点:主导MPP数仓的Teradata、EMC(收购Greenplum)、惠普(收购Vertica)等公司,在整体实力上同样较为雄厚,具备较强的基础研究和性能优化能力;无共享和MPP架构消除了在大数据场景下的性能瓶颈,提升了负载均衡能力,在大数据分析场景中有着超越交易型数据库的性能表现。典型产品:Teradata、EMCGreenplum、HPEVertica

1..大数据平台阶段

年后,由于互联网、移动互联网的逐步普及,业务系统的终端用户量的爆发式增长,企业内沉淀的数据量同样呈现爆发式增长,数据基础设施开始进入“大数据平台”阶段。

业务场景

在互联网、移动互联网技术的推动下,金融、电商、社交娱乐等领域的企业开始越来越多地触及终端用户的线上数据。这些数据具有多样、多维度、大规模的特点。

首先,数据类型十分多样,包括结构化数据(关系型数据库中的表)、半结构化数据(如CSV、XML、日志、JSON)、非结构化数据(电子邮件、文档)、二进制数据(图形、音频、视频)等。其次,数据维度更多,包含了用户的各类行为数据。此外,存储的数据量也从过去的GB、TB级别,进一步提升高PB、EB级别。

该阶段的数字化展现形式更加多样,除了传统报表、可视化大屏,具备自助式分析能力的敏捷BI工具逐步普及。这使得在部分场景下,业务人员能够自行进行数据探索与分析,而不再需要IT人员、数据分析师随时进行技术支持。

但是,MPP数据仓库的扩展规模仅能到数百节点,难以进一步扩容,而且不支持非结构化、半结构化数据,逐渐难以满足企业需求。在这样的背景下,以Hadoop为代表的大数据技术逐步成为数据基础设施的核心技术之一。

组织架构

该阶段的企业,普遍开始拥有具备业务理解能力和数据分析能力的数字化人才,但人才往往分散在各业务线,或归并在IT部门,缺乏统一的数字化组织架构,以及对数字化的整体推动能力。

数据基础设施的技术架构

以Hadoop为代表的大数据技术为企业统一采集、存储与处理各类等多种类型数据提供了技术可能性,“数据湖”架构的理念也由此诞生,而许多企业又将“数据湖”称之为“大数据平台”。

基于Hadoop生态的大数据平台,需要兼容前一阶段建设的MPP数据仓库,同时提供基于SQL-on-Hadoop(如Hive、SparkSQL)的数据仓库,以及包括NoSQL数据库(如HBase)、流处理、批处理、分布式存储(如HDFS)在内的大数据套件。

与MPP数据仓库的共享存储架构不同,SQL-on-Hadoop数据仓库基于HDFS等分布式、软件定义的存储,在软件层面实现了存储节点与计算节点的相互独立,因此可以实现计算、存储独立扩展。

数据基础设施的功能及性能特点(仅针对SQL-on-Hadoop数据仓库)

功能特点:由于计算存储分离架构的特点,SQL-on-Hadoop数仓能够实现计算、存储分别扩展,因此在扩展性、在线扩容等方面有明显优势,支持上千节点的扩展规模;但是,由于HDFS的只读限制,SQL-on-Hadoop数仓在对传统事务型数据库所具备的SQL标准、ACID特性支持较差,这也使得应用从事务型数据库、MPP数据库向SQL-on-Hadoop数仓迁移的过程中,存在大量不兼容的问题,即应用易迁移性较差。性能特点:SQL-on-Hadoop数仓由开源项目、互联网公司、初创型公司所主导,生态相比于前两代数仓更加开放,但是由于缺乏针对性能和功能的深度优化,在大多企业客户中只被应用于边缘场景,一直未达到能够全面取代传统数仓的要求。典型产品:Hive、SparkSQL、ClouderaImpala、FacebookPresto

1..4云数据平台阶段

年后,企业上云已经成为普遍共识,同时企业各业务部门对大数据分析的需求更加普遍化、敏捷化、个性化、场景化,数据的业务价值也由辅助决策转变为推动创新。在这一背景下,数据基础设施开始进入“云数据平台”阶段。

业务场景

该阶段的企业,其数字化场景更加广泛且普遍,而且产生了大量的跨部门、跨业务线,甚至跨分支机构、跨组织、跨地域的数据共享与联动分析。同时,孵化于企业原有体系内,但又需要由数据来驱动迭代优化的创新业务层出不穷。

因此,企业数字化转型思路需要从过去的单个场景突破,转变为全集团、跨组织、跨地域的数据共享与资产化管理,以及全场景数据赋能。

组织架构

为了推动集团层面的业务、数据共享,加速业务的敏捷创新,企业需要在组织架构层面对数字化人才、数据基础设施的管理和运营团队进行统筹规划。

比如,以阿里巴巴、腾讯为代表的互联网巨头都先后提出了“中台战略”,成立中台部门对数字化战略进行统筹。为了推动数据的跨部门复用与共享,“数据中台”的概念也被同时提出。

数据基础设施的技术架构

然而,“数据中台”概念的局限性在于并未改变数据基础设施的底层技术架构,而是沿用了大数据平台阶段的技术架构,并保留了传统技术路线带来的弊端。

对此,云数据平台采用了计算与存储分离、虚拟计算集群等新型技术架构,对象存储等云原生技术对数据平台进行了深度优化。

数据基础设施的功能特点

基于云原生、计算存储分离、虚拟计算集群等新型技术架构,云数据平台实现计算、存储节点独立扩展,突破了基于MPP、SQL-on-Hadoop技术的大数据平台在扩展性、灵活性方面的局限。

此外,云数据平台还克服了SQL-on-Hadoop数据库在SQL标准、ACID特性等方面的不足,可以支持数字化应用从传统共享存储数据仓库、MPP数仓向云数据平台的平滑迁移。

,大数据平台的基础上,云数据平台吸纳了来自“数据中台”理念的数据资产层与数据服务层,从而形成“数据平台-数据资产-数据服务”的三层架构。

图5:云数据平台“平台-资产-服务”三层架构

数据基础设施的性能特点

相比于大数据平台,云数据平台摆脱了以Hadoop为核心的技术体系的影响,克服了其在性能优化和并发等方面的缺陷,对云平台进行了原生优化,尤其是在分析型云数据仓库方面,可以支持计算与存储分离,弹性可扩展,支持数千节点规模集群,虚拟计算集群,湖仓一体,并对性能做了深度优化,从而大幅度提升面向多张表、批量数据、复杂表关联的复杂查询性能。

2.企业数字化深入推进,云数据平台价值显现

尽管数据基础设施经历了漫长的演进历程,但从数据库、数据仓库到大数据平台阶段,数据基础设施在扩展能力、弹性能力、查询性能、易迁移性等方面,始终受到技术路线繁杂、遗留问题重重的MPP、SQL-on-Hadoop等上一代数据仓库技术的制约。

同时,企业数字化实践的主战场,已经从过去的互联网、创新型企业,全面转到以集团型、多分支企业为代表的大中型传统企业,数字化需求的深度、广度出现全面提升。

然而,时下的“数据中台”解决方案,本质上只是在大数据平台的基础上,融合了数据资产化与数据服务化的管理能力,并没有对大数据平台的原有技术路线进行革命性升级。

因此,数据基础设施需要对技术进行彻底变革,变得更加统一与强大,而新一代数据基础设施——“云数据平台”的出现,则预示着数据基础设施的未来变革方向。

2.1四大新挑战困扰企业数字化转型

金融、能源、制造、零售等行业内,存在着许多体量庞大、组织架构复杂的集团型、多分支企业。然而,这类企业在推进数字化转型过程中,数字化应用逐步表现出了“大规模”、“强敏态”、“高时效”、“智能化”等四大新特征,对数据基础设施提出了相应的四大挑战,如下图所示。

图6:数据基础设施面临的四大挑战

2.1.1数据规模膨胀,数据基础设施产生新“数据孤岛”

金融、电力、电信等行业内企业,普遍存在业务系统众多、交易次数巨大、交易额度巨大、数据积累量巨大等特征。据公开数据显示,年全国银行卡交易总次数为.89亿笔,日均8.82亿笔,交易总金额.9万亿元,日均2.4万亿元。

因此,企业内的数字化应用对数据基础设施的计算并发量、存储上限的要求越来越高,数据基础设施的节点规模出现了急剧膨胀。比如,某国有大行需要分析数十PB级交易数据,需要以上的数仓节点才能满足存储需求。

图7:数据规模膨胀对数据基础设施的挑战

在这样的背景下,两方面因素共同导致了数据基础设施内的“数据孤岛”产生,进一步拉高了企业的数据运维管理成本。

传统交易型数据库与MPP数仓的节点规模限制

目前,MPP凭借对SQL标准、ACID特性的良好支持,仍然是大型企业的核心数字化应用的主流选择。此外,许多企业还在采用Oracle、DB2等传统的交易型数据库来支撑数据分析业务。

面对膨胀的数字化应用规模,企业内的数据基础设施一旦达到可扩展的节点上限,必须采用多集群部署方式,即通过应用级的多集群划分来支撑更多的应用带来的并发计算,通过多集群间的数据分散存储来支撑更高规模的数据存储。

但是,传统交易型数据库、MPP数据仓库的可扩展节点上限仅在十几到上百节点,在许多数字化较为 的大型企业内,节点需求已经很容易突破上限,因而同时部署多个MPP集群,已经成为大型企业数字化的必须。

比如,某国有大行需要分析10PB级交易数据,需要以上的数仓节点才能满足存储需求,因此只能建立40个MPP集群。但是,多集群间的数据共享十分困难,该行只能对部分数据在多个集群进行多份冗余存储,导致最终的实际数据存储量高达几十PB,集群之间数据很容易产生不一致,给该行造成了极大的运维负担。

由此可见,尽管数据基础设施的出现与发展始终是为了实现数据共享利用,消除交易型数据库之间的“数据孤岛”,但是多集群的现状,事实上在数据基础设施内部制造了新的“数据孤岛”。

不同技术架构的数据仓库间的应用易移植性问题

与传统交易型数据库、MPP数仓不同,Hive、SparkSQL等SQL-on-Hadoop数仓具备上千节点规模的扩展能力,但其缺陷在于对SQL标准、ACID特性的支持能力不足,性能比MPP差多倍,并发支持有限,因此许多大型企业倾向于将更多地应用在边缘业务的数字化场景中,与MPP数仓并行使用,共同构建数据基础设施。

然而,传统交易型数据库、MPP数仓、SQL-on-Hadoop数仓在计算存储架构方面的差异,以及在SQL标准、ACID特性上的不兼容,意味着双方之间的数据迁移和共享十分困难。

但是,未来大型企业的数字化,往往不再是过去由单个部门、单条业务线驱动的数字化,而是越来越多地由战略层面进行统筹规划,全部门、全业务线协同推进的数字化。在这种背景下,大型企业常常需要将过去独立建设的数字化应用进行迁移,以同一套数据基础设施支撑上层各个业务线的数字化应用,不但实现了管理的统一,还可提升其扩展能力。

因此,在将遗留的数字化应用在不同技术架构进行迁移过程中,往往需要进行大量的代码重构,移植成本较高,难以实现平滑迁移。

例如,某电网系统内分公司搭建了基于Hive的大数据测试环境,但是拥有更多计算节点的Hive大数据分析性能对比Oracle几乎没有提升,且原有基于Oracle的众多应用系统向Hive迁移时,由于Hive不支持存储过程等Oracle很多功能,需要改写的代码量巨大。

因此,大型企业在数字化过程中,亟需探索一套通过“大一统”方式来建设数据基础设施的解决方案,消除数据基础设施内的“数据孤岛”现象。

为了应对这些挑战,新一代数据基础设施——“云数据平台”应具备以下能力:

计算存储分离架构,及其带来的强扩展性、强共享性:采取计算、存储分离的技术架构,支持数千节点的集群规模,支持多虚拟计算集群;强SQL标准支持、ACID特性、Hadoop原生支持(即支持传统Hadoop生态系统),及其带来的强兼容性:具备完善的SQL标准、ACID特性的支持能力,兼容过去采用Oracle、DB2等传统交易型数据库、MPP数据库的数字化应用,并支持对接访问HDFS等Hadoop原生组件,从而兼容过去采用SQL-on-Hadoop数据库的数字化应用。

图8:云数据平台应对数据规模膨胀挑战

2.1.2敏态特征凸显,数据基础设施弹性能力受挑战

早在年,Gartner就提出了融合“稳态IT”与“敏态IT”的“双模IT”概念。对于传统行业内的集团型、多分支企业来说,加强“敏态IT”能力建设,是推进数字化转型的重要组成部分。

在“敏态IT”模式下,企业需要更加

转载请注明:http://www.0431gb208.com/sjsbszl/3877.html