“数仓出局,中台已凉,数据湖将称王!”目前,市场上出现了这样一种说法,估计大多数人很难评断真伪。
既便是专业人士,也不会武断地做出这样的研判,毕竟数据湖并不是为了取代数仓而生的。同时广大的用户更看重的是应用价值,而不是新名词或者换汤不换药的噱头。
毫无疑问,数字经济时代,数据已成为企业的核心资产。数据湖(DataLake)已经成为继数据库、数据仓库之后敏捷处理数据、提升数据洞察力的又一标志性的技术。摸清家底,搞清方向,应用数据湖才能心里有谱。
01
数据湖是开疆拓土不是替代既有产品
1)数据湖通常是企业中全量数据的单一存储。
年,Pentaho创始人兼首席技术官JamesDixon首次提出了数据湖概念。
经过多年的发展,中国软件网发现,数据湖是以集中方式存储各种类型数据,提供弹性的容量和吞吐能力,能够覆盖广泛的数据源,支持多种计算与处理分析引擎直接对数据进行访问的统一存储平台。从结果来看,数据湖能够实现数据分析、机器学习,以及数据访问和管理等细粒度的授权、审计等功能。
数据湖通常是企业中全量数据的单一存储,对存取的数据没有格式类型的限制,可以存储结构化数据(如关系型数据库中的表),半结构化数据(如CSV、JSON、XML、日志等),非结构化数据(如电子邮件、文档、PDF等)以及二进制数据(如图形、音频、视频等)。数据产生后,可以按照数据的原始内容和属性,直接存储到数据湖,无需在数据上传之前对数据进行任何的结构化处理。
2)数据湖的主要特征日益明显。
数据特征。能够实现全量数据的单一存储,通常存储原始格式的对象块或者文件,可与企业业务数据库和数据仓库无缝集成,扩展现有数据应用。同时并非将数据移动到单个存储库中,在数据原本存储的地方访问数据并动态执行数据转换和汇总。
数据规模。数据湖技术支持超大规模存储及可扩展的大规模数据处理能力,可根据企业的业务需求提供可大可小的弹性扩充。
数据类型。不管是传统数仓承载的结构化数据,还是数仓不能存储的半结构化数据、非结构化数据、二进制数据等任意类型的数据,数据湖都可以轻松实现采集、存储和分析。
赋能用户。数据湖无需任何预处理即可对数据进行采集、存储和分析,还能消除数据采集和存储的复杂性,加速应用数据,赋能广大研发者、数据科学家、分析师,实现对跨平台、跨语言、跨领域的所有数据进行高效分析和处理。
多样化分析能力。可以运行从控制面板和可视化到大数据处理、实时分析和机器学习等不同类型的分析,深度挖掘数据价值,进行预测分析,并保证了数据一致性、可治理和安全性的实现。
3)数据库、数据仓库、数据湖是数据技术不断发展的结果,是传承不是取代。
数据仓库是一个经过优化的数据库,用于分析来自事务系统和业务线应用程序的关系型数据,因此数据仓库存储的都是结构化数据。数据经过了清理、丰富和转换,因此可以充当用户可信任的“单一信息源”。
数据仓库对数据提供高效地存储,便于用户通过报表、看板和分析工具来获取查询结果,从数据中获得洞察力、决策指导。
对应起来看,数据湖存储着来自业务线应用程序的关系型数据,以及来自移动应用程序、IoT设备和社交媒体的非关系型数据。
用户可以对数据使用不同的方式如SQL查询、大数据分析、全文搜索、实时分析和机器学习等,来获得对数据的深入了解。
当不清楚某些数据存在的价值时,将数据以原生格式天然沉积在数据湖。数据来源不尽相同,能够同时存储结构化和非结构化数据。同时,可以使用不同的过程将数据注入到数据湖中。最终,都是为了帮助用户,根据自己的需要更好地处理数据。
4)数据湖技术架构发展经历了三个发展阶段。
第一阶段是自建开源Hadoop数据湖架构。不过随着数据量激增、应用场景的丰富,导致Hadoop的问题凸显。因此,越来越多的方案开始向数据湖转型,解决靠单一Hadoop所没能解决的问题。
第二阶段是上托管Hadoop数据湖架构,底层物理服务器和开源软件版本由云厂商提供和管理,企业需要自己运维和管理。
第三阶段采取云上数据湖架构,即云上纯托管的存储系统,引擎丰富度不断扩展,分离后的存储系统可独立扩展,完成存算分离。
目前,数据湖应用正处于第二和第三阶段,云上纯托管的存储系统,正成为数据湖的存储基础设施。
02
数据湖市场的增速超出预想
虽然数据湖的概念提出仅仅只有十年的时间,但是数据湖市场的增长速度却超出了许多人的预想,带来意外的惊喜。
1)到年数据湖市场将突破亿美元
市场研究机构MarketsandMarkets发布的研究报告显示,年全球数据湖市场规模为79亿美元。同时该机构预测,到年,市场规模将达到亿美元,预测期内(~年)的复合年增长率为20.6%。
中国软件网分析,全球数据湖市场的增长主要取决于以下几个因素:
一是新型数字化企业的需求得到了激发,传统企业以前因为成本、技术和环境限制的需求也得到释放,越来越需要从不断增长的数据量中进行分析从而获得更深入的内容。
二是公有云服务商的大量介入,以及开源技术的应用,将数据湖应用的成本和技术实现难度大幅降低,基于云的数据平台转变有利于管理和减轻数据问题,增加了市场的发展机会。
三是在数据湖上新增的与数据分析相关的功能有望得到更大的丰富。到年,将数据湖和数据仓库良好融合的企业,在实际应用中可以支持多30%的业务使用场景。
2)北美将占据最高份额,亚太市场增长最快。
MarketsandMarkets的报告显示,从地域来看,预计北美将占据最高的全球数据湖市场份额和高增长率,源于大数据技术的使用增加,跨行业、垂直行业的数据量不断增加,公司对数据湖解决方案的投资不断增加,以及数据湖技术的不断进步等。
在欧洲,一方面政府采取了更多的措施来推动数据湖解决方案的采用,如英国。法国越来越注重研发和来自全球玩家和投资者的大量资本流入,推动法国市场的增长。
而亚太地区(APAC),在预测期(~年)内的年复合增长率将达到最高。中国加强人工智能、物联网和大数据技术的整合,推动数据湖解决方案在中国的应用。
3)市场发展呈现四大特点。
一是数据湖组件市场分析中的数据发现、解决方案、数据集成和管理、数据湖分析、数据可视化等几大重要组件迅速发展,快速赢得市场和用户。
二是运营部门年复合增长率最高。从业务功能来看,数据湖具有市场营销、销售、运营、金融和人力资源五大业务功能。MarketsandMarkets预测,运营业务功能年复合增长率最高,市场营销业务功能将占据最大的市场规模。数据湖使公司能够提高运营效率,降低成本。
三是基于云部署模式的数据湖解决方案快速增长。从部署模式来看,数据湖具有本地部署和云部署两种部署模式。MarketsandMarkets报告认为,数据湖市场的大多数供应商都提供基于云的数据湖解决方案,以实现利润最大化和设备维护过程的有效自动化。同样,基于云部署模式的数据湖解决方案增长快速。
四是数据湖行业应用发展迅速。数据湖解决方案被广泛应用在银行、金融服务和保险、IT、零售、医疗、制造生产、能源和公共事业、媒体和娱乐、政府以及教育等多个垂直领域当中。
03
云服务商已经是数据湖市场最大的赢家
作为大数据的变革新生力量,数据湖技术一经问世,便深受不同领域企业的拥戴。目前,数据湖市场主要有三类供应商:
1)开源数据湖的四大项目
目前市面上流行的三大开源数据湖方案分别为:ApacheDelta、ApacheIceberg和ApacheHudi。开源项目的优势包括:头部企业提出的开源项目,技术可行性强;群策群智,发展迅速;商业化版本也比较多,方便选择等。
由于ApacheSpark在商业化上取得巨大成功,所以由其背后商业公司Databricks推出的DeltaLake也显得格外亮眼。
DeltaLake项目于年通过ApacheLicense开放源码,是Databricks解决方案的重要组成部分。Delta定位为数据湖存储层,集成流式和批处理,支持更新/删除/合并,为ApacheSpark和大数据工作负载提供ACID事务能力。一些关键特性包括:支持多重分析引擎、廉价存储、支持流批读写、支持Python接口等。
ApacheHudi是由Uber的工程师为满足其内部数据分析的需求而设计的数据湖项目,后提供ApacheLicense开放源码。该项目在Apache社区非常活跃,年4月取得了最高项目地位。Hudi提供的fastupsert/delete以及
转载请注明:http://www.0431gb208.com/sjszlff/3784.html