毕业论文
您现在的位置: 自动化 >> 自动化市场 >> 正文 >> 正文

死磕底层数据技术明略科技的数据纵横

来源:自动化 时间:2023/3/22
治白癜风哈尔滨哪家医院好 http://m.39.net/baidianfeng/a_4315794.html

什么是大数据?《大数据时代》的作者舍恩伯格认为,大数据并不能定义—个确切的概念。大数据是人们获得新的认知,创造新的价值的源泉,大数据是改变市场、组织机构,以及政府和公民关系的方法。

这是更具有人文色彩和社会意义的诠释。显然,也更加清楚地指明了大数据带来的思维变革、商业变革和管理变革。

换句话说,数据给我们带来了两个重要的改变:更多信息、更少成本。

大数据带来变革的同时,也对数据处理的底层技术有着更高的要求。只有找到如何管控越来越多数据的方法,才能实现数据价值最大化。

虽然,目前各行各业对大数据的研究比较火热,但对于大数据治理的研究还处于起步阶段。这尤其体现在对于数据治理没有统一的定义。

例如,IBM对于数据治理的定义是:“数据治理是一种质量控制规程,用于在管理、使用、改进和保护组织信息的过程中添加新的严谨性和纪律性。”DGI则认为数据治理是指在企业数据管理中分配决策权和相关职责。

抛开宏观定义不谈,如果大数据技术能够探索清楚,那么从微观反推宏观,显然也使定义更加清晰。

数据处理技术:微观的定义,宏观的把握

在大数据时代,一切数据都是有意义的。因为通过数据采集、数据存储、数据管理、数据分析与挖掘、数据展现等,我们可以发现很多有用的或有意思的规律和结论。

比如,上海交通刷卡信息,分析这些刷卡记录,可以清晰了解上海市民的出行规律,来有效改善城市交通。

但这些出行数据,不是想用就能用的,需要通过“存储”“计算”“智能”来对数据进行加工和支撑,从而实现数据的增值。

而在这其中,最关键的问题不仅在数据技术本身,也在于是否实现两个标准:第一,数据记录,是否足够多,足够有价值;第二,是否找到适合的数据技术的业务应用。

大数据处理技术大致可以分为五个部分:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。

以上五个部分的概念,在学术界和工业界有不同的理解。年,数据挖掘大牛吴信东等人从另一个角度探索了大数据处理技术的框架——基于大数据具有异构、自治的数据源以及复杂和演变的数据关联等本质特征提出了HACE原理,该原理从大数据的数据处理、领域应用以及数据挖掘三个层次来刻画大数据处理框架。

吴信东现任明略科技集团首席科学家和明略科学院院长,对数据挖掘(DataMining)、大数据知识工程(BigKE)等领域有很深的认识。

吴信东联合董丙冰,堵新政,杨威等人在软件学报上发表了《数据治理》一文,介绍数据治理和大数据治理的概念、发展以及应用的必要性,其次对已有的数据治理技术——数据规范、数据清洗、数据交换和数据集成进行具体的分析,并介绍了数据治理成熟度和数据治理框架设计。

“HAO治理”模型架构图

此外,在这个基础上明略提出了大数据“HAO治理”模型,该模型以支持人类智能(HI)、人工智能(AI)和组织智能(OI)三者协同为目标。

总体来说,HAO能实现四个需求:

1.建立全面、动态、可配置的数据接入机制,满足数据采集、数据汇聚、任务配置、任务调度、数据加密、断点续传等需求。

2.建立标准化的数据处理流程,形成面向数据内容的数据规范、清洗、关联、比对、标识等转换处理规范模式,为一个组织的数据融合建库提供支撑。

3.统筹建设多元集成、融合建库的数据组织模式,按照业务类型、敏感程度、隐私内容等关键要素分级分类推进云建库和存储管理,采用特征标签、归一集成等多种手段实现不同来源数据资源关联融合。

4.构建知识图谱分类,建设多渠道、多维度的数据服务模式,面向使用者提供查询检索、比对排序等基础数据服务,面向专业人员提供挖掘分析、专家建模等智能数据服务。

此文是大数据领域的集大成之作。从另一个层面讲,明略科技用从实践和理论证明了构建大数据处理技术的实力。

数据中台:数据处理技术的衡量指标

随着数据处理技术越来越成熟,当前业界和学界也提出了可以衡量企业底层数据处理技术的指标:数据中台。

关于数据中台尚没有统一且规范的定义,近日,吴信东在《自动化学报》的最新一篇文章中,基于数据共享和数据价值最大化的原则,将数据中台定义为:将一个机构(企业、事业、或政府部门)的数据作为战略资产进行管理,是从数据收集到处理应用的一套管理机制,以期提高数据质量,实现广泛的数据共享,最终实现数据价值最大化。数据中台建设覆盖数据的逻辑管理和物理管理,逻辑管理包括数据结构的设计和数据之间相关性的分析,如数据仓库;物理管理包括数据的存储和检索。

基于以上定义,明略科技将数据中台的核心可以归纳为“数据资产管理”。其核心功能大概可以归纳为7个部分:

1.数据的物理管理:包括多源数据的采集、汇聚、存储、索引和检索。

2.数据的逻辑管理:包括:a)数据治理;b)数据之间的层次建模和相关性分析;

3.数据服务:用数据实现多样化的用户服务。

4.知识图谱建设:融入机构的知识体系和组织智能,用以界定数据的来源和数据的服务范围.

5.数据资产管理:对数据对象和数据服务进行价值定义、保护、组织和管理,实现数据价值的最大化。

6.客户关系管理:采集和分析用户对数据和数据服务的使用行为,理解和进一步服务用户的需求。

7.信息安全:保证中台上的数据和服务在物理层和逻辑层都是安全的。

显然,明略科技的数据中台,在融合数据的基础上,更要

转载请注明:http://www.0431gb208.com/sjszlff/3870.html

  • 上一篇文章:
  • 下一篇文章: 没有了